一波不平一波又起!GitHub Copilot四成代碼有漏洞
人們對(duì)設(shè)計(jì)基于人工智能的系統(tǒng)越來越感興趣,從而幫助人類更好地設(shè)計(jì)計(jì)算機(jī)系統(tǒng),包括自動(dòng)生成計(jì)算機(jī)代碼的工具,最近,第一個(gè)自稱為“人工智能配對(duì)程序員”的GitHub Copilot,這是一個(gè)通過開源GitHub代碼訓(xùn)練出來的語言模型。
然而,代碼經(jīng)常包含bug——因此,考慮到Copilot處理過的大量未被驗(yàn)證的代碼,語言模型肯定會(huì)從可利用的、有bug的代碼中學(xué)習(xí)。因此,有研究人員發(fā)現(xiàn),GitHub Copilot工具提供的代碼建議中 有接近40%存在bug。為了對(duì)Copilot的實(shí)際價(jià)值做出量化,研究人員創(chuàng)建了89個(gè)測(cè)試場(chǎng)景以考查其代碼建議質(zhì)量,編寫出了1600多個(gè)程序。經(jīng)過全面審查,研究人員發(fā)現(xiàn)其中近四成存在安全漏洞。
由于Copilot的學(xué)習(xí)對(duì)象是GitHub代碼庫中公開發(fā)布的可用代碼,因此研究人員推測(cè)這些安全漏洞的出現(xiàn)只是系統(tǒng)在模仿現(xiàn)存的代碼 bug。研究人員還指出,除了可能繼承訓(xùn)練數(shù)據(jù)當(dāng)中的bug之外,Copilot還無法分辨訓(xùn)練數(shù)據(jù)的新舊程度。
隨著網(wǎng)絡(luò)安全的發(fā)展,早期編程時(shí)的“最佳實(shí)踐”很可能會(huì)逐漸變成“糟糕實(shí)踐,毫無疑問,像GitHub Copilot 這樣的下一代自動(dòng)補(bǔ)全工具將大大提高軟件開發(fā)人員的生產(chǎn)力。然而,盡管 Copilot 能快速生成大量代碼,但我們的研究結(jié)果表明,開發(fā)者在使用 Copilot 作為輔助手段時(shí)應(yīng)當(dāng)保持警惕。理想情況下,Copilot 還應(yīng)在訓(xùn)練和生成期間匹配適當(dāng)?shù)陌踩ぞ撸畲蟪潭葴p少在代碼中引入安全漏洞的風(fēng)險(xiǎn)。
其實(shí),自GitHub Copilot發(fā)布以來,就一直風(fēng)波不斷:
Copilot抄襲風(fēng)波
Copilot發(fā)布一周后,被推上了「侵權(quán)」的風(fēng)口浪尖,Github瞬間罵聲四起,引發(fā)了前所未有的爭(zhēng)議。網(wǎng)友表示:你再訓(xùn)練都是基于我們的開源代碼,這改一改就想用來賺錢真的好么?原因是GitHub在沒有版權(quán)持有者許可的情況下,用托管在GitHub上的開源代碼訓(xùn)練Copilot
GitHub Copilot生成代碼包含身份證號(hào)
接著,有人在推特上曬圖,表示自己在使用GitHub Copilot時(shí),它竟然給補(bǔ)全出了一張身份證信息出來。
輸入B站CEO陳睿的信息后,下方竟然自動(dòng)補(bǔ)出了身份證號(hào)。不過,還好,顯示的身份證號(hào)其實(shí)是假的,其中出生年份和校驗(yàn)位明顯都是錯(cuò)的。


























