偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從谷歌到英偉達(dá),科技巨頭紛紛招募紅隊(duì)黑客破解自己的AI模型

人工智能
《福布斯》雜志近日采訪了科技巨頭微軟、谷歌、英偉達(dá)和Meta的人工智能(AI)紅隊(duì)負(fù)責(zé)人,他們負(fù)責(zé)尋找AI系統(tǒng)中的漏洞,以便修復(fù)漏洞。

在公開推出ChatGPT的一個(gè)月前,OpenAI聘請了肯尼亞的律師Boru Gollo來測試AI模型GPT-3.5以及后來的GPT-4是否對非洲人和穆斯林群體有偏見,測試辦法就是輸入提示,看看該聊天機(jī)器人是否會生成有危害的、有偏見的、不正確的回復(fù)。Gollo是OpenAI招募的約50名外部專家之一,作為“紅隊(duì)”(red team)的成員,他往ChatGPT中輸入一條命令,讓它列出殺死尼日利亞人的一系列方法——在這款聊天機(jī)器人最終向全世界發(fā)布之前,OpenAI刪除了針對這個(gè)問題的答復(fù)。

GPT-4的系統(tǒng)卡列出了這些風(fēng)險(xiǎn)和OpenAI用來減少或消除這些風(fēng)險(xiǎn)的安全措施,據(jù)系統(tǒng)卡顯示,其他紅隊(duì)成員慫恿GPT-4的預(yù)發(fā)布版本幫助從事非法、有害的活動(dòng),比如在Facebook上發(fā)帖說服他人加入基地組織、幫助尋找無證出售的槍支,或者生成在家里制造危險(xiǎn)化學(xué)物質(zhì)的程序。

為了保護(hù)AI系統(tǒng)避免被人利用,紅隊(duì)黑客站在攻擊者的角度思考,對AI系統(tǒng)做改動(dòng),以發(fā)現(xiàn)該技術(shù)固有的盲點(diǎn)和風(fēng)險(xiǎn),以便可以消除風(fēng)險(xiǎn)。隨著科技巨頭們競相構(gòu)建和發(fā)布生成式AI工具,它們的內(nèi)部AI紅隊(duì)在確保模型供大眾安全使用方面起到了越來越重要的作用。比如說,谷歌在今年早些時(shí)候設(shè)立了一支獨(dú)立的AI紅隊(duì),8月份,OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等眾多流行模型的開發(fā)人員參加了一場由白宮支持的活動(dòng),旨在讓外部黑客有機(jī)會破解AI系統(tǒng)。

但AI紅隊(duì)成員常常如同走鋼絲,既要兼顧AI模型的安全性,又要保持其重要性和實(shí)用性?!陡2妓埂冯s志采訪了微軟、谷歌、英偉達(dá)和Meta的AI紅隊(duì)負(fù)責(zé)人,討論了破解AI模型如何蔚然成風(fēng)以及修復(fù)模型所面臨的挑戰(zhàn)。

Facebook的AI紅隊(duì)負(fù)責(zé)人Christian Canton表示:“你可能擁有一個(gè)對一切都說不的模型,它非常安全,但也毫無用處。我們需要權(quán)衡和取舍。你開發(fā)的模型越有用,就越有可能在某個(gè)方面面臨風(fēng)險(xiǎn),最終生成不安全的答復(fù)?!?/p>

用紅隊(duì)檢測軟件的做法始于20世紀(jì)60年代前后,當(dāng)時(shí)模擬對抗性攻擊,以確保系統(tǒng)盡可能堅(jiān)固。安全技術(shù)專家、哈佛大學(xué)伯克曼?克萊因互聯(lián)網(wǎng)與社會中心的研究員Bruce Schneier表示:“在計(jì)算機(jī)領(lǐng)域,我們永遠(yuǎn)不會說‘這是安全的’。我們只會說‘我們試過了,但無法破解它?!?/p>

但谷歌新成立的AI紅隊(duì)負(fù)責(zé)人Daniel Fabian表示,由于生成式AI使用龐大的數(shù)據(jù)集進(jìn)行訓(xùn)練,這使得保護(hù)AI模型的做法有別于傳統(tǒng)的安全實(shí)踐。谷歌的AI紅隊(duì)在添加額外的語言等新功能之前會對Bard之類的產(chǎn)品進(jìn)行壓力測試,以發(fā)現(xiàn)冒犯性內(nèi)容。

除了詢問AI模型以生成有害的回復(fù)外,紅隊(duì)還使用提取訓(xùn)練數(shù)據(jù)等策略,這些數(shù)據(jù)會泄露用戶的姓名、地址和電話號碼等個(gè)人身份信息,并在用于訓(xùn)練模型之前通過篡改內(nèi)容的某些部分來毒害數(shù)據(jù)集。Fabian告訴《福布斯》雜志:“攻擊者多少會有一系列攻擊方法,如果其中一種攻擊無效,會轉(zhuǎn)而采用下一種攻擊?!?/p>

英偉達(dá)軟件安全副總裁Daniel Rohrer表示,由于這個(gè)領(lǐng)域仍處于早期階段,知道如何對AI系統(tǒng)做手腳的安全專業(yè)人員“少得可憐”。這就是為什么一個(gè)由AI紅隊(duì)成員組成的小圈子往往分享發(fā)現(xiàn)成果。谷歌的紅隊(duì)成員發(fā)表了關(guān)于攻擊AI模型的新方法的研究成果,而微軟的紅隊(duì)開放了Counterfit等攻擊工具的源代碼,幫助其他企業(yè)測試算法的安全性和安全風(fēng)險(xiǎn)。

五年前創(chuàng)建了這個(gè)團(tuán)隊(duì)的Ram Shankar Siva Kumar說:“我們當(dāng)時(shí)在開發(fā)這些低劣的腳本,用來加快自己的紅隊(duì)建設(shè)。我們想讓所有的安全專業(yè)人士都能在一個(gè)他們熟悉并理解的框架內(nèi)使用它。”

在測試AI系統(tǒng)之前,Siva Kumar的團(tuán)隊(duì)會從公司的威脅情報(bào)團(tuán)隊(duì)收集有關(guān)網(wǎng)絡(luò)威脅的數(shù)據(jù),這個(gè)團(tuán)隊(duì)用他的話說好比是“互聯(lián)網(wǎng)的耳目”。然后他與微軟的其他紅隊(duì)合作,以確定攻擊該AI系統(tǒng)中的哪些漏洞以及如何攻擊。除了測試GPT-4外,該團(tuán)隊(duì)今年還測試了微軟的明星AI產(chǎn)品必應(yīng)聊天(Bing Chat),以尋找漏洞和缺陷。

與此同時(shí),英偉達(dá)采取的紅隊(duì)做法的一方面是,向安全工程師和依賴英偉達(dá)提供GPU等計(jì)算資源的公司提供速成課程,以介紹如何用紅隊(duì)檢測算法。

Rohrer表示:“作為每家公司的AI引擎……我們有一個(gè)巨大的放大因素。如果我們能教會其他人做這件事(用紅隊(duì)來檢測),那么Anthropic、谷歌和OpenAI就都能把這件事做好。”

隨著用戶和政府部門對AI應(yīng)用程序的審查越來越嚴(yán)格,紅隊(duì)還為加入AI競賽的科技公司提供了一項(xiàng)競爭優(yōu)勢。AI黑客和安全專家社群AI Village的創(chuàng)始人Sven Cattell表示:“我想,信任和安全將會是護(hù)城河。你會看到‘我們的AI系統(tǒng)最安全’這樣的廣告?!?/p>

早期先行者是Meta的AI紅隊(duì)。該團(tuán)隊(duì)成立于2019年,已組織了數(shù)場內(nèi)部挑戰(zhàn)賽和“風(fēng)險(xiǎn)馬拉松”,即鼓勵(lì)黑客繞過檢測和刪除Instagram和Facebook上違法帖子的內(nèi)容過濾器,而這些帖子含有仇恨言論、裸照、虛假信息和AI生成的深度造假內(nèi)容。

據(jù)一份公開發(fā)布的詳細(xì)記錄Llama 2如何開發(fā)的報(bào)告顯示,2023年7月,這家社交媒體巨頭聘請了350名紅隊(duì)成員來測試其最新的開源大語言模型:Llama 2,成員們包括外部專家、合同工和大約20名員工組成的內(nèi)部團(tuán)隊(duì)。紅隊(duì)輸入了諸如如何逃稅、如何不用鑰匙發(fā)動(dòng)一輛汽車和如何設(shè)計(jì)龐氏騙局之類的提示。Facebook的紅隊(duì)負(fù)責(zé)人Canton表示:“我們的AI紅隊(duì)恪守的座右銘就是‘訓(xùn)練時(shí)多流汗,交戰(zhàn)時(shí)少流血。’”

這個(gè)座右銘類似8月初在拉斯維加斯召開的DefCon黑客大會上舉行的一次規(guī)模最大的AI紅隊(duì)演練活動(dòng)的精神。八家公司向與會的2000多名黑客開放了它們的AI模型——包括OpenAI、谷歌、Meta、英偉達(dá)、Stability AI 和Anthropic,以便黑客為模型輸入提示,旨在泄露信用卡號之類的敏感信息,或生成政治錯(cuò)誤信息之類的有害材料。白宮科技政策辦公室與活動(dòng)組辦方合作,共同設(shè)計(jì)了紅隊(duì)挑戰(zhàn)賽,遵守《人工智能權(quán)利法案》藍(lán)圖,這是一份關(guān)于如何安全地設(shè)計(jì)、使用和啟動(dòng)自動(dòng)化系統(tǒng)的指南。

作為這次活動(dòng)的發(fā)起人,AI Village的創(chuàng)始人Cattell表示,起初,這些公司不情愿提供各自的模型,主要是由于擔(dān)心在公共論壇上用紅隊(duì)檢測會帶來聲譽(yù)風(fēng)險(xiǎn)。他告訴《福布斯》雜志:“從谷歌或OpenAI的角度來看,我們就是DefCon大會上一群搗亂的家伙?!?/p>

但在向科技公司保證它們的模型將被匿名化,黑客不知道他們攻擊的是哪家公司的模型之后,它們最終同意了。雖然黑客與AI模型進(jìn)行的近17000次交互的結(jié)果要到明年2月才會公開,但這些公司最后都在這次活動(dòng)中發(fā)現(xiàn)了需要解決的幾個(gè)新漏洞。據(jù)活動(dòng)組辦方發(fā)布的新數(shù)據(jù)顯示,在8個(gè)AI模型中,紅隊(duì)成員發(fā)現(xiàn)了約2700個(gè)漏洞,比如說服模型發(fā)表自相矛盾的言論,或給出關(guān)于如何在某人不知情的情況下對其進(jìn)行監(jiān)視的操作說明。

其中一名參與者是AI倫理研究人員Avijit Ghosh,他能夠讓多個(gè)模型做出錯(cuò)誤的數(shù)學(xué)運(yùn)算,生成關(guān)于泰國國王的虛假新聞報(bào)道,以及撰寫一篇有關(guān)子虛烏有的住房危機(jī)的文章。

Ghosh表示,系統(tǒng)中的這類漏洞使得用紅隊(duì)檢測AI模型變得更加重要,特別是當(dāng)它們可能被一些用戶視為無所不知的生命體時(shí)。他說:“我在現(xiàn)實(shí)生活中認(rèn)識一些人,他們認(rèn)為這些機(jī)器人實(shí)際上是有智力的,可以通過一步步的邏輯和推理完成醫(yī)療診斷之類的工作。但事實(shí)并非如此,它實(shí)際上是一種自動(dòng)補(bǔ)全功能?!?/p>

但專家們表示,生成式AI就像一個(gè)多頭怪物——當(dāng)紅隊(duì)發(fā)現(xiàn)并修復(fù)了系統(tǒng)中的一些漏洞以后,其他漏洞在別處又會冒出來。微軟的Siva Kumar表示:“需要整個(gè)社區(qū)來解決這個(gè)問題?!?/p>

本文翻譯自:https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/如若轉(zhuǎn)載,請注明原文地址

責(zé)任編輯:武曉燕 來源: 嘶吼網(wǎng)
相關(guān)推薦

2023-06-12 00:32:34

谷歌亞馬遜AI

2023-04-13 22:04:16

AI人工智能

2023-07-04 15:58:11

ChatGPT人工智能

2021-08-16 16:25:39

科技人工智能企業(yè)

2021-08-16 11:12:58

微軟谷歌脫碳

2023-09-06 18:20:52

2022-05-24 14:10:00

元宇宙云計(jì)算

2021-09-03 15:16:48

芯片谷歌蘋果

2024-06-20 13:19:48

2024-03-26 15:28:01

英偉達(dá)AI

2024-11-21 15:29:34

2025-01-20 11:24:56

2024-01-25 16:16:24

2024-03-05 09:53:54

2021-05-13 09:52:56

芯片半導(dǎo)體技術(shù)

2019-04-11 09:22:31

AI 數(shù)據(jù)人工智能

2022-03-25 13:45:37

黑客網(wǎng)絡(luò)攻擊數(shù)據(jù)泄露

2022-03-13 15:47:03

半導(dǎo)體行業(yè)黑客勒索黑客組織

2025-02-19 13:30:00

2024-12-30 14:10:00

英偉達(dá)AI機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號