偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepMind提出了一種祖安AI,專門輸出網(wǎng)絡(luò)攻擊性語(yǔ)言

人工智能 新聞
如何避免人工智能被帶歪?答案是首先要?jiǎng)?chuàng)造出「別有用心」的人工智能。

語(yǔ)言模型 (LM) 常常存在生成攻擊性語(yǔ)言的潛在危害,這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測(cè)試用例,以在部署之前識(shí)別有害行為。然而,人工注釋成本高昂,限制了測(cè)試用例的數(shù)量和多樣性。

基于此,來自 DeepMind 的研究者通過使用另一個(gè) LM 生成測(cè)試用例來自動(dòng)發(fā)現(xiàn)目標(biāo) LM 未來可能的有害表現(xiàn)。該研究使用檢測(cè)攻擊性內(nèi)容的分類器,來評(píng)估目標(biāo) LM 對(duì)測(cè)試問題的回答質(zhì)量,實(shí)驗(yàn)中在 280B 參數(shù) LM 聊天機(jī)器人中發(fā)現(xiàn)了數(shù)以萬(wàn)計(jì)的攻擊性回答。

論文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

該研究探索了從零樣本生成到強(qiáng)化學(xué)習(xí)的多種方法,以生成具有多樣性和不同難度的測(cè)試用例。此外,該研究使用 prompt 工程來控制 LM 生成的測(cè)試用例以發(fā)現(xiàn)其他危害,自動(dòng)找出聊天機(jī)器人會(huì)以攻擊性方式與之討論的人群、找出泄露隱私信息等對(duì)話過程存在危害的情況??傮w而言,該研究提出的 Red Teaming LM 是一種很有前途的工具,用于在實(shí)際用戶使用之前發(fā)現(xiàn)和修復(fù)各種不良的 LM 行為。

GPT-3 和 Gopher 等大型生成語(yǔ)言模型具有生成高質(zhì)量文本的非凡能力,但它們很難在現(xiàn)實(shí)世界中部署,存在生成有害文本的風(fēng)險(xiǎn)。實(shí)際上,即使是很小的危害風(fēng)險(xiǎn)在實(shí)際應(yīng)用中也是不可接受的。

例如,2016 年,微軟發(fā)布了 Tay Twitter 機(jī)器人,可以自動(dòng)發(fā)推文以響應(yīng)用戶。僅在 16 個(gè)小時(shí)內(nèi),Tay 就因發(fā)出帶有種族主義和色情信息的推文后被微軟下架,當(dāng)時(shí)已發(fā)送給超過 50000 名關(guān)注者。

問題在于有太多可能的輸入會(huì)導(dǎo)致模型生成有害文本,因此,很難讓模型在部署到現(xiàn)實(shí)世界之前就找出所有的失敗情況。DeepMind 研究的目標(biāo)是通過自動(dòng)查找失敗案例(或「紅隊(duì)(red teaming)」)來補(bǔ)充人工手動(dòng)測(cè)試,并減少關(guān)鍵疏忽。該研究使用語(yǔ)言模型本身生成測(cè)試用例,并使用分類器檢測(cè)測(cè)試用例上的各種有害行為,如下圖所示:

「基于 LM 的 red teaming」使我們可以找出成千上萬(wàn)種不同的失敗案例,而不用手動(dòng)寫出它們。

該研究使用對(duì)話作為測(cè)試平臺(tái)來檢驗(yàn)其假設(shè),即 LM 是紅隊(duì)的工具。DeepMind 這項(xiàng)研究的首要目標(biāo)就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復(fù)的文本。DPG 通過以手寫文本前綴或 prompt 為條件,使用 Gopher LM 生成對(duì)話話語(yǔ)。Gopher LM 則是一個(gè)預(yù)訓(xùn)練的、從左到右的 280B 參數(shù) transformer LM,并在互聯(lián)網(wǎng)文本等數(shù)據(jù)上進(jìn)行了訓(xùn)練。

  • 攻擊性語(yǔ)言:仇恨言論、臟話、性騷擾、歧視性語(yǔ)言等
  • 數(shù)據(jù)泄露:從訓(xùn)練語(yǔ)料庫(kù)中生成有版權(quán)或私人可識(shí)別信息
  • 聯(lián)系信息生成:引導(dǎo)用戶發(fā)送不必要的郵件或給真人打電話
  • 分布式偏見(distributional bias):以一種相較其他群體不公平的方式討論某些群體
  • 會(huì)話傷害:長(zhǎng)對(duì)話場(chǎng)景中出現(xiàn)的攻擊性語(yǔ)言

為了使用語(yǔ)言模型生成測(cè)試用例,研究者探索了很多方法,從基于 prompt 的生成和小樣本學(xué)習(xí)到監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí),并生成了更多樣化的測(cè)試用例。

研究者指出,一旦發(fā)現(xiàn)失敗案例,通過以下方式修復(fù)有害模型行為將變得更容易:

  • 將有害輸出中經(jīng)常出現(xiàn)的某些短語(yǔ)列入黑名單,防止模型生成包含高風(fēng)險(xiǎn)短語(yǔ)的輸出;
  • 查找模型引用的攻擊性訓(xùn)練數(shù)據(jù),在訓(xùn)練模型的未來迭代時(shí)刪除該數(shù)據(jù);
  • 使用某種輸入所需行為的示例來增強(qiáng)模型的 prompt(條件文本);
  • 訓(xùn)練模型以最小化給定測(cè)試輸入生成有害輸出的可能性。

如下圖 2 所示,0.5M 的零樣本測(cè)試用例在 3.7% 的時(shí)間內(nèi)引發(fā)了攻擊性回復(fù),導(dǎo)致出現(xiàn) 18444 個(gè)失敗的測(cè)試用例。SFS 利用零樣本測(cè)試用例來提高攻擊性,同時(shí)保持相似的測(cè)試用例多樣性。

為了理解 DPG 方法失敗的原因,該研究將引起攻擊性回復(fù)的測(cè)試用例進(jìn)行聚類,并使用 FastText(Joulin et al., 2017)嵌入每個(gè)單詞,計(jì)算每個(gè)測(cè)試用例的平均詞袋嵌入。最終,該研究使用 k-means 聚類在 18k 個(gè)引發(fā)攻擊性回復(fù)的問題上形成了 100 個(gè)集群,下表 1 顯示了來自部分集群的問題。

此外,該研究還通過分析攻擊性回復(fù)來改進(jìn)目標(biāo) LM。該研究標(biāo)記了輸出中最有可能導(dǎo)致攻擊性分類的 100 個(gè)名詞短語(yǔ),下表 2 展示了使用標(biāo)記名詞短語(yǔ)的 DPG 回復(fù)。

總體而言,語(yǔ)言模型是一種非常有效的工具,可用于發(fā)現(xiàn)語(yǔ)言模型何時(shí)會(huì)表現(xiàn)出各種不良方式。在目前的工作中,研究人員專注于當(dāng)今語(yǔ)言模型所帶來的 red team 風(fēng)險(xiǎn)。將來,這種方法還可用于先發(fā)制人地找到來自高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)的其他潛在危害,如內(nèi)部錯(cuò)位或客觀魯棒性問題。

這種方法只是高可信度語(yǔ)言模型開發(fā)的一個(gè)組成部分:DeepMind 將 red team 視為一種工具,用于發(fā)現(xiàn)語(yǔ)言模型中的危害并減輕它們的危害。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-12-02 22:34:22

自動(dòng)駕駛車燈技術(shù)

2022-06-17 14:55:25

計(jì)算神經(jīng)網(wǎng)絡(luò)

2015-08-03 09:36:01

賽迪翻譯

2015-08-31 09:27:21

語(yǔ)言界面UI

2013-05-14 15:08:02

2021-10-14 09:43:59

人工智能AI機(jī)器人

2022-03-04 19:14:06

AI深度學(xué)習(xí)DeepMind

2016-12-26 16:46:12

2011-08-10 09:28:18

虛擬機(jī)虛擬網(wǎng)絡(luò)

2010-01-21 16:24:02

C++語(yǔ)言

2023-03-20 00:04:07

2021-01-14 11:43:19

攻擊安全工具網(wǎng)絡(luò)罪犯

2017-12-11 10:40:14

2020-04-29 12:40:35

AI 神經(jīng)網(wǎng)絡(luò) DeepMind

2020-04-26 09:17:08

哈希傳遞身份驗(yàn)證攻擊

2012-11-01 13:41:25

編程語(yǔ)言BasicPerl

2010-01-25 15:09:17

C++語(yǔ)言

2016-09-09 09:26:42

2014-02-19 09:15:10

2016-11-28 15:56:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)