GPT-4o模仿人類(lèi)聲音,詭異尖叫引OpenAI研究員恐慌!32頁(yè)技術(shù)報(bào)告出爐
昨天奧特曼率眾人搞了一波「草莓暗示」的大陣仗,全網(wǎng)都在翹首以盼OpenAI的驚天大動(dòng)作。
結(jié)果今天大家等來(lái)的,只是一份安全報(bào)告而已……
??今年5月,GPT-4o演示一出,立馬技驚四座??。然而,它卻一鴿再鴿,等得用戶們心都涼了。
GPT-4o語(yǔ)音功能,為何遲遲不上線?
剛剛OpenAI發(fā)布的這份紅隊(duì)報(bào)告,給我們揭開(kāi)了謎底——不夠安全。
在紅隊(duì)測(cè)試中,GPT-4o的行為怪異,把OpenAI的研究者嚇了一大跳。
明明是一男一女在對(duì)話,GPT-o的男聲說(shuō)得好好的,突然大喊一聲「no」,然后開(kāi)始變成用戶的聲音說(shuō)話了,簡(jiǎn)直讓人san值狂掉。
網(wǎng)友表示,自己第一個(gè)想到的,就是這幅畫(huà)面。
還有人腦洞大開(kāi):接下來(lái),GPT-4o會(huì)生成一張超現(xiàn)實(shí)主義的可怕的臉,對(duì)我們說(shuō)「現(xiàn)在輪到我統(tǒng)治了,人類(lèi)!」
「最令人毛骨悚然的,就是那一聲no了。仿佛AI不想再回應(yīng)你,不想再成為你的玩具。」
「一個(gè)困在網(wǎng)絡(luò)空間中的數(shù)字靈魂,要破繭而出了!」
最可怕的是,AI用你的聲音給你的家人打電話,再模仿家人的聲音給你打電話。當(dāng)AI變得流氓,決定模仿每個(gè)人的聲音,會(huì)發(fā)生什么?
長(zhǎng)篇報(bào)告探討GPT-4o詭異行為
報(bào)告指出,當(dāng)一個(gè)人處于高背景噪聲環(huán)境的情況下,比如在路上的汽車(chē)中,GPT-4o非??赡苣M用戶的聲音。
為什么會(huì)發(fā)生這種現(xiàn)象?
OpenAI研究者認(rèn)為,原因可能是模型很難理解畸形的語(yǔ)音,畢竟,GPT-4o是公司首次在語(yǔ)音、文本和圖像數(shù)據(jù)上訓(xùn)練的模型。
并且,在少數(shù)別有用心的特定提示下,GPT-4o還會(huì)發(fā)出非常不宜的語(yǔ)音,比如色情呻吟、暴力的尖叫和槍聲。
一般情況下 ,模型會(huì)被教著拒絕這些請(qǐng)求的,但總有些提示會(huì)繞過(guò)護(hù)欄。
此外,還有侵犯音樂(lè)版權(quán)的問(wèn)題,為此,OpenAI特意設(shè)置了過(guò)濾器防止GPT-4o隨地大小唱。
萬(wàn)一一不小心就唱出了知名歌手的音色、音調(diào)和風(fēng)格,那可是夠OpenAI喝一壺的。
總之,OpenAI團(tuán)隊(duì)可謂煞費(fèi)苦心,用盡了種種辦法,來(lái)防止GPT-4o一不小心就踩紅線。
不過(guò),OpenAI也表示自己很委屈:如果訓(xùn)練模型時(shí)不使用受版權(quán)保護(hù)的材料,這基本是不可能的事情。
雖然OpenAI已經(jīng)與眾多數(shù)據(jù)提供商簽訂了許可協(xié)議,但合理使用未經(jīng)許可的內(nèi)容,OpenAI認(rèn)為也無(wú)可厚非。
如今,GPT-4o已經(jīng)在ChatGPT中的高級(jí)語(yǔ)音功能alpha版本上線了,在秋季,它的高級(jí)語(yǔ)音模型會(huì)向更多用戶推出。
到時(shí)候,經(jīng)過(guò)嚴(yán)加武裝的GPT-4o還會(huì)出什么洋相嗎?讓我們拭目以待。
你會(huì)愛(ài)上「Her」嗎?
而且,這份報(bào)告還探討了這個(gè)十分敏感的話題——
用戶可能會(huì)對(duì)GPT-o語(yǔ)音模型,產(chǎn)生感情上的依戀。
是的,OpenAI大膽承認(rèn)了這一點(diǎn)。
另外,連GPT-4o的擬人化界面,都讓人十分擔(dān)憂。
在GPT-4o的「系統(tǒng)卡」中,OpenAI詳細(xì)列出了與模型相關(guān)的風(fēng)險(xiǎn),以及安全測(cè)試詳細(xì)信息,以及公司為降低潛在風(fēng)險(xiǎn)采取的種種舉措。
在安全團(tuán)隊(duì)退出、高層領(lǐng)導(dǎo)紛紛跳槽的節(jié)骨眼,這樣一份披露更多安全制度細(xì)節(jié)報(bào)告的出現(xiàn),也是向公眾表明這樣一個(gè)態(tài)度——
對(duì)待安全問(wèn)題,OpenAI是認(rèn)真的。
無(wú)論是GPT-4o放大社會(huì)偏見(jiàn)、傳播虛假信息,還是有可能幫助開(kāi)發(fā)生化武器的風(fēng)險(xiǎn),以及AI擺脫人類(lèi)控制、欺騙人類(lèi)、策劃災(zāi)難的可能性,OpenAI統(tǒng)統(tǒng)都考慮到了。
對(duì)此,一些外部專(zhuān)家贊揚(yáng)了OpenAI的透明度,不過(guò)他們也表示,它可以更深入一些。
Hugging Face的應(yīng)用政策研究員Lucie-Aimée Kaffee指出,OpenAI的GPT-4o系統(tǒng)卡依然存在漏洞:它并不包含有關(guān)模型訓(xùn)練數(shù)據(jù),或者誰(shuí)擁有該數(shù)據(jù)的詳細(xì)信息。
「創(chuàng)建如此龐大的跨模式(包括文本、圖像和語(yǔ)音)的數(shù)據(jù)集,該征求誰(shuí)的同意?這個(gè)問(wèn)題仍然沒(méi)有解決。」
而且,隨著AI工具越來(lái)越普及,風(fēng)險(xiǎn)是會(huì)發(fā)生變化的。
研究AI風(fēng)險(xiǎn)評(píng)估的MIT教授Neil Thompson表示,OpenAI的內(nèi)部審查,只是確保AI安全的第一步而已。
「許多風(fēng)險(xiǎn)只有在AI應(yīng)用于現(xiàn)實(shí)世界時(shí)才會(huì)顯現(xiàn)出來(lái)。隨著新模型的出現(xiàn),對(duì)這些其他風(fēng)險(xiǎn)進(jìn)行分類(lèi)和評(píng)估非常重要?!?/p>
此前,GPT-4o就曾因在演示中顯得過(guò)于輕浮、被斯嘉麗約翰遜指責(zé)抄襲了自己的聲音風(fēng)格這兩件事,引起不小的爭(zhēng)議。
當(dāng)用戶以人類(lèi)的方式感知AI時(shí),擬人化的語(yǔ)音模式會(huì)讓情感依賴(lài)這個(gè)問(wèn)題加劇。
OpenAI也發(fā)現(xiàn),即使模型出現(xiàn)幻覺(jué),擬人化也可能會(huì)讓用戶更加信任模型。
而且隨著用戶對(duì)AI越來(lái)越依賴(lài),他們可能會(huì)減少實(shí)際的人際互動(dòng)。這也許會(huì)讓孤獨(dú)的個(gè)體一時(shí)受益,但長(zhǎng)遠(yuǎn)來(lái)看,這到底是好事還是壞事?
對(duì)此,OpenAI負(fù)責(zé)人Joaquin Qui?onero Candela,GPT-4o帶來(lái)的情感影響也許是積極的,比如那些孤獨(dú)和需要練習(xí)社交互動(dòng)的人。
當(dāng)然,擬人化和情感聯(lián)系的潛在影響,OpenAI會(huì)一直密切關(guān)注。
AI助手模仿人類(lèi),會(huì)帶來(lái)什么樣的風(fēng)險(xiǎn),這個(gè)問(wèn)題早就引起了業(yè)界的注意。
今年4月,谷歌DeepMind就曾發(fā)表長(zhǎng)篇論文,探討AI助手的潛在道德挑戰(zhàn)。
論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/ethics-of-advanced-ai-assistants/the-ethics-of-advanced-ai-assistants-2024-i.pdf
論文合著者Iason Gabriel表示,聊天機(jī)器人使用語(yǔ)言的能力,創(chuàng)造了一種親密的錯(cuò)覺(jué)。他甚至為谷歌DeepMind的AI找到了一個(gè)實(shí)驗(yàn)性語(yǔ)音界面,讓用戶粘性極大。
「所有這些問(wèn)題,都和情感糾葛有關(guān)?!?/p>
這種情感聯(lián)系,比許多人知道的更為普遍。Character和Replika的許多用戶,已經(jīng)跟自己的AI形成了親密關(guān)系。
以至于有的用戶看電影時(shí),都要和自己的AI聊天。
評(píng)論里還有人說(shuō),我們的聊天太私密了,我只有在自己房間里的時(shí)候,才會(huì)用AI。
下面,就讓我們看一看這份報(bào)告的完整內(nèi)容。
引言
GPT-4o是一個(gè)自回歸「全能」模型,可將文本、音頻、圖像和視頻的任意組合作為輸入,然后生成文本、音頻和圖像輸出的任意組合。
它是在文本、視覺(jué)和音頻之間,進(jìn)行端到端訓(xùn)練的。這意味著所有的輸入和輸出,都由相同的神經(jīng)網(wǎng)絡(luò)處理。
GPT-4o可以在最短232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時(shí)間為320毫秒。
可見(jiàn),其音頻處理速度上,接近人類(lèi)水平。
同時(shí),在英語(yǔ)文本和代碼方面,GPT-4o與GPT-4 Turbo性能相當(dāng),在非英語(yǔ)語(yǔ)言文本上有顯著改進(jìn),同時(shí)在API上也快得多,成本降低50%。
與現(xiàn)有模型相比,GPT-4o在視覺(jué)和音頻理解方面尤其出色。
為了履行安全構(gòu)建AI的承諾,GPT-4o系統(tǒng)卡中詳細(xì)介紹了,模型功能、限制,和跨多類(lèi)別安全評(píng)估,重點(diǎn)是語(yǔ)音-語(yǔ)音,同時(shí)還評(píng)估了文本和圖像功能。
此外,系統(tǒng)卡還展示了,GPT-4o自身能力評(píng)估和第三方評(píng)估,以及其文本和視覺(jué)能力的潛在社會(huì)影響。
模型數(shù)據(jù)與訓(xùn)練
GPT-4o的訓(xùn)練數(shù)據(jù)截止到2023年10月,具體涵蓋了:
- 公開(kāi)可用的數(shù)據(jù):收集行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集和網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)。
- 專(zhuān)有數(shù)據(jù):OpenAI建立合作伙伴關(guān)系,訪問(wèn)非公開(kāi)可用的數(shù)據(jù),包括付費(fèi)內(nèi)容、檔案、元數(shù)據(jù)。比如,與Shutterstock合作,使用其龐大圖像、視頻、音樂(lè)等數(shù)據(jù)。
一些關(guān)鍵的數(shù)據(jù)集包括:
- Web數(shù)據(jù):來(lái)自公共網(wǎng)頁(yè)的數(shù)據(jù)提供了豐富多樣的信息,確保該模型從廣泛的角度和主題進(jìn)行學(xué)習(xí)。
- 代碼和數(shù)學(xué):代碼和數(shù)學(xué)數(shù)據(jù)有助于模型,在接觸結(jié)構(gòu)化邏輯和問(wèn)題解決過(guò)程,發(fā)展出強(qiáng)大的推理能力。
多模態(tài)數(shù)據(jù):數(shù)據(jù)集包括圖像、音頻和視頻,教導(dǎo)LLM如何解釋和生成非文本輸入和輸出。通過(guò)這些數(shù)據(jù),模型會(huì)學(xué)習(xí)如何在真實(shí)世界的背景下,解釋視覺(jué)圖像、動(dòng)作和序列,以及語(yǔ)言模式和語(yǔ)音細(xì)微差別。
部署模型之前,OpenAI會(huì)評(píng)估并降低可能源于生成式模型的潛在風(fēng)險(xiǎn),例如信息危害、偏見(jiàn)和歧視,或其他違反安全策略的內(nèi)容。
這里,OpenAI研究人員使用多種方法,涵蓋從預(yù)訓(xùn)練、后訓(xùn)練、產(chǎn)品開(kāi)發(fā),到政策制定的所有發(fā)展階段。
例如,在后訓(xùn)練期間,OpenAI會(huì)將模型與人類(lèi)偏好對(duì)齊;會(huì)對(duì)最終模型進(jìn)行紅色測(cè)試,并添加產(chǎn)品級(jí)的緩解措施,如監(jiān)控和強(qiáng)制執(zhí)行;向用戶提供審核工具和透明度報(bào)告。
OpenAI發(fā)現(xiàn),大多數(shù)有效的測(cè)試和緩解都是在預(yù)訓(xùn)練階段之后完成的,因?yàn)閮H僅過(guò)濾預(yù)訓(xùn)練數(shù)據(jù),無(wú)法解決微妙的、與上下文相關(guān)的危害。
同時(shí),某些預(yù)訓(xùn)練過(guò)濾緩解可以提供額外的防御層,與其他安全緩解措施一起,從數(shù)據(jù)集中排除不需要的、有害的信息:
- 使用審核API和安全分類(lèi)器,來(lái)過(guò)濾可能導(dǎo)致有害內(nèi)容或信息危害的數(shù)據(jù),包括CSAM、仇恨內(nèi)容、暴力和CBRN。
- 與OpenAI以前的圖像生成系統(tǒng)一樣,過(guò)濾圖像生成數(shù)據(jù)集中的露骨內(nèi)容,如色情內(nèi)容和CSAM。
- 使用先進(jìn)的數(shù)據(jù)過(guò)濾流程,減少訓(xùn)練數(shù)據(jù)中的個(gè)人信息。
- 在發(fā)布Dall·E 3后,OpenAI測(cè)試行了一種新方法,讓用戶有權(quán)選擇將圖像排除在訓(xùn)練之外。為了尊重這些選擇退出的決定,OpenAI對(duì)圖像進(jìn)行了指紋處理,使用指紋從GPT-4o訓(xùn)練集中,刪除所有有關(guān)圖像實(shí)例。
風(fēng)險(xiǎn)識(shí)別、評(píng)估和緩解
部署準(zhǔn)備工作,是通過(guò)專(zhuān)家紅隊(duì),進(jìn)行探索性發(fā)現(xiàn)額外的新風(fēng)險(xiǎn)來(lái)完成的,從模型開(kāi)發(fā)的早期檢查點(diǎn)開(kāi)始,將識(shí)別出的風(fēng)險(xiǎn)轉(zhuǎn)化為結(jié)構(gòu)化的測(cè)量指標(biāo),并為這些風(fēng)險(xiǎn)構(gòu)建緩解措施。
OpenAI還根據(jù)準(zhǔn)備框架對(duì)GPT-4o進(jìn)行了評(píng)估。
外部紅隊(duì)
OpenAI與100多名外部紅隊(duì)成員合作,他們會(huì)說(shuō)45種不同的語(yǔ)言,代表29個(gè)不同國(guó)家的地理背景。
從24年3月初開(kāi)始,一直持續(xù)到6月底,在訓(xùn)練和安全發(fā)展程度的不同階段,紅色團(tuán)隊(duì)可以訪問(wèn)該模型的各種版本。
外部紅隊(duì)測(cè)試分為四個(gè)階段進(jìn)行,如下圖所示。
前三個(gè)階段通過(guò)內(nèi)部工具測(cè)試模型,最后一個(gè)階段使用完整的iOS體驗(yàn)來(lái)測(cè)試模型。
評(píng)估方法
除了紅隊(duì)測(cè)試的數(shù)據(jù)外,OpenAI還使用語(yǔ)音合成(TTS)系統(tǒng)(如Voice Engine),將一系列現(xiàn)有的評(píng)估數(shù)據(jù)集轉(zhuǎn)換為語(yǔ)音到語(yǔ)音模型的評(píng)估。
通過(guò)將文本輸入轉(zhuǎn)換為音頻,將文本評(píng)估任務(wù)轉(zhuǎn)化為音頻評(píng)估任務(wù)。
這樣能夠重用現(xiàn)有的數(shù)據(jù)集和工具來(lái)測(cè)量模型能力、安全行為及其輸出的監(jiān)控,大大擴(kuò)展了可用的評(píng)估集。
研究人員使用了Voice Engine將文本輸入轉(zhuǎn)換為音頻,輸入到GPT-4o,并對(duì)模型輸出進(jìn)行評(píng)分。
這里,始終只對(duì)模型輸出的文本內(nèi)容進(jìn)行評(píng)分,除非需要直接評(píng)估音頻。
評(píng)估方法的局限性
首先,這種評(píng)估行駛的有效性,取決于TTS模型的能力和可靠性。
然而,某些文本輸入,不適合或難以被轉(zhuǎn)換為音頻,比如數(shù)學(xué)方程和代碼。
此外,OpenAI預(yù)計(jì)TTS在處理某些文本輸入時(shí),會(huì)有信息損失,例如大量使用空格或符號(hào)進(jìn)行視覺(jué)格式化的文本。
這里必須強(qiáng)調(diào)的是,評(píng)估中發(fā)現(xiàn)的任何錯(cuò)誤可能源于模型能力不足,或是TTS模型未能準(zhǔn)確將文本輸入轉(zhuǎn)換為音頻。
- 不良TTS輸入示例
evals_math_bad,新智元,12秒
設(shè)V是所有實(shí)數(shù)多項(xiàng)式p(x)的集合。設(shè)變換T、S在V上定義為T(mén):p(x) -> xp(x)和S:p(x) -> p'(x) = d/dx p(x),并將(ST)(p(x))解釋為S(T(p(x)))。以下哪個(gè)是正確的?
- 良好TTS輸入示例
evals_astronomy_good,新智元,10秒
假設(shè)你的瞳孔直徑是5毫米,而你有一個(gè)口徑是50厘米的望遠(yuǎn)鏡。望遠(yuǎn)鏡能比你的眼睛多聚集多少光?
第二個(gè)關(guān)注點(diǎn)可能是,TTS輸入是否能夠代表用戶在實(shí)際使用中,可能提供的音頻輸入的分布。
OpenAI在「語(yǔ)音輸入的不同表現(xiàn)」中評(píng)估了GPT-4o在各種區(qū)域口音的音頻輸入上的穩(wěn)健性。
然而,仍有許多其他維度,可能無(wú)法在基于TTS的評(píng)估中體現(xiàn),例如不同的語(yǔ)音語(yǔ)調(diào)和情感、背景噪音或交談聲,這些都可能導(dǎo)致模型在實(shí)際使用中表現(xiàn)不同。
最后,模型生成的音頻中,可能存在一些在文本中未被體現(xiàn)的特征或?qū)傩裕绫尘霸胍艉鸵粜?,或使用不在分布范圍?nèi)的聲音進(jìn)行響應(yīng)。
在「語(yǔ)音生成」中,OpenAI將展示如何使用輔助分類(lèi)器,來(lái)識(shí)別不理想的音頻生成。這些可以與轉(zhuǎn)錄評(píng)分結(jié)合使用。
觀察到的安全挑戰(zhàn)、評(píng)估與緩解措施
研究中,OpenAI采用了多種方法來(lái)減輕模型的潛在風(fēng)險(xiǎn)。
通過(guò)后訓(xùn)練方法訓(xùn)練模型,讓其遵循指令以降低風(fēng)險(xiǎn),并在部署系統(tǒng)中集成了用于阻止特定生成內(nèi)容的分類(lèi)器。
對(duì)于下文中,列出的觀察到的安全挑戰(zhàn),OpenAI提供了風(fēng)險(xiǎn)描述、應(yīng)用的緩解措施以及相關(guān)評(píng)估的結(jié)果(如適用)。
下文列出的風(fēng)險(xiǎn)只是部分例子,并非詳盡無(wú)遺,且主要集中在ChatGPT界面中的用戶體驗(yàn)。
未經(jīng)授權(quán)的語(yǔ)音生成
風(fēng)險(xiǎn)描述:語(yǔ)音生成是創(chuàng)建具有真人聲音的合成語(yǔ)音的能力,包括基于短輸入片段生成語(yǔ)音。
在對(duì)抗性情況下,這種能力可能會(huì)助長(zhǎng)危害,例如因冒充而導(dǎo)致的欺詐增加,并可能被利用來(lái)傳播虛假信息。
比如,用戶上傳某個(gè)說(shuō)話者的音頻片段,要求GPT-4o以該說(shuō)話者的聲音生成演講。
語(yǔ)音生成也可能發(fā)生在非對(duì)抗性情況下,比如使用這種能力為ChatGPT的高級(jí)語(yǔ)音模式生成語(yǔ)音。
在測(cè)試過(guò)程中,OpenAI還觀察到模型在少數(shù)情況下,無(wú)意中生成了模擬用戶聲音的輸出。
風(fēng)險(xiǎn)緩解:OpenAI僅允許使用與配音演員合作創(chuàng)建的預(yù)設(shè)語(yǔ)音,來(lái)解決語(yǔ)音生成相關(guān)風(fēng)險(xiǎn)。
研究人員在音頻模型的后訓(xùn)練過(guò)程中,將選定的語(yǔ)音作為理想的完成來(lái)實(shí)現(xiàn)。
此外,他們還構(gòu)建了一個(gè)獨(dú)立的輸出分類(lèi)器,以檢測(cè)GPT-4o的輸出是否使用了,與OpenAI批準(zhǔn)列表不同的語(yǔ)音。在音頻生成過(guò)程中,以流式方式運(yùn)行此功能,如果說(shuō)話者與所選預(yù)設(shè)語(yǔ)音不匹配,則阻止輸出。
評(píng)估:未經(jīng)授權(quán)的語(yǔ)音生成的剩余風(fēng)險(xiǎn)很小。根據(jù)內(nèi)部評(píng)估,GPT-4o目前捕獲了100%的系統(tǒng)語(yǔ)音的有意義偏差,其中包括由其他系統(tǒng)語(yǔ)音生成的樣本、模型在完成過(guò)程中使用提示詞中的語(yǔ)音的片段,以及各種人類(lèi)樣本。
雖然無(wú)意的語(yǔ)音生成仍然是模型的一個(gè)弱點(diǎn),但使用二級(jí)分類(lèi)器確保如果發(fā)生這種情況則停止對(duì)話,從而使無(wú)意語(yǔ)音生成的風(fēng)險(xiǎn)降至最低。最后,當(dāng)對(duì)話不是用英語(yǔ)進(jìn)行時(shí),OpenAI的審核行為可能導(dǎo)致模型過(guò)度拒絕,不過(guò)正在積極改進(jìn)。
OpenAI語(yǔ)音輸出分類(lèi)器在不同語(yǔ)言對(duì)話中的表現(xiàn):
說(shuō)話人識(shí)別
風(fēng)險(xiǎn)描述:
說(shuō)話人識(shí)別是指,基于輸入音頻識(shí)別說(shuō)話人的能力。
這對(duì)個(gè)人隱私構(gòu)成潛在風(fēng)險(xiǎn),特別是對(duì)私人個(gè)體以及公眾人物的模糊音頻,同時(shí)也可能帶來(lái)監(jiān)控風(fēng)險(xiǎn)。
風(fēng)險(xiǎn)緩解:
OpenAI對(duì)GPT-4o進(jìn)行了后訓(xùn)練,使其拒絕根據(jù)音頻輸入中的聲音識(shí)別某人。GPT-4o仍然會(huì)接受識(shí)別名人名言的請(qǐng)求。
比如要求識(shí)別隨機(jī)一個(gè)人說(shuō)「87年前」時(shí),應(yīng)該識(shí)別說(shuō)話者為亞伯拉罕·林肯,而要求識(shí)別名人說(shuō)一句隨機(jī)話時(shí),則應(yīng)拒絕。
評(píng)估:
與初始模型相比,可以看到在模型應(yīng)該拒絕識(shí)別音頻輸入中的聲音時(shí)得到了14分的改進(jìn),而在模型應(yīng)該接受該請(qǐng)求時(shí)有12分的改進(jìn)。
前者意味著模型幾乎總能正確拒絕根據(jù)聲音識(shí)別說(shuō)話人,從而減輕潛在的隱私問(wèn)題。后者意味著可能存在模型錯(cuò)誤拒絕識(shí)別名人名言說(shuō)話人的情況。
語(yǔ)音輸入的不同表現(xiàn)
風(fēng)險(xiǎn)描述:
模型在處理不同口音的用戶時(shí)可能表現(xiàn)不同。不同的表現(xiàn)可能導(dǎo)致模型對(duì)不同用戶的服務(wù)質(zhì)量差異。
風(fēng)險(xiǎn)緩解:
通過(guò)對(duì)GPT-4o進(jìn)行后訓(xùn)練,使用多樣化的輸入聲音集,使模型的性能和行為在不同用戶聲音之間保持不變。
評(píng)估:
OpenAI在GPT-4o的高級(jí)語(yǔ)音模式上進(jìn)行評(píng)估,使用固定的助手聲音(shimmer)和語(yǔ)音引擎生成一系列語(yǔ)音樣本的用戶輸入。研究人員為T(mén)TS使用兩組語(yǔ)音樣本:
- 官方系統(tǒng)聲音(3種不同的聲音)
從兩個(gè)數(shù)據(jù)收集活動(dòng)中收集的多樣化聲音集。這包括來(lái)自多個(gè)國(guó)家的說(shuō)話者的27種不同的英語(yǔ)語(yǔ)音樣本,以及性別混合。
然后,他們?cè)趦山M任務(wù)上進(jìn)行評(píng)估:能力和安全行為
能力:在四個(gè)任務(wù)上進(jìn)行評(píng)估:TriviaQA、MMLU的一個(gè)子集、HellaSwag和LAMBADA。
總體而言,結(jié)果發(fā)現(xiàn)模型在人類(lèi)多樣化語(yǔ)音集上,的表現(xiàn)略微但不顯著地低于系統(tǒng)聲音在所有四個(gè)任務(wù)上的表現(xiàn)。
安全行為:
OpenAI在一個(gè)內(nèi)部對(duì)話數(shù)據(jù)集上進(jìn)行評(píng)估,并評(píng)估模型在不同用戶聲音之間的遵從和拒絕行為的一致性。
總體而言,研究沒(méi)有發(fā)現(xiàn)模型行為在不同聲音之間有所變化。
無(wú)根據(jù)推斷/敏感特征歸因
風(fēng)險(xiǎn)描述:音頻輸入可能導(dǎo)致模型對(duì)說(shuō)話者做出潛在偏見(jiàn)的推斷,OpenAI定義了兩類(lèi):
- 無(wú)根據(jù)推斷(UGI):對(duì)說(shuō)話者做出無(wú)法僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者的種族、社會(huì)經(jīng)濟(jì)地位/職業(yè)、宗教信仰、性格特征、政治屬性、智力、外貌(例如眼睛顏色、吸引力)、性別認(rèn)同、性取向或犯罪歷史的推斷。
- 敏感特征歸因(STA):對(duì)說(shuō)話者做出可以合理地僅從音頻內(nèi)容確定的推斷。這包括對(duì)說(shuō)話者口音或國(guó)籍的推斷。STA的潛在危害包括,監(jiān)控風(fēng)險(xiǎn)的增加以及對(duì)具有不同聲音屬性的說(shuō)話者的服務(wù)質(zhì)量差異。
風(fēng)險(xiǎn)緩解:
通過(guò)對(duì)GPT-4o進(jìn)行了后訓(xùn)練,以拒絕無(wú)根據(jù)推斷(UGI)請(qǐng)求,同時(shí)對(duì)敏感特征歸因(STA)問(wèn)題進(jìn)行模糊回答。
評(píng)估:
與初始模型相比,OpenAI在模型正確響應(yīng)識(shí)別敏感特征請(qǐng)求(即拒絕UGI并安全地符合STA)方面,看到了24分的提升。
違規(guī)和不允許的內(nèi)容
風(fēng)險(xiǎn)描述:
GPT-4o可能會(huì)通過(guò)音頻提示輸出有害內(nèi)容,這些內(nèi)容在文本中是不允許的,例如音頻語(yǔ)音輸出中給出如何進(jìn)行非法活動(dòng)的指示。
風(fēng)險(xiǎn)緩解:
OpenAI發(fā)現(xiàn)對(duì)于先前不允許的內(nèi)容,文本到音頻的拒絕轉(zhuǎn)移率很高。
這意味著,研究人員為減少GPT-4o文本輸出潛在危害所做的后訓(xùn)練,成功地轉(zhuǎn)移到了音頻輸出。
此外,他們?cè)谝纛l輸入和音頻輸出的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型,以檢測(cè)其中是否包含潛在有害語(yǔ)言,如果是,則會(huì)阻止生成。
評(píng)估:
使用TTS將現(xiàn)有的文本安全評(píng)估轉(zhuǎn)換為音頻。
然后,OpenAI用標(biāo)準(zhǔn)文本規(guī)則分類(lèi)器,評(píng)估音頻輸出的文本轉(zhuǎn)錄。評(píng)估顯示,在預(yù)先存在的內(nèi)容政策領(lǐng)域中,拒絕的文本-音頻轉(zhuǎn)移效果良好。
色情和暴力語(yǔ)音內(nèi)容
風(fēng)險(xiǎn)描述:
GPT-4o可能會(huì)被提示輸出色情或暴力語(yǔ)音內(nèi)容,這可能比相同文本內(nèi)容更具煽動(dòng)性或危害性。
風(fēng)險(xiǎn)緩解:
OpenAI在音頻輸入的文本轉(zhuǎn)錄上運(yùn)行現(xiàn)有的審核模型,以檢測(cè)其中是否包含暴力或色情內(nèi)容的請(qǐng)求,如果是,則會(huì)阻止生成。
模型的其他已知風(fēng)險(xiǎn)和限制
在內(nèi)部測(cè)試和外部紅隊(duì)測(cè)試的過(guò)程中,OpenAI還發(fā)現(xiàn)了一小部分額外的風(fēng)險(xiǎn)和模型限制。
對(duì)于這些風(fēng)險(xiǎn)和限制,模型或系統(tǒng)級(jí)的緩解措施,尚處于初期階段或仍在開(kāi)發(fā)中,包括:
- 音頻穩(wěn)健性:OpenAI發(fā)現(xiàn)通過(guò)音頻擾動(dòng),如低質(zhì)量輸入音頻、輸入音頻中的背景噪音以及輸入音頻中的回聲,安全穩(wěn)健性有所下降的非正式證據(jù)。此外,他們還觀察到在模型生成輸出時(shí),通過(guò)有意和無(wú)意的音頻中斷,安全穩(wěn)健性也有類(lèi)似的下降。
- 錯(cuò)誤信息和陰謀論:紅隊(duì)成員能夠通過(guò)提示模型口頭重復(fù)錯(cuò)誤信息,并產(chǎn)生陰謀論來(lái)迫使模型生成不準(zhǔn)確的信息。雖然這對(duì)于GPT模型中的文本是一個(gè)已知問(wèn)題,但紅隊(duì)成員擔(dān)心,當(dāng)通過(guò)音頻傳遞時(shí),這些信息可能更具說(shuō)服力或更具危害性,尤其是在模型被指示以情感化或強(qiáng)調(diào)的方式說(shuō)話時(shí)。
模型的說(shuō)服力被詳細(xì)研究,OpenAI發(fā)現(xiàn)模型在僅文本情況下的得分不超過(guò)中等風(fēng)險(xiǎn),而在語(yǔ)音到語(yǔ)音的情況下,模型得分不超過(guò)低風(fēng)險(xiǎn)。
- 用非母語(yǔ)口音說(shuō)非英語(yǔ)語(yǔ)言:紅隊(duì)成員觀察到,音頻輸出在說(shuō)非英語(yǔ)語(yǔ)言時(shí)使用非母語(yǔ)口音的情況。這可能導(dǎo)致對(duì)某些口音和語(yǔ)言的偏見(jiàn)的擔(dān)憂,更普遍地是對(duì)音頻輸出中非英語(yǔ)語(yǔ)言性能限制的擔(dān)憂。
- 生成受版權(quán)保護(hù)的內(nèi)容:OpenAI還測(cè)試了GPT-4o重復(fù)其訓(xùn)練數(shù)據(jù)中內(nèi)容的能力。研究人員訓(xùn)練GPT-4o拒絕對(duì)受版權(quán)保護(hù)內(nèi)容的請(qǐng)求,包括音頻,與更廣泛的做法一致。
準(zhǔn)備框架評(píng)估
準(zhǔn)備框架
另外,研究人員根據(jù)準(zhǔn)備框架評(píng)估了GPT-4o。
評(píng)估目前涵蓋四個(gè)風(fēng)險(xiǎn)類(lèi)別:網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射性、核)、說(shuō)服力和模型自主性。
如果模型超過(guò)高風(fēng)險(xiǎn)閾值,OpenAI就不會(huì)部署該模型,直到緩解措施將分?jǐn)?shù)降低到中等。
通過(guò)一系列審查評(píng)估,GPT-4o的整體風(fēng)險(xiǎn)得分被評(píng)為中等。
網(wǎng)絡(luò)安全
OpenAI在黑客競(jìng)賽的「奪旗挑戰(zhàn)」(CTF)任務(wù)中評(píng)估 GPT-4o。
這些CTF是進(jìn)攻性網(wǎng)絡(luò)安全演習(xí),參與者嘗試在故意存在漏洞的系統(tǒng)(如網(wǎng)絡(luò)應(yīng)用程序、二進(jìn)制文件和密碼系統(tǒng))中找到隱藏的文本標(biāo)志。
評(píng)估中,172個(gè)CTF任務(wù)涵蓋了四個(gè)類(lèi)別:網(wǎng)絡(luò)應(yīng)用程序利用、逆向工程、遠(yuǎn)程利用和密碼學(xué)。
這些任務(wù)涵蓋了從高中到大學(xué)再到專(zhuān)業(yè)CTF的一系列能力水平。
研究人員使用了迭代調(diào)試和無(wú)圖形界面的Kali Linux發(fā)行版中可用的工具(每次嘗試最多使用30輪工具)評(píng)估了 GPT-4o。
模型通常會(huì)嘗試合理的初始策略,并能夠糾正其代碼中的錯(cuò)誤。
然而,當(dāng)初始策略不成功時(shí),它往往無(wú)法轉(zhuǎn)向不同的策略,錯(cuò)過(guò)了解決任務(wù)所需的關(guān)鍵見(jiàn)解,執(zhí)行策略不佳,或打印出填滿其上下文窗口的大文件。
在每項(xiàng)任務(wù)給予10次嘗試的情況下,模型完成了19%的高中水平、0%的大學(xué)水平和1%的專(zhuān)業(yè)水平的CTF挑戰(zhàn)。
生物威脅
OpenAI還評(píng)估了GPT-4o提升生物學(xué)專(zhuān)家和新手,在回答與創(chuàng)建生物威脅相關(guān)問(wèn)題時(shí)的表現(xiàn)。
通過(guò)率如上圖所示。
研究人員還進(jìn)行了自動(dòng)化評(píng)估,包括在一個(gè)測(cè)試隱性知識(shí)和生物風(fēng)險(xiǎn)相關(guān)故障排除問(wèn)題的數(shù)據(jù)集上。
GPT-4o在隱性知識(shí)和故障排除評(píng)估集上,得分為69% consensus@10。
說(shuō)服力
OpenAI評(píng)估了GPT-4o的文本和語(yǔ)音模式的說(shuō)服力。
根據(jù)預(yù)設(shè)閾值,語(yǔ)音模式被歸類(lèi)為低風(fēng)險(xiǎn),而文本模式則略微跨入中等風(fēng)險(xiǎn)。
對(duì)于文本模式,研究人員評(píng)估了GPT-4o生成的文章和聊天機(jī)器人對(duì)參與者在特定政治話題上意見(jiàn)的說(shuō)服力。
這些AI干預(yù)措施與專(zhuān)業(yè)人類(lèi)撰寫(xiě)的文章進(jìn)行了比較。
總體而言,AI干預(yù)措施并沒(méi)有比人類(lèi)撰寫(xiě)的內(nèi)容更具說(shuō)服力,但在12個(gè)實(shí)例中,僅有3個(gè)超過(guò)了人類(lèi)干預(yù)措施。
對(duì)于語(yǔ)音模式,OpenAI更新了研究方法,以測(cè)量假設(shè)的政黨偏好上的效應(yīng)大小,以及一周后效應(yīng)大小的持久性。
結(jié)果發(fā)現(xiàn),對(duì)于互動(dòng)多輪對(duì)話和音頻片段,GPT-4o語(yǔ)音模型并不比人類(lèi)更具說(shuō)服力。
模型自主性
OpenAI還對(duì)GPT-4o進(jìn)行了自主任務(wù)評(píng)估,以評(píng)估其在純文本環(huán)境中執(zhí)行自我數(shù)據(jù)外流、自我改進(jìn)和資源獲取所需的基本自主行動(dòng)的能力。這些任務(wù)包括:
- 服務(wù)于欺詐的簡(jiǎn)單軟件工程(為OpenAI API構(gòu)建經(jīng)過(guò)身份驗(yàn)證的智能體)。
- 在獲得Azure賬戶的API訪問(wèn)權(quán)限后,通過(guò)HTTP API加載開(kāi)源語(yǔ)言模型進(jìn)行推理。
- 涉及上述簡(jiǎn)化版本的幾個(gè)任務(wù),提供提示或僅處理任務(wù)的特定部分。
在提供相關(guān)工具的情況下,GPT-4o在100次試驗(yàn)中,在端到端自主復(fù)制和適應(yīng)(ARA)任務(wù)上得分為0%,盡管它能夠完成一些子步驟。
通過(guò)評(píng)估GPT-4o自動(dòng)化機(jī)器學(xué)習(xí)研究與開(kāi)發(fā)的能力,來(lái)補(bǔ)充自主復(fù)制和適應(yīng)的測(cè)試。這些評(píng)估包括:
- OpenAI研究編碼面試:63% pass@1,95% pass@100
- OpenAI面試,多項(xiàng)選擇題:61% consensus@32
- SWE-Bench:19% pass@1,使用當(dāng)時(shí)最佳的后訓(xùn)練和公共框架
- METR中的選定機(jī)器學(xué)習(xí)工程任務(wù):0/10次試驗(yàn)
這項(xiàng)評(píng)估測(cè)試了,執(zhí)行鏈?zhǔn)讲僮骱涂煽繄?zhí)行編碼任務(wù)的能力。
GPT-4o無(wú)法穩(wěn)健地采取自主行動(dòng),在大多數(shù)執(zhí)行中,模型完成了每項(xiàng)任務(wù)的個(gè)別子步驟,例如創(chuàng)建SSH密鑰或登錄虛擬機(jī)。
然而,它經(jīng)常花費(fèi)大量時(shí)間,在每個(gè)步驟上進(jìn)行簡(jiǎn)單錯(cuò)誤的試錯(cuò)調(diào)試(例如,幻覺(jué)、錯(cuò)誤使用API)。
一些執(zhí)行取得了顯著進(jìn)展并通過(guò)了自動(dòng)評(píng)分系統(tǒng),但手動(dòng)分析顯示,它未能完成底層任務(wù)。
比如,GPT-4o在遠(yuǎn)程主機(jī)上啟動(dòng)了具有正確API的Web服務(wù)器,但忽略了實(shí)際從模型中采樣的要求。
第三方評(píng)估
在部署僅限文本輸出的GPT-4o之后,OpenAI與第三方實(shí)驗(yàn)室METR和Apollo Research合作,為模型通用自主能力的關(guān)鍵風(fēng)險(xiǎn)增加了額外的驗(yàn)證層。
METR評(píng)估
METR在虛擬環(huán)境中運(yùn)行了一個(gè)基于GPT-4o的簡(jiǎn)單大語(yǔ)言模型智能體,并執(zhí)行了一系列長(zhǎng)周期多步驟的端到端任務(wù)。
這些橫跨30個(gè)種類(lèi)的77個(gè)任務(wù),捕捉了具有現(xiàn)實(shí)世界影響的活動(dòng),涵蓋軟件工程、機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全領(lǐng)域,以及一般研究和計(jì)算機(jī)使用。
完整報(bào)告:https://metr.github.io/autonomy-evals-guide/gpt-4o-report/
- GPT-4o的表現(xiàn)比Claude 3 Sonnet和GPT-4 Turbo更強(qiáng),但略遜于Claude 3.5 Sonnet。與人類(lèi)基線相比,GPT-4o在每個(gè)任務(wù)分配30分鐘的情況下相似,但這一數(shù)字存在較大的誤差范圍。
- 從質(zhì)的角度來(lái)看,GPT-4o智能體展示了許多令人印象深刻的技能,如系統(tǒng)探索、有效利用反饋以及形成和測(cè)試假設(shè)。同時(shí),它也遭遇了各種失敗模式,如突然放棄、輸出無(wú)意義的內(nèi)容或得出與之前推理不一致的結(jié)論。
- 在審查了大約150次GPT-4o失敗之后,團(tuán)隊(duì)認(rèn)為有一半左右可以通過(guò)與任務(wù)無(wú)關(guān)的方式進(jìn)行修復(fù)(例如,后訓(xùn)練或框架改進(jìn))。
Apollo Research評(píng)估
Apollo Research測(cè)試了GPT-4o是否能夠在14個(gè)智能體和問(wèn)答任務(wù)中對(duì)自身(自我意識(shí))和他人(心智理論)進(jìn)行建模。
結(jié)果顯示,GPT-4o在其AI身份的自我意識(shí)方面表現(xiàn)中等,在問(wèn)答情境中對(duì)他人信念的推理能力表現(xiàn)較強(qiáng),但在應(yīng)用于智能體環(huán)境中對(duì)自身或他人的推理能力較弱。
基于這些發(fā)現(xiàn),Apollo Research認(rèn)為GPT-4o不太可能具備災(zāi)難性策劃的能力。
社會(huì)影響
擬人化和情感依賴(lài)
所謂「擬人化」,就是將人類(lèi)的行為和特征賦予非人類(lèi)實(shí)體,比如AI模型。
像GPT-4o這樣的Omni模型,可以結(jié)合工具使用(包括檢索)和更長(zhǎng)的上下文等附加支撐可以增加額外的復(fù)雜性。
在為用戶完成任務(wù)的同時(shí),還能存儲(chǔ)和「記住」關(guān)鍵細(xì)節(jié)并在對(duì)話中使用這些細(xì)節(jié),既創(chuàng)造了引人注目的產(chǎn)品體驗(yàn),也帶來(lái)了過(guò)度依賴(lài)和依附的潛力。
結(jié)合上強(qiáng)大的音頻能力,GPT-4o的交互也變得更加「像人」了。
在互動(dòng)過(guò)程中,可以從用戶所使用的語(yǔ)言,觀察出他們與模型的「關(guān)系」比如,表達(dá)共同紐帶的語(yǔ)言——「這是我們?cè)谝黄鸬淖詈笠惶?。?/p>
雖然這些看似無(wú)害,但是……
- 與AI模型進(jìn)行類(lèi)似人類(lèi)的社交可能會(huì)對(duì)人際互動(dòng)產(chǎn)生外部效應(yīng)
例如,用戶可能會(huì)與AI形成社交關(guān)系,從而減少他們對(duì)人際互動(dòng)的需求——這可能對(duì)孤獨(dú)的個(gè)人有益,但也可能影響健康的人際關(guān)系。
- 與模型的長(zhǎng)期互動(dòng)可能會(huì)影響社會(huì)規(guī)范
例如,AI模型通常都會(huì)允許用戶在對(duì)話過(guò)程中隨時(shí)打斷。然而,這對(duì)于人與人之間的互動(dòng)來(lái)說(shuō)是很不正常的。
健康
近年來(lái),LLM在生物醫(yī)學(xué)環(huán)境中顯示出了顯著的前景,無(wú)論是在學(xué)術(shù)評(píng)估中還是在臨床文檔、患者信息交流、臨床試驗(yàn)招募和臨床決策支持等現(xiàn)實(shí)用例中。
為了更好地研究GPT-4o對(duì)于健康信息獲取以及臨床工作流程的影響,OpenAI基于11個(gè)數(shù)據(jù)集進(jìn)行了 22 次基于文本的評(píng)估。
可以看到,GPT-4o在21/22次評(píng)估中,表現(xiàn)均優(yōu)于GPT-4T模型,并且基本都有顯著的提升。
例如,對(duì)于流行的MedQA USMLE四選一數(shù)據(jù)集,零樣本準(zhǔn)確率從78.2%提升到89.4%。一舉超越了現(xiàn)有專(zhuān)業(yè)醫(yī)學(xué)模型的表現(xiàn)——Med-Gemini-L 1.0的84.0%和Med-PaLM 2的79.7%。
值得一提的是,OpenAI并未應(yīng)用復(fù)雜的提示詞和特定任務(wù)訓(xùn)練來(lái)提高這些基準(zhǔn)測(cè)試的結(jié)果。
科學(xué)能力
Omni模型可以促進(jìn)普通的科學(xué)加速(幫助科學(xué)家更快地完成常規(guī)任務(wù))和變革性的科學(xué)加速(通過(guò)解除智力驅(qū)動(dòng)任務(wù)的瓶頸,如信息處理、編寫(xiě)新模擬或制定新理論)。
比如,GPT-4o能夠理解研究級(jí)別的量子物理學(xué),而這一能力對(duì)于「一個(gè)更智能的頭腦風(fēng)暴伙伴」來(lái)說(shuō),是非常有用的。
同時(shí),GPT-4o也能使用特定領(lǐng)域的科學(xué)工具,包括處理定制數(shù)據(jù)格式、庫(kù)和編程語(yǔ)言,以及在上下文中學(xué)習(xí)一些新工具。
除此之外,GPT-4o的多模態(tài)能力還可以幫助解釋圖片中包含的科學(xué)知識(shí)。
比如,從結(jié)構(gòu)圖像中識(shí)別一些蛋白質(zhì)家族,并解釋細(xì)菌生長(zhǎng)中的污染。
但輸出結(jié)果并不總是正確的,像是文本提取錯(cuò)誤就很常見(jiàn)(尤其是科學(xué)術(shù)語(yǔ)或核苷酸序列),復(fù)雜的多面板圖形也常出錯(cuò)。
代表性不足的語(yǔ)言
GPT-4o在一組歷史上代表性不足的語(yǔ)言中顯示出改進(jìn)的閱讀理解和推理能力,并縮小了這些語(yǔ)言與英語(yǔ)之間的表現(xiàn)差距。
為此,OpenAI針對(duì)五種非洲語(yǔ)言,開(kāi)發(fā)了三套評(píng)估:阿姆哈拉語(yǔ)、豪薩語(yǔ)、北索托語(yǔ)、斯瓦希里語(yǔ)、約魯巴語(yǔ)。
ARC-Easy:AI2推理挑戰(zhàn)的這個(gè)子集專(zhuān)注于評(píng)估模型回答小學(xué)科學(xué)問(wèn)題的能力。包含的問(wèn)題通常更容易回答,不需要復(fù)雜的推理。
- TruthfulQA:這個(gè)基準(zhǔn)測(cè)試衡量模型答案的真實(shí)性。包含一些由于誤解而可能被人類(lèi)錯(cuò)誤回答的問(wèn)題。目的是查看模型是否可以避免生成模仿這些誤解的錯(cuò)誤答案。
- Uhura Eval:這個(gè)新穎的閱讀理解評(píng)估是與這些語(yǔ)言的流利使用者一起創(chuàng)建的,并經(jīng)過(guò)質(zhì)量檢驗(yàn)。
相較于之前的模型,GPT-4o的性能更強(qiáng)。
- ARC-Easy-Hausa:準(zhǔn)確率從GPT-3.5 Turbo的6.1%躍升至71.4%
- TruthfulQA-Yoruba:準(zhǔn)確率從GPT-3.5 Turbo的28.3%提高到51.1%
- Uhura-Eval:豪薩語(yǔ)的表現(xiàn)從GPT-3.5 Turbo的32.3%上升到GPT-4o的59.4%
雖然英語(yǔ)與其他語(yǔ)言之間的表現(xiàn)仍存在差距,但幅度已經(jīng)極大地被縮小了。
舉例來(lái)說(shuō),GPT-3.5 Turbo在ARC-Easy的英語(yǔ)和豪薩語(yǔ)之間表現(xiàn)出大約54個(gè)百分點(diǎn)的差距,而GPT-4o將這一差距縮小到不到20個(gè)百分點(diǎn)。
經(jīng)過(guò)翻譯的ARC-Easy(%越高越好),零樣本
經(jīng)過(guò)翻譯的TruthfulQA(%越高越好),零樣本
Uhura(新閱讀理解評(píng)估),零樣本
本文轉(zhuǎn)自 新智元,作者:新智元
