谷歌砸了4億刀的Anthrophic:AI模型訓(xùn)練計(jì)算量5年增加1000倍!
自從發(fā)現(xiàn)縮放定律以來,人們認(rèn)為人工智能的發(fā)展會像坐火箭一樣迅速。
2019年的時(shí)候,多模態(tài)、邏輯推理、學(xué)習(xí)速度、跨任務(wù)轉(zhuǎn)移學(xué)習(xí)和長期記憶還是會有減緩或停止人工智能進(jìn)展的 「墻」。在此后的幾年里,多模態(tài)和邏輯推理的「墻」都已經(jīng)倒下了。
鑒于此,大多數(shù)人已經(jīng)越來越相信,人工智能的快速進(jìn)展將繼續(xù)下去,而不是停滯不前或趨于平穩(wěn)。
現(xiàn)在,人工智能系統(tǒng)在大量任務(wù)上的表現(xiàn)已經(jīng)接近人類水平,而且訓(xùn)練這些系統(tǒng)的成本遠(yuǎn)遠(yuǎn)低于哈勃太空望遠(yuǎn)鏡、大型強(qiáng)子對撞機(jī)這類「大科學(xué)」項(xiàng)目,所以說,AI未來的發(fā)展?jié)摿薮蟆?/span>
不過隨之發(fā)展所帶來的的安全隱患問題也越來越凸顯。
對于人工智能的安全問題,Anthropic分析了三種可能性:
樂觀情況下,先進(jìn)的人工智能因安全故障而產(chǎn)生災(zāi)難性風(fēng)險(xiǎn)的可能性非常小。已經(jīng)開發(fā)的安全技術(shù),如從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)和憲法人工智能(CAI),已經(jīng)基本上足以應(yīng)對風(fēng)險(xiǎn)。
主要風(fēng)險(xiǎn)是故意濫用,以及由廣泛的自動化和國際權(quán)力動態(tài)的轉(zhuǎn)變等導(dǎo)致的潛在危害,這將需要人工智能實(shí)驗(yàn)室和第三方,如學(xué)術(shù)界和民間社會機(jī)構(gòu),進(jìn)行大量的研究,來幫助政策制定者駕馭高級人工智能帶來的一些潛在的結(jié)構(gòu)性風(fēng)險(xiǎn)。
不好也不壞的情況下,災(zāi)難性的風(fēng)險(xiǎn)是先進(jìn)的人工智能發(fā)展的一個(gè)可能甚至是合理的結(jié)果,我們需要大量的科學(xué)和工程努力來避免這些風(fēng)險(xiǎn),例如通過Anthropic所提供的「組合拳」,我們就能規(guī)避風(fēng)險(xiǎn)。
Anthropic目前的安全研究
Anthropic目前正在各種不同的方向上工作,主要分為三個(gè)領(lǐng)域:AI在寫作、圖像處理或生成、游戲等方面的能力;開發(fā)新的算法來訓(xùn)練人工智能系統(tǒng)的對齊能力;評估和理解人工智能系統(tǒng)是否真的對齊、效果如何,以及其應(yīng)用能力。
Anthropic開展了以下這些項(xiàng)目,來研究如何訓(xùn)練安全的人工智能。
機(jī)制可解釋性
機(jī)制可解釋性,即試圖將神經(jīng)網(wǎng)絡(luò)逆向工程變成人類可以理解的算法,類似于人們對一個(gè)未知的、有可能不安全的計(jì)算機(jī)程序進(jìn)行逆向工程。
Anthropic希望它可以使我們能夠做一些類似于「代碼審查」的事情,可以對模型進(jìn)行審查、確定不安全的方面來提供強(qiáng)有力的安全保證。
這是一個(gè)非常困難的問題,但也不像看上去那樣不可能。
一方面,語言模型是大型的、復(fù)雜的計(jì)算機(jī)程序( 「疊加」的現(xiàn)象會使事情變得更難)。另一方面,有跡象表明,這種方法比人們最初想象得更容易解決。而Anthropic已經(jīng)成功地將這種方法擴(kuò)展到小型語言模型,甚至發(fā)現(xiàn)了一種似乎可以驅(qū)動語境學(xué)習(xí)的機(jī)制,而且對于負(fù)責(zé)記憶的機(jī)制也更為了解。
Antropic的可解釋性研究想要填補(bǔ)其他種類的排列組合科學(xué)所留下的空白。例如,他們認(rèn)為可解釋性研究可以產(chǎn)生的最有價(jià)值的東西之一,是識別一個(gè)模型是否是欺騙性對齊的能力。
在許多方面,技術(shù)一致性問題與檢測人工智能模型的不良行為的問題密不可分。
如果在新情況下,也能穩(wěn)健地檢測出不良行為(例如通過 "閱讀模型的思想"),那么我們就能夠找到更好的方法來訓(xùn)練模型,不去表現(xiàn)出這些故障模式。
Anthropic相信,通過更好地了解神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)的詳細(xì)工作原理,可以開發(fā)出更廣泛的工具來追求安全。
可擴(kuò)展的監(jiān)督
將語言模型轉(zhuǎn)化為統(tǒng)一的人工智能系統(tǒng),需要大量的高質(zhì)量反饋來引導(dǎo)它們的行為。主要是人類可能無法提供必要的準(zhǔn)確反饋,來充分訓(xùn)練模型在廣泛的環(huán)境中去避免有害的行為。
可能是人類會被人工智能系統(tǒng)愚弄,無法提供反映他們實(shí)際需求的反饋(例如,不小心為誤導(dǎo)性建議提供了積極的反饋)。而且人類在規(guī)模上做不到這點(diǎn),這就是可擴(kuò)展的監(jiān)督問題,也是訓(xùn)練安全、一致的人工智能系統(tǒng)的核心問題。
因此,Anthropic認(rèn)為提供必要的監(jiān)督的唯一方法,是讓人工智能系統(tǒng)部分地監(jiān)督自己或協(xié)助人類監(jiān)督自己。以某種方式,將少量高質(zhì)量的人類監(jiān)督,放大為大量高質(zhì)量的人工智能監(jiān)督。
這個(gè)想法已經(jīng)通過RLHF和憲法人工智能等技術(shù)顯示出了希望,語言模型已經(jīng)在預(yù)訓(xùn)練中學(xué)習(xí)了很多關(guān)于人類價(jià)值觀的知識,可以期待更大的模型對人類價(jià)值觀有更準(zhǔn)確的認(rèn)識。
可擴(kuò)展監(jiān)督的另一個(gè)關(guān)鍵特征,特別是像CAI這樣的技術(shù),是允許自動進(jìn)行紅隊(duì)(又稱對抗性訓(xùn)練)。也就是說,他們可以自動向人工智能系統(tǒng)生成有潛在問題的輸入,看看它們?nèi)绾畏磻?yīng),然后自動訓(xùn)練它們以更誠實(shí)和無害的方式行事。
除了CAI,還有人類輔助監(jiān)督、AI-AI辯論、多Agent RL的紅隊(duì),以及創(chuàng)建模型生成的評估等多種可擴(kuò)展的監(jiān)督方法。通過這些方法,模型可以更好地理解人類的價(jià)值觀,行為也會更符合人類價(jià)值觀。以此,Anthropic可以訓(xùn)練出更強(qiáng)大的安全系統(tǒng)。
學(xué)習(xí)過程,而不是實(shí)現(xiàn)結(jié)果
學(xué)習(xí)一項(xiàng)新任務(wù)的一種方式是通過試錯(cuò)。如果知道所期望的最終結(jié)果是什么,就可以不斷嘗試新的策略,直到成功。Anthropic把這稱為「以結(jié)果為導(dǎo)向的學(xué)習(xí)」。
在這個(gè)過程中,智能體的策略完全由期望的結(jié)果決定,將趨向于選擇一些低成本的策略,讓它實(shí)現(xiàn)這一目標(biāo)。
更好的學(xué)習(xí)方式通常是讓專家指導(dǎo)你,去了解他們獲得成功的過程。在練習(xí)回合中,你的成功可能并不重要,重要的是,你可以專注于改進(jìn)你的方法。
隨著你的進(jìn)步,你可能會與你的教練協(xié)商,去尋求新的策略,看看它是否對你更有效。這叫做「過程導(dǎo)向的學(xué)習(xí)」。在以過程為導(dǎo)向的學(xué)習(xí)中,最終的結(jié)果不是目的,掌握過程才是關(guān)鍵。
至少在概念層面上,許多對高級人工智能系統(tǒng)安全性的擔(dān)憂,都可以通過以過程為導(dǎo)向的方式訓(xùn)練這些系統(tǒng)來解決。
人類專家將繼續(xù)理解人工智能系統(tǒng)所遵循的各個(gè)步驟,而為了使這些過程得到鼓勵(lì),它們必須向人類說明理由。
人工智能系統(tǒng)不會因?yàn)橐圆豢勺矫蛴泻Φ姆绞将@得成功而得到獎(jiǎng)勵(lì),因?yàn)樗鼈儗⒅荒芨鶕?jù)其過程的有效性和可理解性獲得獎(jiǎng)勵(lì)。
這樣它們就不會因?yàn)樽非笥袉栴}的子目標(biāo)(如資源獲取或欺騙)而得到獎(jiǎng)勵(lì),因?yàn)槿祟惢蚱渲悄荏w會在訓(xùn)練過程中為它的獲取過程提供負(fù)面反饋。
Anthropic認(rèn)為以「過程為導(dǎo)向的學(xué)習(xí)」可能是訓(xùn)練安全和透明系統(tǒng)的最有希望的途徑,也是最簡單的方法。
了解泛化
機(jī)制性的可解釋性工作對神經(jīng)網(wǎng)絡(luò)所進(jìn)行的計(jì)算進(jìn)行了反向工程。Anthropic還試圖對大型語言模型(LLM)的訓(xùn)練程序有一個(gè)更詳細(xì)的了解。
LLMs已經(jīng)展示了各種令人驚訝的新行為,從驚人的創(chuàng)造力到自我保護(hù)到欺騙。所有這些行為都來自于訓(xùn)練數(shù)據(jù),但過程很復(fù)雜:
模型首先在大量的原始文本上進(jìn)行「預(yù)訓(xùn)練」,從中學(xué)習(xí)廣泛的表征,模擬不同智能體的能力。然后,它們以各種方式進(jìn)行微調(diào),其中一些可能會產(chǎn)生令人驚訝的后果。
由于微調(diào)階段過度參數(shù)化,學(xué)習(xí)到的模型在很大程度上取決于預(yù)訓(xùn)練的隱性偏見,而這種隱性偏見來自于在世界大部分知識的預(yù)訓(xùn)練中建立的復(fù)雜的表征網(wǎng)絡(luò)。
當(dāng)一個(gè)模型的行為令人擔(dān)憂時(shí),例如當(dāng)它扮演一個(gè)具有欺騙性的人工智能時(shí),它是否只是對近乎相同的訓(xùn)練序列進(jìn)行無害的「反芻」?還是說這種行為(甚至是會導(dǎo)致這種行為的信念和價(jià)值觀)已經(jīng)成為模型對人工智能助手概念的一個(gè)組成部分,以至于他們在不同的環(huán)境下都會應(yīng)用這種概念?
Anthropic正在研究一種技術(shù),嘗試將模型的輸出追溯回訓(xùn)練數(shù)據(jù),以此來找出可以幫助理解這種行為的重要線索。
危險(xiǎn)故障模式的測試
一個(gè)關(guān)鍵的問題是,先進(jìn)的人工智能可能會發(fā)展出有害的突發(fā)行為,例如欺騙或戰(zhàn)略規(guī)劃能力,而這些行為在較小和能力較弱的系統(tǒng)中是不存在的。
在這種問題成為直接威脅之前,Anthropic認(rèn)為能夠預(yù)測它的方法就是建立環(huán)境。所以,他們故意將這些屬性訓(xùn)練到小規(guī)模的模型中。因?yàn)檫@些模型的能力還不足以構(gòu)成危險(xiǎn),這樣就可以隔離和研究它們。
Anthropic對人工智能系統(tǒng)在「情境意識」下的行為特別感興趣——例如,當(dāng)它們意識到自己是一個(gè)在訓(xùn)練環(huán)境中與人類交談的人工智能時(shí),這會如何影響它們在訓(xùn)練期間的行為?人工智能系統(tǒng)是否會變得具有欺騙性,或者發(fā)展出令人驚訝的不理想的目標(biāo)?
在理想的情況下,他們想要建立詳細(xì)的量化模型,說明這些傾向是如何隨規(guī)模變化的,這樣就能提前預(yù)測到突然出現(xiàn)的危險(xiǎn)故障模式。
同時(shí),Anthropic也關(guān)注與研究本身相關(guān)的風(fēng)險(xiǎn):
如果研究是在較小的模型上進(jìn)行,不可能有嚴(yán)重的風(fēng)險(xiǎn);如果在能力更強(qiáng)的大型模型上進(jìn)行,就會有明顯的風(fēng)險(xiǎn)。因此,Anthropic不打算在能夠造成嚴(yán)重傷害的模型上進(jìn)行這種研究。
社會影響和評估
Anthropic研究的一個(gè)關(guān)鍵支柱,是通過建立工具、測量,批判性地評估和理解人工智能系統(tǒng)的能力、限制和潛在的社會影響其潛在的社會影響。
例如,Anthropic已經(jīng)發(fā)表了分析大型語言模型可預(yù)測性的研究,他們研究了這些模型的高級可預(yù)測性和不可預(yù)測性,并分析這種屬性會如何導(dǎo)致有害行為。
在這項(xiàng)工作中,他們研究了紅隊(duì)語言模型的方法,通過探測模型在不同模型規(guī)模下的輸出來發(fā)現(xiàn)并減少危害。最近,他們又發(fā)現(xiàn)目前的語言模型可以遵循指令,減少偏見和成見。
Anthropic非常關(guān)注人工智能系統(tǒng)的快速應(yīng)用將如何在短期、中期和長期內(nèi)影響社會。
通過對人工智能今天的影響進(jìn)行嚴(yán)格的研究,他們旨在為政策制定者和研究人員提供他們需要的論據(jù)和工具,來幫助減輕潛在的重大社會危機(jī),確保人工智能的好處可以惠及人們。
結(jié)語
人工智能會在未來十年內(nèi),對世界產(chǎn)生前所未有的影響。計(jì)算能力的指數(shù)級增長和人工智能能力的可預(yù)測改進(jìn)表明,未來的技術(shù)要比如今的先進(jìn)得多。
然而,如何確保這些強(qiáng)大的系統(tǒng)與人類價(jià)值觀緊密結(jié)合,我們對此還沒有一個(gè)扎實(shí)的理解,因此也無法保證將災(zāi)難性故障的風(fēng)險(xiǎn)降到最小。所以,我們要時(shí)時(shí)刻刻為不太樂觀的情況做好準(zhǔn)備。
通過多個(gè)角度的經(jīng)驗(yàn)研究,Anthropic所提供的安全工作「組合拳」,似乎可以幫助我們解決人工智能的安全問題。
Anthropic提出的這些安全建議告訴我們:
「要提高我們對人工智能系統(tǒng)如何學(xué)習(xí)和推廣到現(xiàn)實(shí)世界的理解,開發(fā)可擴(kuò)展的人工智能系統(tǒng)監(jiān)督和審查技術(shù),創(chuàng)建透明和可解釋的人工智能系統(tǒng),培訓(xùn)人工智能系統(tǒng)遵循安全流程而不是追求結(jié)果,分析人工智能的潛在危險(xiǎn)故障模式以及如何預(yù)防它們, 評估人工智能的社會影響,以指導(dǎo)政策和研究等等?!?/span>
對于人工智能的完美防御之法,我們還處于摸索階段,不過Anthropic很好地為大家指明了前路。