語言游戲讓AI自我進(jìn)化,谷歌DeepMind推出蘇格拉底式學(xué)習(xí)
沒有外部數(shù)據(jù),AI自己也能進(jìn)化?
聽起來有點(diǎn)嚇人,于是谷歌DeepMind的這項(xiàng)研究很快引起了廣泛關(guān)注。
圖片
論文地址:https://arxiv.org/pdf/2411.16905
新的方法被命名為「蘇格拉底式學(xué)習(xí)」(Socratic Learning),能夠使AI系統(tǒng)自主遞歸增強(qiáng),超越初始訓(xùn)練數(shù)據(jù)的限制。
圖片
研究人員表示,只要滿足三個條件,在封閉系統(tǒng)中訓(xùn)練的智能體可以掌握任何所需的能力:
a)收到足夠信息量和一致的反饋;
b)經(jīng)驗(yàn)/數(shù)據(jù)覆蓋范圍足夠廣泛;
c)有足夠的能力和資源。
本文考慮了假設(shè) c)不是瓶頸的情況下,在封閉系統(tǒng)中 a)和 b)會產(chǎn)生哪些限制。
圖片
蘇格拉底式學(xué)習(xí)的核心是語言游戲(即結(jié)構(gòu)化的交互),智能體在其中交流、解決問題并以分?jǐn)?shù)的形式接收反饋。
整個過程中,AI在封閉的系統(tǒng)中自己玩游戲、生成數(shù)據(jù)、然后改進(jìn)自身的能力,無需人工輸入。
如果游戲玩膩了,AI還可以自己創(chuàng)建新游戲,解鎖更多抽象技能。
Socratic Learning消除了固定架構(gòu)的局限,使AI的表現(xiàn)能夠遠(yuǎn)超其初始數(shù)據(jù)和知識,且僅受時間的限制。
邁向真正自主的AI
考慮一個隨時間演變的封閉系統(tǒng)(無輸入、無輸出),如下圖所示。
圖片
在系統(tǒng)中,有一個具有輸入和輸出的實(shí)體(智能體,agent),它也會隨著時間的推移而變化。系統(tǒng)外部有一個觀察者,負(fù)責(zé)評估智能體的性能。
由于系統(tǒng)是封閉的,觀察者的評估無法反饋到系統(tǒng)中。因此,智能體的學(xué)習(xí)反饋必須來自系統(tǒng)內(nèi)部,例如損失、獎勵函數(shù)、偏好數(shù)據(jù)或批評者。
考慮藍(lán)色虛線的路徑,讓智能體輸出影響未來的智能體輸入,并且性能得到提高(自我改進(jìn)過程),如果輸入和輸出空間兼容,則這種自我提升是遞歸的。
自我提升過程的一個典型例子是自我博弈,系統(tǒng)讓智能體作為游戲的雙方,從生成一個無限的體驗(yàn)流,并帶有獲勝反饋,來指導(dǎo)學(xué)習(xí)的方向。
圖片
反饋是其中的關(guān)鍵一環(huán),AI的真正意義是相對于外部觀察者的,但在封閉的系統(tǒng)中,反饋只能來自內(nèi)部的智能體。
這對于系統(tǒng)來說是一個挑戰(zhàn):讓反饋與觀察者保持一致,并在整個過程中保持一致。
RL的自我糾正能力在這里并不適用,可以自我糾正的是給定反饋的行為,而不是反饋本身。
蘇格拉底式學(xué)習(xí)
與輸出僅影響輸入分布的一般情況相比,遞歸的自我提升更具限制性,但中介作用更少,最常見的是將智能體輸出映射到輸入的環(huán)境實(shí)例化。
這種類型的遞歸是許多開放式流程的一個屬性,而開放式改進(jìn)正是ASI的一個核心特征。
輸入和輸出空間兼容的一個例子是語言。人類的廣泛行為都是由語言介導(dǎo)的,特別是在認(rèn)知領(lǐng)域。
語言的一個相關(guān)特征是它的可擴(kuò)展性,即可以在現(xiàn)有語言中開發(fā)新的語言,比如在自然語言中開發(fā)的形式數(shù)學(xué)或編程語言。
圖片
綜上,本文選擇研究智能體在語言空間中遞歸自我提升的過程。蘇格拉底式學(xué)習(xí),模仿了蘇格拉底通過提問、對話和重復(fù)的語言互動,來尋找或提煉知識的方法。
蘇格拉底并沒有去外界收集現(xiàn)實(shí)世界中的觀察結(jié)果,這也符合本文強(qiáng)調(diào)的封閉系統(tǒng)。
圖片
局限性
在自我提升的三個必要條件中,覆蓋率和反饋原則上適用于蘇格拉底式學(xué)習(xí),并且是不可簡化的。
從長遠(yuǎn)角度來看,如果計(jì)算和內(nèi)存保持指數(shù)級增長,那么規(guī)模限制只是一個暫時的障礙。另一方面,即使是資源受限的場景,蘇格拉底式學(xué)習(xí)可能仍會產(chǎn)生有效的高級見解。
覆蓋率意味著蘇格拉底式學(xué)習(xí)系統(tǒng)必須不斷生成數(shù)據(jù)(語言),同時隨著時間的推移保持或擴(kuò)大多樣性。
生成對于LLM來說是小菜一碟,難的是在遞歸過程中防止漂移、崩潰或者生成分布不夠廣泛。
反饋要求系統(tǒng)繼續(xù)產(chǎn)生關(guān)于智能體輸出的反饋,這在結(jié)構(gòu)上需要一個能夠評估語言的批評者,且應(yīng)與觀察者的評估指標(biāo)保持充分一致。
然而,語言空間中定義明確的指標(biāo)通常僅限于特定的任務(wù),而AI反饋則需要更通用的機(jī)制,尤其是在允許輸入分布發(fā)生變化的情況下。
目前的LLM訓(xùn)練范式都沒有足以用于蘇格拉底式學(xué)習(xí)的反饋機(jī)制。比如下一個標(biāo)記預(yù)測損失,與下游使用情況不一致,并且無法推斷訓(xùn)練數(shù)據(jù)之外的情況。
根據(jù)定義,人類的偏好是一致的,但無法在封閉系統(tǒng)的學(xué)習(xí)中使用。將人類偏好緩存到學(xué)習(xí)的獎勵模型中或許可行,但從長遠(yuǎn)來看,可能會產(chǎn)生錯位,并且在分布外的數(shù)據(jù)上效果也很弱。
換句話說,純粹的蘇格拉底式學(xué)習(xí)是可能的,但需要通過強(qiáng)大且一致的批評者生成廣泛的數(shù)據(jù)。當(dāng)這些條件成立時,這種方法的上限就只取決于能夠提供的計(jì)算資源。
LANGUAGE GAMES ARE ALL YOU NEED
語言、學(xué)習(xí)和基礎(chǔ)是經(jīng)過充分研究的話題。其中一個特別有用的概念是哲學(xué)家Wittgenstein提出的「語言游戲」。
圖片
對他來說,捕捉意義的不是文字,而需要語言的互動性質(zhì)才能做到這一點(diǎn)。
具體來說,將語言游戲定義為交互協(xié)議(一組規(guī)則,可以用代碼表達(dá)),指定一個或多個智能體(玩家)的交互,這些智能體具有語言輸入和輸出,以及在游戲結(jié)束時每個玩家的標(biāo)量評分函數(shù)。
這樣定義的語言游戲解決了蘇格拉底式學(xué)習(xí)的兩個主要需求:為無限的交互式數(shù)據(jù)生成提供了一種可擴(kuò)展的機(jī)制,同時自動提供反饋信號(分?jǐn)?shù))。
從實(shí)用的角度來看,游戲也是一個很好的入門方式,因?yàn)槿祟愒趧?chuàng)造和磨練大量游戲和玩家技能方面有著相當(dāng)多的記錄。
實(shí)際上,許多常見的LLM交互范式也能被很好地表示為語言游戲,例如辯論、角色扮演、心智理論、談判、越獄防御,或者是在封閉系統(tǒng)之外,來自人類反饋的強(qiáng)化學(xué)習(xí)。
Wittgenstein曾表示,他堅(jiān)決反對語言具有單一的本質(zhì)或功能。
相比于單一的通用語言游戲,使用許多狹義但定義明確的語言游戲的優(yōu)勢在于:對于每個狹義的游戲,都可以設(shè)計(jì)一個可靠的分?jǐn)?shù)函數(shù)(或評論家),這對于通用游戲來說非常困難。
從這個角度來看,蘇格拉底式學(xué)習(xí)的整個過程就是一個元游戲,一個安排了智能體玩和學(xué)習(xí)的語言游戲(一個「無限」的游戲)。
圖片
蘇格拉底因「腐蝕青年」而被判處死刑并被處決。這也意味著,蘇格拉底過程并不能保證與外部觀察者的意圖保持一致。
語言游戲作為一種機(jī)制也沒有回避這一點(diǎn),但它所需要的不是在單個輸入和輸出的細(xì)粒度上對齊的批評家,而是一個可以判斷應(yīng)該玩哪些游戲的「元批評家」:根據(jù)是否對整體性能有貢獻(xiàn)來過濾游戲。
此外,游戲的有用性不需要先驗(yàn)評估,可以在玩了一段時間后事后判斷,畢竟事后檢測異??赡鼙仍O(shè)計(jì)時阻止要容易得多。
那么問題來了,如果從蘇格拉底和他的弟子開始,數(shù)千年來一直不受干擾地思考和改進(jìn),到現(xiàn)在會產(chǎn)生什么樣的文化產(chǎn)物、什么樣的知識、什么樣的智慧?
參考資料:https://x.com/kimmonismus/status/1862993274727793047



































