OpenAI聯(lián)合創(chuàng)始人John Schulman:OpenAI 大模型史,RLHF,AGI 2027 ...
隨著前不久Ilya Sutskever 從 OpenAI的離職,OpenAI首席架構(gòu)師和著名強(qiáng)化學(xué)習(xí)(Reinforcement Learning, 或RL)專家John Schulman ?博士成為OpenAI 現(xiàn)存最主要具有技術(shù)背景的創(chuàng)始人。最近,Schulman博士接受了著名的科技播客主持人 Dwarkesh Patel 的專訪。他解密了OpenAI 大模型發(fā)展史,介紹了OpenAI怎樣訓(xùn)練和產(chǎn)品化大模型,尤其是后訓(xùn)練階段如何通過RL提升大模型的泛化能力和實(shí)用性。Schulman分享了他對大模型伸縮律(Scaling Law) ,大模型的推理能力,大模型強(qiáng)化學(xué)習(xí),未來大模型AI與人類的協(xié)作,以及大模型安全和對齊等問題的理解。此外,Schulman還討論了多模態(tài)數(shù)據(jù)處理、用戶界面設(shè)計(jì)、模型泛化能力等話題。他預(yù)測未來五年大模型AI的顯著進(jìn)步會(huì)使得他的工作被取代。特別是Schulman 博士回答了下面的一些有趣的問題:
- OpenAI 是怎么訓(xùn)練大模型的?預(yù)訓(xùn)練(Pre-trainig)和后訓(xùn)練(Post-Training) 對大模型能力的提升各起什么作用?GPT-4是因?yàn)槭裁丛虿攀蛊銭lo-分遠(yuǎn)遠(yuǎn)高于之前的模型?為什么他覺得現(xiàn)在OpenAI 內(nèi)部算力分配很不合理?
- OpenAI 最初大模型服務(wù)的產(chǎn)品形態(tài)都有哪些?什么時(shí)候OpenAI將對話機(jī)器人 (即ChatGPT) 作為大模型產(chǎn)品的主要形態(tài)?為什么最后將網(wǎng)頁瀏覽功能從ChatGPT中賜除
- 大模型的什么問題讓他非常興奮?是什么時(shí)候他的團(tuán)隊(duì)將研究方向徹底轉(zhuǎn)向大模型?
- 大模型伸縮律 (Scaling Law) 怎樣解釋?模型規(guī)模對智能的體現(xiàn)有什么影響?為什么模型越大,樣本效率越高
- 大模型也會(huì)有工具收斂 (Instrumental Convergence) 現(xiàn)象嗎
- 接下來大模型的能力在什么方面會(huì)有突破?大模型是否會(huì)更有能力從錯(cuò)誤中恢復(fù)或處理邊角問題?大模型有驅(qū)動(dòng)力和目標(biāo)嗎?大模型看似具備的推理能力是怎樣獲得的?
- 對于強(qiáng)化學(xué)習(xí) (RL),獎(jiǎng)賞 (Reward) 是否足夠了 (Is Reward Enough?
- 強(qiáng)化學(xué)習(xí)很復(fù)雜,做好強(qiáng)化學(xué)習(xí)的研究需具備怎么樣的特質(zhì)?在大模型強(qiáng)化學(xué)習(xí)研究中,經(jīng)驗(yàn)方法或第一原理哪個(gè)更重要?
- 當(dāng)今的各個(gè)大模型為什么看起來都是千篇一律?大模型回答結(jié)果的單調(diào)、正式和冗長等問題是什么因素造成的?是因?yàn)镽LHF
?(基于人工反饋的強(qiáng)化學(xué)習(xí)) ,數(shù)據(jù)標(biāo)注,還是損失函數(shù)? - 大模型的競爭護(hù)城河 (Moat) 是什么
- 人在大模型AI應(yīng)用中扮演什么角色?AI 取代人類工作,比如運(yùn)營一家公司,的條件是什么?像RLHF這樣的技術(shù)將在其中扮演怎樣的角色?
- OpenAI 即將發(fā)布的Model Spec 是一個(gè)什么文件?
- 上下文長度 (Context Length) 是否是大模型推理任務(wù)的瓶頸?
- 大模型發(fā)展到GPT-4 是否快到頂了?現(xiàn)在大模型的發(fā)展碰到數(shù)據(jù)墻(Data Wall) 了嗎?
- 算力對大模型 AI 發(fā)展的影響體現(xiàn)在哪些方面?GPT-5 在學(xué)習(xí)能力和規(guī)模上有什么值得期待?對于今后GPT-6 或 GPT-7 級別的模型, 我們是需要給它們更多的書面指示,還是需要對他們設(shè)置一些潛在偏好?
- 大模型研究的下一步方向是什么?是基于更多多模態(tài)數(shù)據(jù)來訓(xùn)練更好的模型,還是基于長程強(qiáng)化學(xué)習(xí),使得大模型作為智能體來更好的集成工作流
- 怎么看待公眾對目前 AI 特別是大模型研究和文獻(xiàn)的抱怨
通過這篇訪談,我們得以一窺AI領(lǐng)域的工程前沿現(xiàn)狀。這將引發(fā)我們對于人工智能未來影響的思考,以及讓我們考量如何準(zhǔn)備迎接這一變革。
這是我和OpenAI聯(lián)合創(chuàng)始人兼首席架構(gòu)師John Schulman的一集節(jié)目。
我們討論了:
- 預(yù)訓(xùn)練、后訓(xùn)練以及未來的能力
- 2025年通用人工智能計(jì)劃??
- 教會(huì)模型推
- 通往ChatGPT的道
- 成為一名優(yōu)秀的強(qiáng)化學(xué)習(xí)研究員的要
- 保持人類參
- 研究現(xiàn)狀、平臺(tái)期和護(hù)城河
預(yù)訓(xùn)練、后訓(xùn)練以及未來的能力
Dwarkesh:今天我有幸與John Schulman交談,他是OpenAI的聯(lián)合創(chuàng)始人之一,領(lǐng)導(dǎo)著這里的后訓(xùn)練團(tuán)隊(duì)。他還領(lǐng)導(dǎo)了ChatGPT的創(chuàng)建,并是許多在AI和RL領(lǐng)域最重要、引用最廣泛的論文的作者,包括PPO等。John,很高興能和你聊天。感謝你來參加播客。
Schulman:感謝邀請我參加播客。我是你的忠實(shí)粉絲。
Dwarkesh:謝謝你這么說。這是我的第一個(gè)問題。我們有預(yù)訓(xùn)練和后訓(xùn)練之間的區(qū)別。讓我們超越損失函數(shù)和訓(xùn)練機(jī)制實(shí)際發(fā)生的事情。從概念上退一步,預(yù)訓(xùn)練到底創(chuàng)造了什么樣的東西?后訓(xùn)練又在此基礎(chǔ)上做了什么?
Schulman:在預(yù)訓(xùn)練中,你基本上是在訓(xùn)練模仿互聯(lián)網(wǎng)或網(wǎng)絡(luò)上的所有內(nèi)容,包括網(wǎng)站和代碼等。所以你得到的模型可以生成看起來像互聯(lián)網(wǎng)上隨機(jī)網(wǎng)頁的內(nèi)容。模型還被訓(xùn)練以最大化可能性,它必須對一切進(jìn)行概率估計(jì)。
目標(biāo)基本上是預(yù)測下一個(gè)標(biāo)記,給定之前的標(biāo)記。標(biāo)記就像單詞,或者是單詞的一部分。由于模型必須對它進(jìn)行概率估計(jì)——我們正在訓(xùn)練以最大化對數(shù)概率——它最終會(huì)變得非常校準(zhǔn)。它不僅可以生成所有網(wǎng)絡(luò)內(nèi)容,還可以對一切分配概率。
基礎(chǔ)模型可以有效地承擔(dān)所有這些不同的角色或生成所有不同種類的內(nèi)容。當(dāng)我們進(jìn)行后訓(xùn)練時(shí),我們通常針對的是更狹窄的行為范圍,我們希望模型表現(xiàn)得像一種聊天助手。這是一個(gè)更具體的人物設(shè)定,它試圖變得有用。它不是試圖模仿一個(gè)人。它在回答你的問題或執(zhí)行你的任務(wù)。我們正在優(yōu)化一個(gè)不同的目標(biāo),那就是更多地產(chǎn)生人類會(huì)喜歡并發(fā)現(xiàn)有用的輸出,而不是僅僅模仿來自網(wǎng)絡(luò)的原始內(nèi)容。
Dwarkesh:也許我應(yīng)該退一步,問這個(gè)問題。現(xiàn)在我們有這些模型,它們作為聊天機(jī)器人表現(xiàn)得相當(dāng)不錯(cuò)。從當(dāng)前這些過程的工作方式退一步來看,你認(rèn)為到年底發(fā)布的模型將能夠做些什么?如果我們將一切推向未來五年,你認(rèn)為進(jìn)步會(huì)是什么樣子?
Schulman:五年后,這些模型會(huì)好得多。
Dwarkesh:在哪些方面?
Schulman:即使在一兩年之內(nèi),我們會(huì)發(fā)現(xiàn)模型能夠執(zhí)行比現(xiàn)在更復(fù)雜的任務(wù)。例如,你可以想象讓模型執(zhí)行整個(gè)編碼項(xiàng)目,而不僅僅是給你一個(gè)關(guān)于如何編寫函數(shù)的建議。你可以想象模型接收高層次的編碼指令,然后獨(dú)立地編寫任何文件,測試它,并查看輸出。它甚至可能還會(huì)迭代一下。所以就是更復(fù)雜的任務(wù)。
Dwarkesh:根本上的解鎖是它能夠連貫地行動(dòng)足夠長的時(shí)間來編寫多個(gè)文件的代碼?從現(xiàn)在到那時(shí)有什么變化?
Schulman:我會(huì)說這將來自一些組合,訓(xùn)練模型執(zhí)行像這樣的更難任務(wù)。大部分訓(xùn)練數(shù)據(jù)更像是一次執(zhí)行一個(gè)步驟。我期望我們更多地訓(xùn)練模型來執(zhí)行這些更長的項(xiàng)目。
這是任何類型的訓(xùn)練,比如做強(qiáng)化學(xué)習(xí),學(xué)習(xí)如何執(zhí)行這些任務(wù)。無論你是在最終輸出時(shí)監(jiān)督它,還是在每個(gè)步驟中監(jiān)督它,任何執(zhí)行這些長期項(xiàng)目的培訓(xùn)都將使模型變得更好。
由于整個(gè)領(lǐng)域相當(dāng)新,我會(huì)說在這個(gè)類型的培訓(xùn)中有很多容易摘取的果實(shí)。這是一件事。我還期望隨著模型的改進(jìn),它們會(huì)變得更擅長從錯(cuò)誤中恢復(fù)或處理邊緣情況。當(dāng)出現(xiàn)問題時(shí),它們會(huì)知道如何從中恢復(fù)。
模型將更加樣本高效。你不必收集大量數(shù)據(jù)來教它們?nèi)绾位氐秸?。只需要一點(diǎn)數(shù)據(jù)或者它們從其他能力中的泛化就足以讓它們回到正軌。當(dāng)前的模型可能會(huì)陷入困境并迷失方向。
Dwarkesh:我想具體了解泛化是如何幫助你回到正軌的。你能多說一些嗎?我不太確定這兩個(gè)概念是如何聯(lián)系起來的。
Schulman:對,它們不是直接聯(lián)系的。你通常有一些數(shù)據(jù)可以完成所有事情。如果你收集了一個(gè)多樣化的數(shù)據(jù)集,你就會(huì)在其中得到一切。如果你有泛化能力很強(qiáng)的模型——即使只有幾個(gè)回到正軌的例子,或者在預(yù)訓(xùn)練數(shù)據(jù)中有幾個(gè)模型回到正軌的例子——模型將能夠從它所看到的其他事物泛化到當(dāng)前情況。
如果你有較弱的模型,你可能可以通過足夠的數(shù)據(jù)讓它們做幾乎所有事情。但你可能必須在特定領(lǐng)域或技能上投入大量努力。
而對一個(gè)更強(qiáng)的模型來說,它可能不需要任何訓(xùn)練數(shù)據(jù)或任何努力就能做正確的事情。
Dwarkesh:現(xiàn)在這些模型可以連貫地工作五分鐘。我們希望它們能夠執(zhí)行人類需要一個(gè)小時(shí)來完成的任務(wù),然后是一周,一個(gè)月,等等。
要達(dá)到每一個(gè)這些基準(zhǔn),是否每個(gè)都需要10倍的計(jì)算量,類似于當(dāng)前預(yù)訓(xùn)練的擴(kuò)展法則?還是說這將是一個(gè)更加簡化的過程,你已經(jīng)更加樣本高效,你可以直接達(dá)到執(zhí)行任務(wù)的年限?
Schulman:從高層次上講,我同意長期任務(wù)將需要更多的模型智能才能做好。它們將更昂貴地訓(xùn)練。我不確定我會(huì)期望一個(gè)真正清晰的擴(kuò)展法則,除非你以非常謹(jǐn)慎的方式設(shè)置它,或者以某種方式設(shè)計(jì)實(shí)驗(yàn)??赡軙?huì)有一些相變,一旦你達(dá)到某個(gè)水平,你就可以處理更長期的任務(wù)。
例如,當(dāng)人們?yōu)椴煌臅r(shí)間尺度做計(jì)劃時(shí),我不確定他們是否使用完全不同的機(jī)制。我們可能使用相同的心智機(jī)制來思考一個(gè)月后、一年后或一百年后的事情。我們實(shí)際上并不進(jìn)行某種強(qiáng)化學(xué)習(xí),需要擔(dān)心一個(gè)覆蓋那個(gè)時(shí)間尺度的折扣因子等等。
使用語言,你可以描述所有這些不同的時(shí)間尺度,然后你可以做計(jì)劃。在當(dāng)下,你可以嘗試朝著你的目標(biāo)取得進(jìn)展,無論是一個(gè)月后還是10年后。我不知道這是否是一個(gè)相變,但我可能期望模型也是如此,其中可能有一些能力在多個(gè)尺度上工作。
Dwarkesh:如果我說錯(cuò)了請糾正我。似乎你在暗示,現(xiàn)在我們有的模型在每個(gè)標(biāo)記的基礎(chǔ)上相當(dāng)聰明。它們可能在每個(gè)標(biāo)記的基礎(chǔ)上和最聰明的人類一樣聰明。阻止它們像它們本可以的那樣有用的事情是,五分鐘后,它們不會(huì)以一種連貫的方式繼續(xù)編寫你的代碼,這與你對項(xiàng)目或類似事物的更廣泛目標(biāo)保持一致。
如果一旦你開始這個(gè)長期RL訓(xùn)練機(jī)制,它立即解鎖了你長時(shí)間連貫的能力,我們應(yīng)該預(yù)測一旦那個(gè)機(jī)制被解鎖,就會(huì)出現(xiàn)人類水平的東西嗎?如果不是,那么在我們能夠計(jì)劃一年并執(zhí)行那么長時(shí)間的項(xiàng)目之后,還有什么剩下的?
Schulman:一旦我們進(jìn)入那個(gè)機(jī)制或進(jìn)步的速度會(huì)如何,目前還不太清楚。這仍然是不確定的。我不期望通過做任何這樣的訓(xùn)練就能立即解決一切問題。模型還會(huì)有其他一些缺陷,導(dǎo)致它們陷入困境或做出比人類更糟糕的決策。我不期望這一個(gè)小小的東西會(huì)解鎖所有能力。但是,長期任務(wù)能力的提高可能會(huì)有很大的進(jìn)步。
Dwarkesh:你會(huì)說這是合理的嗎?這看起來很有可能,還有其他原因可能導(dǎo)致瓶頸嗎?我也很好奇這些瓶頸的本質(zhì)是什么。它已經(jīng)擁有所有預(yù)訓(xùn)練的表示。現(xiàn)在,由于長期RL,它可以長時(shí)間連貫地工作。還剩下什么?
Schulman:也許還有其他一些人類專家在執(zhí)行不同任務(wù)時(shí)帶來的經(jīng)驗(yàn),比如擁有品味或更好地處理模糊性。如果我們想做研究,我可以想象這些考慮會(huì)發(fā)揮作用。顯然,模型的實(shí)用性限制和它能否使用UI、與物理世界互動(dòng)或訪問事物將會(huì)有一些現(xiàn)實(shí)的限制。所以可能會(huì)有很多現(xiàn)實(shí)的障礙,這些障礙可能不會(huì)持續(xù)很長時(shí)間,但最初會(huì)減緩進(jìn)展。
Dwarkesh:讓我們談?wù)劄檫@些AI設(shè)計(jì)的網(wǎng)頁。一旦它們經(jīng)過更多多模態(tài)數(shù)據(jù)的訓(xùn)練,它們會(huì)與我們?yōu)槿祟愒O(shè)計(jì)的網(wǎng)頁有什么不同嗎?需要什么UI?它們將如何彌補(bǔ)它們的優(yōu)勢和劣勢?這與我們目前為人類設(shè)計(jì)的UI有什么不同?
Schulman:這是一個(gè)有趣的問題。我預(yù)計(jì),一旦視覺能力有所提高,模型將能夠使用為人類設(shè)計(jì)的網(wǎng)頁,僅通過視覺。所以,沒有必要立即改變它們。
另一方面,將會(huì)有很多網(wǎng)站從AI的使用中受益匪淺。我們可能希望為AI設(shè)計(jì)更好的用戶體驗(yàn)。我不確定確切的含義是什么。假設(shè)我們的模型在文本模式上仍然比從圖像中讀取文本更好,你可能希望為模型提供良好的基于文本的表示。
你也希望有一個(gè)很好的指示,說明所有可以交互的事物是什么。但我不期望網(wǎng)絡(luò)會(huì)完全重新設(shè)計(jì),到處都是API。我們可以讓模型使用與人類相同的UI。
Dwarkesh:我猜這是語言模型的大教訓(xùn),對吧?它們可以在與人類相似的條件下行動(dòng)。
我想回到你之前提到的一個(gè)觀點(diǎn),即這個(gè)過程可能因?yàn)榭梢詮念A(yù)訓(xùn)練經(jīng)歷中泛化而更樣本高效,從而擺脫不同場景中的困境。你看到過的這種泛化和轉(zhuǎn)移的最有力證據(jù)是什么?
關(guān)于模型未來能力的大問題似乎是正在發(fā)生的泛化有多少。有什么對你來說感覺非常令人信服的東西嗎?你有沒有看到模型學(xué)會(huì)了一些你不希望它從泛化中學(xué)到的東西?
Schulman:在后訓(xùn)練中,肯定有一些有趣的泛化實(shí)例。
一個(gè)眾所周知的現(xiàn)象是,如果你用英語數(shù)據(jù)完成所有的微調(diào),模型會(huì)自動(dòng)在其他語言中表現(xiàn)良好。所以如果你用英語數(shù)據(jù)訓(xùn)練助手,它在西班牙語中也會(huì)做出合理的反應(yīng)。有時(shí)你可能會(huì)在用英語回復(fù)還是用西班牙語回復(fù)方面得到錯(cuò)誤的行為。通常你會(huì)得到正確的行為,意味著你讓它用西班牙語回應(yīng)西班牙語查詢。這是模型正確、有幫助的人物設(shè)定,然后自動(dòng)在不同語言中做正確事情的一個(gè)有趣的泛化實(shí)例。
我們在多模態(tài)數(shù)據(jù)上看到了一些這方面的版本,如果你只進(jìn)行文本微調(diào),你也會(huì)在圖像上得到合理的行為。在ChatGPT早期,我們試圖解決模型理解自身局限性的問題。早期版本的模型會(huì)認(rèn)為它可以給你發(fā)電子郵件或給你叫優(yōu)步什么的。模型會(huì)嘗試扮演助手,并說“哦,當(dāng)然,我發(fā)了那封電子郵件”。顯然它沒有。
所以我們開始收集一些數(shù)據(jù)來解決這些問題。我們發(fā)現(xiàn),即使是混合其他所有數(shù)據(jù),一點(diǎn)點(diǎn)數(shù)據(jù)也能起到作用。我不記得確切有多少個(gè)例子,但像30個(gè)例子這樣的東西。我們有相當(dāng)少的例子展示了這種一般行為,解釋了模型沒有這個(gè)能力。這很好地泛化到了我們沒有訓(xùn)練的各種能力上。
Dwarkesh:我仍然想回到這個(gè)問題,因?yàn)槲也淮_定我理解了。假設(shè)你有一個(gè)模型,它被訓(xùn)練成能夠長時(shí)間保持連貫性。拋開可能存在或不存在的其他瓶頸,明年你可能會(huì)擁有潛在的人類水平的模型嗎?我想象的是一個(gè)你與之互動(dòng)就像與同事互動(dòng)一樣的模型,它和與人類同事互動(dòng)一樣好。你可以告訴它們?nèi)プ鲆恍┦虑椋鼈兙蜁?huì)去完成。你認(rèn)為可能的這種能力有什么問題?
Schulman:很難確切地說缺陷會(huì)是什么。當(dāng)你今天與模型交談時(shí),除了長期連貫性之外,它們還有各種弱點(diǎn)。它們也很難真正深入思考事情或關(guān)注你要求它們做的事情。我不認(rèn)為僅僅提高連貫性就足以達(dá)到通用人工智能(AGI)。我想我無法確切地表達(dá)出主要的弱點(diǎn)是什么,會(huì)阻止它們成為一個(gè)完全功能齊全的同事。
2025年通用人工智能計(jì)劃
Dwarkesh:那么看起來,你應(yīng)該計(jì)劃很快就擁有通用人工智能的可能性。
Schulman:我認(rèn)為這是合理的。
Dwarkesh:所以如果沒有其他瓶頸。在接下來的一年左右,你就擁有了通用人工智能。計(jì)劃是什么?
Schulman:如果通用人工智能比預(yù)期來得早得多,我們肯定要小心。我們可能想在訓(xùn)練和部署上稍微放慢一點(diǎn),直到我們相當(dāng)確定我們知道我們可以安全地處理它。我們需要很好地掌握它將做什么以及它能做什么。如果它比預(yù)期早得多發(fā)生,我們必須非常小心。我們在很多方面的理解仍然是基礎(chǔ)的。
Dwarkesh:小心意味著什么?假設(shè)你已經(jīng)很小心了,對吧?你在部署之前進(jìn)行這些評估。
Schulman:也許這意味著不訓(xùn)練更聰明的版本,或者在你訓(xùn)練時(shí)非常小心。你可以確保它被適當(dāng)?shù)馗綦x,等等。也許這意味著不大規(guī)模部署它,或者小心地考慮你部署它的規(guī)模。
Dwarkesh:讓我們來玩一個(gè)場景。明年通用人工智能就實(shí)現(xiàn)了。你沒有訓(xùn)練一個(gè)更聰明的系統(tǒng),但你以一種相對有度的方式部署它。假設(shè)發(fā)展并不特定于OpenAI。通用人工智能結(jié)果比我們預(yù)期的要容易得多,這就是為什么它發(fā)生了。所以你稍等一下再部署?,F(xiàn)在其他公司擁有類似水平的能力。接下來會(huì)發(fā)生什么?當(dāng)你等待部署時(shí),你在等什么?在這個(gè)場景中,每家公司都在做什么?
Schulman:博弈論有點(diǎn)難以思考。首先,我不認(rèn)為這會(huì)在明年發(fā)生,但進(jìn)行這樣的對話仍然是有用的??赡苁窃趦傻饺陜?nèi)。
Dwarkesh:兩到三年仍然相當(dāng)快。
Schulman:仍然相當(dāng)快。你可能需要一些協(xié)調(diào)。每個(gè)人都需要同意對部署或進(jìn)一步訓(xùn)練設(shè)定一些合理的限制,這樣才行得通。否則,你會(huì)有競賽動(dòng)態(tài),每個(gè)人都總是試圖保持領(lǐng)先,這可能需要妥協(xié)安全。你可能需要在進(jìn)行這種訓(xùn)練的較大實(shí)體之間進(jìn)行一些協(xié)調(diào)。
Dwarkesh:你將協(xié)調(diào)暫停部署,直到什么確切的事情?直到你弄清楚模型中發(fā)生了什么?
Schulman:我們可以暫停進(jìn)一步訓(xùn)練。我們可以暫停部署。我們可以避免一些可能更危險(xiǎn)的訓(xùn)練類型。我們將為每個(gè)人應(yīng)該做什么來限制這些事情設(shè)定一些合理的規(guī)則。
Dwarkesh:限制到什么目的?在某個(gè)時(shí)候,這種智能內(nèi)部的潛在能量將被釋放。假設(shè)兩年后我們得到了通用人工智能。現(xiàn)在每個(gè)人都很恐慌。人工智能公司已經(jīng)暫停了。我們計(jì)劃等到什么時(shí)候?
Schulman:我沒有辦法很好地回答這個(gè)問題。如果我們能像那樣進(jìn)行協(xié)調(diào),那將是一個(gè)相當(dāng)好的情景。構(gòu)建這些模型非常資本密集,有許多復(fù)雜的部分。這并不像每個(gè)人都要在家里重新創(chuàng)造這些東西。
鑒于能夠訓(xùn)練最大模型的實(shí)體數(shù)量相對較少,進(jìn)行協(xié)調(diào)似乎是可能的。我不確定如何長時(shí)間維持這種平衡,但我認(rèn)為如果我們到達(dá)那個(gè)地步,我們將處于一個(gè)可以的位置。
Dwarkesh:我們會(huì)嗎?我仍然很好奇,因?yàn)槲也淮_定接下來會(huì)發(fā)生什么。從根本上說,好處是你將其推送到服務(wù)器,現(xiàn)在我們有了一批智能,或者它們可以自己推送到服務(wù)器?,F(xiàn)在我們已經(jīng)協(xié)調(diào)了每個(gè)人,但我不確定在這個(gè)新世界中我們接下來要做什么。為什么這為我們設(shè)定了一個(gè)好結(jié)果?
Schulman:如果我們能讓每個(gè)人都合理協(xié)調(diào),并且我們覺得我們能夠很好地解決關(guān)于一致性的技術(shù)問題,那么我們就可以部署。我們將能夠部署真正智能的人工智能,作為人們意志的延伸,同時(shí)也防止它們被災(zāi)難性地濫用。那將是很棒的。我們可以安全地部署這些系統(tǒng),它將帶來大量的繁榮和更快速的科學(xué)進(jìn)步階段。這就是好情景的樣子。
Dwarkesh:這很有道理。我對幾年后的情況感到好奇。在最好的情況下,所有這些參與者都同意暫停,直到我們弄清楚我們正在構(gòu)建的是對齊的系統(tǒng),它們本身不會(huì)試圖發(fā)動(dòng)政變,也不會(huì)使別人這樣做。那證明會(huì)是什么樣子?那證據(jù)會(huì)是什么樣子?
Schulman:如果我們能部署系統(tǒng),這些系統(tǒng)是增量的,比之前的系統(tǒng)更聰明,那會(huì)更安全。我希望事情發(fā)展的方式不是每個(gè)人都必須協(xié)調(diào),鎖定事物,并安全地釋放事物。這將導(dǎo)致潛在能量的巨大積累。
我寧愿我們所有人都持續(xù)不斷地發(fā)布比之前更好的東西。我們將在確保我們對每個(gè)差異都對安全和一致性的改進(jìn)有信心的同時(shí)這樣做,這與能力的提升相對應(yīng)。如果事情開始看起來有點(diǎn)可怕,那么我們就能夠放慢速度。這就是我所希望的。
如果有更多的不連續(xù)跳躍,就會(huì)有一個(gè)“你怎么知道你要釋放的東西是安全的”的問題。我無法給出一個(gè)通用的答案。然而,你可能想要做的事情類型,以使這更可接受,將是大量測試模擬部署,某種形式的紅隊(duì)。你希望以比你在現(xiàn)實(shí)世界中計(jì)劃做的事情更有可能失敗的方式去做。
你想要有一個(gè)非常好的監(jiān)控系統(tǒng),以便如果部署的系統(tǒng)開始出現(xiàn)問題,你可以立即檢測到它。也許你有東西在監(jiān)視部署的人工智能,監(jiān)視它們在做什么,并尋找麻煩的跡象。
你想要一些深度防御。你想要一些組合,“模型本身似乎表現(xiàn)得非常好,對一切都有無可挑剔的道德信心”,并且“我相當(dāng)有信心它極其抵抗任何嚴(yán)重的濫用”。你也希望有非常好的監(jiān)控在它上面,這樣你就可以檢測到任何不可預(yù)見的麻煩。
Dwarkesh:當(dāng)你在做長期RL或者最終開始做的時(shí)候,你在跟蹤什么?你怎么能在你廣泛部署這些系統(tǒng)之前注意到這種不連續(xù)的跳躍?
Schulman:你會(huì)希望在訓(xùn)練過程中進(jìn)行大量的評估。
Dwarkesh:具體來說呢?在進(jìn)行長期RL(強(qiáng)化學(xué)習(xí))訓(xùn)練時(shí),是否有必要知道這可能發(fā)生?或者這只是一個(gè)可能性很低的事情?你怎么看待這個(gè)問題?
Schulman:如果在進(jìn)行這類訓(xùn)練時(shí),你看到了許多可能令人擔(dān)憂的能力,你會(huì)非常小心。我會(huì)說,現(xiàn)在我們還不需要害怕,因?yàn)楝F(xiàn)在讓模型做出任何連貫的事情都很困難。
如果它們開始變得非常好,我們會(huì)認(rèn)真對待這些問題。我們會(huì)進(jìn)行大量評估,測試它們是否有不當(dāng)行為,主要是為了模型的一致性。我們想要檢查它們不會(huì)反對我們或類似的事情。你可能還想尋找能力上的不連續(xù)跳躍。你會(huì)希望對模型的能力進(jìn)行大量評估。
你還要確保你訓(xùn)練的內(nèi)容沒有任何理由讓模型反對你。這似乎不是最難做的事情。我們用RLHF(強(qiáng)化學(xué)習(xí)中的人類反饋)訓(xùn)練它們的方式,感覺很安全,盡管模型非常智能。模型只是試圖產(chǎn)生一個(gè)人類會(huì)喜歡的信息。它對世界上其他任何事情都不關(guān)心,只關(guān)心它產(chǎn)生的文本是否得到認(rèn)可。
顯然,如果模型需要執(zhí)行一系列涉及工具的長期動(dòng)作,那么它可能有一些動(dòng)機(jī)去做很多對人類來說沒有意義的瘋狂事情,以產(chǎn)生最終結(jié)果。然而,它不一定有動(dòng)機(jī)去做除了在最后產(chǎn)生非常高質(zhì)量的輸出之外的任何事情。
有一些關(guān)于工具性收斂的舊觀點(diǎn),模型想要接管世界,這樣它就可以在最后產(chǎn)生一些了不起的代碼。如果你要求它為你編寫一個(gè)Flask應(yīng)用程序,它會(huì)說“哦,是的,首先我需要接管世界。在某種程度上,很難想象為什么對于像編寫應(yīng)用程序這樣明確指定的任務(wù),你會(huì)想先接管世界。當(dāng)然,如果你分配了一個(gè)任務(wù),比如“賺錢”,那么作為工具性目標(biāo),可能會(huì)導(dǎo)致一些惡意行為。
教會(huì)模型推理
Dwarkesh:在我們回到那個(gè)話題之前,讓我們退一步,談?wù)劷裉斓腞LHF系統(tǒng)和一切。我確實(shí)想跟進(jìn)那個(gè)觀點(diǎn),因?yàn)樗苡腥ぁ?/span>
以今天的RLHF及其影響這些模型的方式,你如何從人類心理學(xué)的角度來描述它?它是驅(qū)動(dòng)力嗎?是目標(biāo)嗎?是沖動(dòng)嗎?在心理學(xué)上,它是什么樣的事情?它在哪些方面正在改變?
不僅僅是聊天機(jī)器人的角色,還有“不要那樣說,用另一種方式說”或“不要發(fā)布那種類型的輸出”。
Schulman:可能有一些與人類中的驅(qū)動(dòng)力或目標(biāo)的類比。你試圖引導(dǎo)模型朝向特定狀態(tài)集,而不是其他狀態(tài)。我認(rèn)為我們對驅(qū)動(dòng)力或目標(biāo)的概念還有其他元素,比如你實(shí)現(xiàn)它時(shí)的滿足感。這些東西更多地與學(xué)習(xí)算法有關(guān),而不是模型在運(yùn)行時(shí)所做的事情,那時(shí)你只有一個(gè)固定的模型。
可能有一些類比,盡管我不知道它有多接近。從某種意義上說,模型確實(shí)以某種有意義的方式擁有驅(qū)動(dòng)力和目標(biāo)。在RLHF的情況下,你試圖最大化人類的認(rèn)可,通過獎(jiǎng)勵(lì)模型來衡量,模型只是試圖產(chǎn)生人們會(huì)喜歡并判斷為正確的東西。
Dwarkesh:我聽說過兩種關(guān)于使用內(nèi)部獨(dú)白來提高推理能力的想法。至少公開地,我已經(jīng)看到了兩種想法,我很好奇哪一個(gè)你認(rèn)為更有希望。
一種是模型從它在許多可能的思維軌跡上的輸出中學(xué)習(xí),并學(xué)會(huì)遵循導(dǎo)致正確答案的那一個(gè)。然后在部署前對其進(jìn)行訓(xùn)練。另一種是你在部署時(shí)使用大量計(jì)算進(jìn)行推理。這種方法涉及模型在部署時(shí)自言自語。
當(dāng)模型真正擅長推理時(shí),你期望哪一種更接近模型的訓(xùn)練方式?是因?yàn)樗皇亲隽舜罅客评碓??還是僅僅因?yàn)槟阋呀?jīng)訓(xùn)練它在這方面做得好?
Schulman:你可以將推理定義為需要在測試時(shí)進(jìn)行某種計(jì)算或某種演繹的任務(wù)。根據(jù)定義,推理將是需要一些測試時(shí)計(jì)算和逐步計(jì)算的任務(wù)。另一方面,我也期望通過在訓(xùn)練時(shí)進(jìn)行練習(xí)獲得很多收獲。所以我認(rèn)為你通過結(jié)合這兩件事會(huì)得到最好的結(jié)果。
Dwarkesh:現(xiàn)在,你有這兩種模型學(xué)習(xí)方法。一種是在訓(xùn)練中,無論是預(yù)訓(xùn)練還是后訓(xùn)練。訓(xùn)練中的大部分計(jì)算都花在預(yù)訓(xùn)練上,略過數(shù)萬億個(gè)標(biāo)記,瀏覽數(shù)萬億個(gè)標(biāo)記的信息。如果一個(gè)人受到這種對待,他們只會(huì)完全困惑。這不是一個(gè)非常有效的學(xué)習(xí)方式。
另一種方式是上下文學(xué)習(xí)。當(dāng)然,這更有樣本效率,但每個(gè)實(shí)例都被破壞了。
我很好奇你是否認(rèn)為在這兩者之間有一條路徑,它不會(huì)在每個(gè)實(shí)例中被破壞,但也不像只是看到數(shù)萬億個(gè)標(biāo)記那樣輕率。更具意識和活躍。
Schulman:你的意思是模型有一些中期記憶?太多而不適合上下文,但比預(yù)訓(xùn)練規(guī)模小得多?
Dwarkesh:這可能是記憶。我沒有上下文。當(dāng)然,當(dāng)我試圖為這次對話做準(zhǔn)備時(shí),我想到我應(yīng)該理解什么,仔細(xì)閱讀它,也許在閱讀時(shí)考慮它。我不確定它在模型方面自然對應(yīng)什么。那會(huì)是什么樣子?
Schulman:我明白了。所以這不僅僅是記憶,某種程度上也是專門針對某個(gè)任務(wù)或投入大量精力到某個(gè)特定項(xiàng)目。
Dwarkesh:我甚至不確定它是不是專門化。更像是“我不理解這部分,所以讓我更深入地研究。我已經(jīng)理解了這部分?!蔽也逻@是專門化到你的現(xiàn)有知識庫。
Schulman:我明白了。所以這不僅僅是關(guān)于在大量相關(guān)資源上訓(xùn)練并在某個(gè)特殊領(lǐng)域進(jìn)行微調(diào)。它還涉及推理,并通過你自己的推理發(fā)展一些知識,使用某種內(nèi)省或自我知識來弄清楚它需要學(xué)習(xí)什么?
Dwarkesh:是的。
Schulman:這確實(shí)感覺是當(dāng)今系統(tǒng)缺失的東西。人們還沒有真正大力推動(dòng)大規(guī)模訓(xùn)練和上下文學(xué)習(xí)之間的中間地帶。
部分原因是我們一直在增加上下文長度,以至于沒有激勵(lì)它。如果你能達(dá)到十萬或一百萬的上下文,那實(shí)際上是相當(dāng)多的。在很多情況下,它實(shí)際上并不是瓶頸。
我同意你的觀點(diǎn),你可能還想用某種微調(diào)來補(bǔ)充它。微調(diào)和上下文學(xué)習(xí)所獲得的能力可能是互補(bǔ)的。我預(yù)計(jì)我們會(huì)想要構(gòu)建一些在線學(xué)習(xí)系統(tǒng),并且擁有一些認(rèn)知技能,比如對它們自己的知識進(jìn)行內(nèi)省,并尋找填補(bǔ)空白的新知識。
Dwarkesh:這一切都是同時(shí)發(fā)生的嗎?還是一個(gè)新訓(xùn)練機(jī)制,所有這些事情都可以同時(shí)發(fā)生,無論是長期還是這種訓(xùn)練?
它們是分開的還是不分開的?模型是否足夠智能,既能內(nèi)省又能在更長的時(shí)間范圍內(nèi)行動(dòng),以便你在長期任務(wù)上獲得適當(dāng)?shù)幕貓?bào)?
Schulman:如果你在做一些長期任務(wù),你是在執(zhí)行任務(wù)時(shí)學(xué)習(xí)的,對吧?
要做一些涉及很多步驟的事情,唯一的方法是擁有在任務(wù)期間更新的學(xué)習(xí)記憶。短期記憶和長期記憶之間有一個(gè)連續(xù)體。
我預(yù)計(jì),當(dāng)我們開始更多地關(guān)注長期任務(wù)時(shí),這種能力的需求將開始變得清晰。在某種程度上,將很多東西放入上下文會(huì)帶你走得很遠(yuǎn),因?yàn)槲覀儸F(xiàn)在有很長的上下文。你可能還想要像微調(diào)這樣的東西。
至于內(nèi)省和主動(dòng)學(xué)習(xí)的能力,這可能會(huì)自動(dòng)從模型知道它們知道什么的能力中產(chǎn)生。模型確實(shí)對它們知道什么有一些校準(zhǔn)。這就是為什么模型不會(huì)太幻覺。它們對自己的局限性有一些理解。同樣的那種能力可以用于像主動(dòng)學(xué)習(xí)這樣的東西。
通往ChatGPT的道路
Dwarkesh:有趣。我想退一步,問問你自己的歷史,至少在OpenAI。你領(lǐng)導(dǎo)了ChatGPT的創(chuàng)建。你什么時(shí)候意識到這些大型語言模型是要走的路?你什么時(shí)候意識到聊天機(jī)器人或者某種指導(dǎo)它們的方式會(huì)是有用的?請帶我走過整個(gè)譜系,從這成為你的主要關(guān)注點(diǎn)以及整個(gè)過程的樣子。
Schulman:在ChatGPT之前,OpenAI有這些遵循指令的模型。那里的想法是,我們有基礎(chǔ)模型,人們可以以復(fù)雜的方式提示它們。但它們也很難提示。它們基本上是自動(dòng)完成,所以你必須用一些例子設(shè)置一個(gè)非常好的提示。
OpenAI的人們正在研究如何只拿基礎(chǔ)模型并使它們更容易提示。所以如果你只寫一個(gè)問題,它會(huì)回答問題,而不是給你更多的問題或類似的事情。所以我們有這些遵循指令的模型,它們就像基礎(chǔ)模型,但更易于使用一點(diǎn)。那些是最初部署在API中的?;蛘咴贕PT-3之后,那些是下一代模型。
同時(shí),絕對有很多人在考慮聊天。谷歌有一些像LaMDA和早期的Meena
?的論文。他們有這些聊天機(jī)器人。這更像是一個(gè)真正專門用于聊天任務(wù)的基礎(chǔ)模型。它非常擅長聊天。從論文的例子來看,它更多用于有趣的應(yīng)用,模型會(huì)承擔(dān)某種角色并假裝是那個(gè)角色。它不是那么功能性強(qiáng),不能幫助我重構(gòu)我的代碼。
所以絕對有人在考慮聊天。我之前在一個(gè)名為WebGPT
?的項(xiàng)目上工作過,它更多的是在瀏覽和檢索的幫助下進(jìn)行問答。當(dāng)你進(jìn)行問答時(shí),它真的需要是一個(gè)聊天。你總是想問后續(xù)問題,或者有時(shí)模型應(yīng)該問一個(gè)澄清問題,因?yàn)閱栴}是模棱兩可的。
在我們完成第一個(gè)版本后,很明顯下一個(gè)版本應(yīng)該是會(huì)話式的。所以我們開始研究會(huì)話聊天助手。這是在GPT-3.5之上構(gòu)建的,它在2022年初完成了訓(xùn)練。那個(gè)模型非常擅長語言和代碼。我們很快意識到它實(shí)際上非常擅長編碼幫助。這是我們感到興奮的一件事。
我們大部分時(shí)間都在研究這個(gè)。我們還有瀏覽作為它的另一個(gè)功能,盡管我們后來強(qiáng)調(diào)了這一點(diǎn),因?yàn)槟P偷膬?nèi)部知識非常好。瀏覽不是它最有趣的事情。我們把它給朋友和家人試用了一段時(shí)間,我們考慮進(jìn)行公開發(fā)布。
實(shí)際上,GPT-4在那一年的8月完成了訓(xùn)練。OpenAI的旗艦RL(強(qiáng)化學(xué)習(xí))努力是遵循指令的努力,因?yàn)槟切┦钦诓渴鸬缴a(chǎn)中的模型。GPT-4的第一批微調(diào)使用了整個(gè)堆棧。這些模型真的很棒,每個(gè)人在看到指令微調(diào)GPT-4后都非常興奮。
它們真的很棒。它們偶爾會(huì)給你驚人的輸出,但模型顯然也相當(dāng)不可靠。有時(shí)它會(huì)大量幻覺。有時(shí)它會(huì)給出相當(dāng)離譜的輸出。所以它顯然還沒有完全準(zhǔn)備好,但顯然非常好。
在那之后,人們有一段時(shí)間忘記了聊天,這個(gè)替代分支。我們進(jìn)一步推動(dòng)了它,我們最終混合了所有數(shù)據(jù)集,指令和聊天數(shù)據(jù),試圖得到兩個(gè)世界中最好的。聊天模型顯然更易于使用。
它在模型知道自己的局限性方面自動(dòng)具有更合理的行為。實(shí)際上,這是我們在開發(fā)過程中感到興奮的一件事。我意識到,很多人認(rèn)為語言模型的缺陷,比如公然幻覺,可能無法完全修復(fù),但通過相當(dāng)直接的方法可以取得很大進(jìn)展。
關(guān)于聊天的另一件事是,當(dāng)我們有這些指令模型時(shí)?!耙院没蛴袔椭姆绞酵瓿蛇@段文本”的任務(wù)定義非常不明確。這個(gè)任務(wù)對模型和應(yīng)該進(jìn)行數(shù)據(jù)標(biāo)記的人類來說都很混亂。而對于聊天,人們有一種直觀的感覺,知道一個(gè)有用的機(jī)器人應(yīng)該是什么樣子。所以人們更容易理解模型應(yīng)該做什么。結(jié)果,模型有一個(gè)更連貫的個(gè)性,更容易獲得相當(dāng)合理的穩(wěn)健行為。
Dwarkesh:有趣。任何人都可以使用你公開可用的微調(diào)API制作ChatGPT嗎?
Schulman:不完全是。我不記得哪些模型當(dāng)時(shí)可以用于微調(diào)。假設(shè)我們當(dāng)時(shí)有3.5可用于微調(diào),你可以做出相當(dāng)接近的東西。我不認(rèn)為你只使用純粹的人類編寫的數(shù)據(jù)進(jìn)行一次微調(diào)。
如果你不做RL(強(qiáng)化學(xué)習(xí)),我們做了,你會(huì)想要某種迭代的監(jiān)督微調(diào),人類編輯模型生成的輸出。如果你在人類生成的數(shù)據(jù)上訓(xùn)練,即使質(zhì)量非常高,模型也很難完全適應(yīng)這些數(shù)據(jù),因?yàn)樗赡苁悄P湍軌蜉敵龅臇|西。你需要做一些迭代的事情,看起來更像RL。如果你這樣做了,你可以非常接近,但這將是非平凡的。
我們還在ChatGPT之前發(fā)布了另一個(gè)使用RL訓(xùn)練的指令模型。如果你給那個(gè)模型加上聊天包裝器,你會(huì)相當(dāng)接近,但那個(gè)模型在優(yōu)勢上有一些差異。那個(gè)模型擅長寫作和詩歌,但它在知道自己的局限性、事實(shí)性等方面沒有那么好。
Dwarkesh:從3.5退一步,我想我在哪里聽到你說過你對GPT-2印象深刻。與2019年的預(yù)期相比,AI的發(fā)展速度是比你預(yù)期的快還是慢?
Schulman:自從GPT-2以來比我預(yù)期的快。我非常認(rèn)同擴(kuò)大規(guī)模和預(yù)訓(xùn)練是一個(gè)很好的主意。但當(dāng)GPT-2完成時(shí),我并沒有完全信服它能徹底改變一切。真正在GPT-3之后,我轉(zhuǎn)變了我正在做的工作和我團(tuán)隊(duì)的工作重點(diǎn)。之后,我們聚在一起說,“哦,是的,讓我們看看我們能用這些語言模型做些什么?!钡贕PT-2之后,我還不太確定。
Dwarkesh:假設(shè)我們之前討論的強(qiáng)化學(xué)習(xí)(RL)開始與這些更智能的模型更好地工作。未來在預(yù)訓(xùn)練和后訓(xùn)練之間分配的計(jì)算資源比例是否會(huì)顯著改變,傾向于后訓(xùn)練?
Schulman:有一些理由支持這一點(diǎn)?,F(xiàn)在這個(gè)比例非常不平衡。你可以認(rèn)為模型生成的輸出比網(wǎng)絡(luò)上的大部分內(nèi)容質(zhì)量更高。所以讓模型自主思考比僅僅訓(xùn)練模仿網(wǎng)絡(luò)上的內(nèi)容更有意義。所以我認(rèn)為這是一個(gè)首要原則的論點(diǎn)。
我們通過后訓(xùn)練獲得了很大的提升。所以我期望我們繼續(xù)推動(dòng)這種方法,并可能增加我們投入其中的計(jì)算資源。
Dwarkesh:當(dāng)前的GPT-4有一個(gè)Elo評分,比最初發(fā)布的版本高出約100分。這全是因?yàn)槟闼務(wù)摰?,由后?xùn)練帶來的這些改進(jìn)嗎?
Schulman:是的,大部分是后訓(xùn)練。有很多不同的改進(jìn)方向。
我們考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)數(shù)量。僅僅是進(jìn)行更多次的部署和收集新數(shù)據(jù)的整個(gè)過程。還有改變你正在收集的注釋類型。有很多因素堆積起來,但它們共同為你提供了相當(dāng)可觀的有效計(jì)算能力提升。
Dwarkesh:這是一個(gè)巨大的提升。很有趣的是,有這么多的改進(jìn)空間來自后訓(xùn)練。
成為一名優(yōu)秀的強(qiáng)化學(xué)習(xí)研究員的要素
什么樣的人才能在這種強(qiáng)化學(xué)習(xí)研究中做得非常出色?我聽說這非常棘手。你擁有什么樣的直覺,使你能夠找到這些方法來干預(yù)數(shù)據(jù)并設(shè)置這些環(huán)境?
Schulman:到目前為止,我從堆棧的不同部分,從強(qiáng)化學(xué)習(xí)算法(這是我從研究生時(shí)期就開始研究的),到數(shù)據(jù)收集、注釋流程,以及玩弄語言模型,都積累了相當(dāng)多的經(jīng)驗(yàn)。
我想說我對這些事情有所涉獵,而且在這個(gè)研究領(lǐng)域做得好的人對整個(gè)堆棧有一些看法,并且對它的不同部分非常好奇。你既要實(shí)證,讓實(shí)驗(yàn)更新你的觀點(diǎn),但也要基于首要原則思考。假設(shè)學(xué)習(xí)有效,那么理想類型的數(shù)據(jù)收集是什么樣的?
Dwarkesh:因?yàn)闆]有一個(gè)模型自從GPT-4以來似乎有顯著的進(jìn)步,有一個(gè)假設(shè)是我們可能正在達(dá)到某種平臺(tái)期。這些模型實(shí)際上并沒有很好地泛化,你將會(huì)遇到一個(gè)數(shù)據(jù)墻,在這個(gè)數(shù)據(jù)墻之外,通過記憶大量預(yù)訓(xùn)練數(shù)據(jù)集所解鎖的能力不會(huì)幫助你得到比GPT-4更智能的東西。
你認(rèn)為這個(gè)假設(shè)是錯(cuò)誤的嗎?我們已經(jīng)討論了一些泛化的例子,比如從西班牙語到英語。我認(rèn)為我想起的一個(gè)例子是代碼到語言推理的遷移。如果你在大量代碼上訓(xùn)練,它會(huì)在語言推理方面變得更好嗎?真的是這樣嗎?
你是否看到了不同模態(tài)之間的正向遷移?如果你在大量視頻和圖像上訓(xùn)練,它會(huì)從合成數(shù)據(jù)中變得更聰明嗎?還是說,解鎖的能力非常局限于你放入訓(xùn)練語料庫的確切類型的標(biāo)簽和數(shù)據(jù)?
Schulman:我會(huì)嘗試回應(yīng)所有這些。首先,我們是否即將達(dá)到數(shù)據(jù)墻?我不會(huì)從GPT-4發(fā)布以來的時(shí)間中得出太多結(jié)論,因?yàn)橛?xùn)練這些模型并為訓(xùn)練新一代模型做所有準(zhǔn)備工作確實(shí)需要一段時(shí)間。
我不會(huì)從那個(gè)事實(shí)中得出太多結(jié)論。數(shù)據(jù)量有限確實(shí)存在一些挑戰(zhàn),但我不認(rèn)為我們會(huì)立即達(dá)到數(shù)據(jù)墻。然而,隨著我們接近它,我預(yù)計(jì)預(yù)訓(xùn)練的性質(zhì)會(huì)有所改變。
關(guān)于不同類型的預(yù)訓(xùn)練數(shù)據(jù)的泛化,我會(huì)說,對于這類問題進(jìn)行科學(xué)研究相當(dāng)困難,因?yàn)槟銦o法創(chuàng)建那么多預(yù)訓(xùn)練模型。也許你無法訓(xùn)練一個(gè)GPT-4大小的模型,并在那個(gè)規(guī)模上進(jìn)行消融研究。也許你可以訓(xùn)練很多GPT-2大小的模型,甚至GPT-3大小的模型,使用不同的數(shù)據(jù)混合,看看你會(huì)得到什么。我不知道有任何公開的涉及代碼數(shù)據(jù)和推理性能的消融研究的結(jié)果。我非常想知道這些結(jié)果。
Dwarkesh:我對某件事很好奇。其中一個(gè)問題是,隨著模型變大,它變得更聰明。在GPT-2級別的模型上進(jìn)行消融實(shí)驗(yàn),如果表明沒有太多遷移,是否可以為GPT-4級別模型在類似領(lǐng)域中的遷移水平提供證據(jù)?
Schulman:對,你不能得出結(jié)論,如果遷移在GPT-2大小上失敗,那么在更高規(guī)模上也會(huì)失敗??赡軐τ诟蟮哪P?,你學(xué)會(huì)了更好的共享表示,而較小的模型則過于依賴記憶。更大的模型可以學(xué)會(huì)進(jìn)行正確的計(jì)算。我認(rèn)為這在某種程度上是正確的。
Dwarkesh:這可能有一個(gè)非常簡單的答案。你在相同數(shù)量的數(shù)據(jù)上訓(xùn)練更大的模型,它們變得更聰明?;蛘咭_(dá)到同樣的智能水平,你只需要在較少的數(shù)據(jù)上訓(xùn)練它們。為什么會(huì)這樣?它有更多的參數(shù),看到的更少,現(xiàn)在它同樣聰明。為什么會(huì)這樣?
Schulman:我認(rèn)為沒有人對參數(shù)數(shù)量的擴(kuò)展法則有好的解釋。我甚至不知道最好的心態(tài)模型是什么。顯然,如果你有一個(gè)更大的模型,你就有更大的容量。所以你應(yīng)該最終能夠獲得更低的損失。
為什么更大的模型更具有樣本效率?我可以給你一個(gè)粗略的解釋。你可以說這個(gè)模型是執(zhí)行計(jì)算的不同電路的集合。你可以想象它在并行進(jìn)行計(jì)算,輸出是它們的加權(quán)組合。如果你有更多的寬度……實(shí)際上寬度與深度有些相似,因?yàn)榫哂袣埐罹W(wǎng)絡(luò)的深度在更新殘差流中的內(nèi)容方面可以類似地做寬度。
你正在并行學(xué)習(xí)所有這些不同的計(jì)算,并且你有一個(gè)更大的模型,你就擁有更多的計(jì)算。所以你有更高的機(jī)會(huì),其中一個(gè)是幸運(yùn)的,最終猜測正確很多,并得到提升。
有一些算法是這樣工作的,比如混合模型或乘法權(quán)重更新算法,你擁有——我不想說專家的混合,因?yàn)樗馕吨煌臇|西——基本上是專家的加權(quán)組合,有一些學(xué)習(xí)的門控。
我實(shí)際上說錯(cuò)了一點(diǎn),但你可能會(huì)想象類似的東西。只是擁有一個(gè)更大的模型,就給你更多的機(jī)會(huì)獲得正確的功能。
當(dāng)然,這不僅僅是你正在采取線性組合的完全不相干的功能。更像是一個(gè)庫,你可能以某種方式將這些函數(shù)鏈接在一起。有一些可組合性。所以我會(huì)說你更大的模型有更大的不同計(jì)算庫,包括很多休眠的東西,只是有時(shí)會(huì)被使用,但它有更多的空間去尋找電路來做一些有用的事情。
保持人類參與
Dwarkesh:從當(dāng)前的研究問題退一步,我想了解你對未來幾年的模態(tài)情景的理解。在對話開始時(shí),我們談到了進(jìn)展非??斓那闆r,但讓我們只考慮模態(tài)情景。
你在某個(gè)時(shí)候解鎖了長期RL,但正如你所說,可能還有其他瓶頸。發(fā)生了什么?這些模型有多好?它們是如何部署的?它們還包含哪些模態(tài),以及這些模態(tài)在什么階段被解鎖?我想了解你對未來幾年更廣泛情況的看法。
Schulman:我預(yù)計(jì)新模態(tài)將隨著時(shí)間或相當(dāng)快地被添加。我預(yù)計(jì)能力將通過預(yù)訓(xùn)練和后訓(xùn)練的結(jié)合而不斷提高,并開放新的用例。
目前,AI在經(jīng)濟(jì)中仍然不是一個(gè)巨大的部分。有相當(dāng)小的一部分工作它根本幫不上忙。我預(yù)計(jì)隨著時(shí)間的推移,這一比例會(huì)更高,不僅是因?yàn)槟P偷母倪M(jìn),還因?yàn)槿藗兣宄绾螌⑺鼈兗傻讲煌倪^程中。所以即使我們將模型固定在當(dāng)前狀態(tài),你仍然會(huì)看到它們被使用的方式有很大的增長。
我預(yù)計(jì)AI的使用將更廣泛,用于更技術(shù)性復(fù)雜的任務(wù)。我早些時(shí)候給出了編程示例,進(jìn)行更長期的項(xiàng)目,還幫助進(jìn)行各種研究。我希望我們可以使用AI以各種方式加速科學(xué),因?yàn)槟憧赡苡心P屠斫饨o定領(lǐng)域中的所有文獻(xiàn),并能夠篩選大量的數(shù)據(jù)。這超過了一個(gè)人的耐心。
我希望形式因素是這樣的,人們?nèi)匀煌苿?dòng)所有這些,你有幫助的助手,你可以指導(dǎo)他們解決許多對你有用的不同問題。每個(gè)人都將擁有所有這些AI幫助他們做得更多,完成更多。
Dwarkesh:顯然,在某個(gè)時(shí)候,它們將在它們想做的任何事情上比任何人都做得更好。這個(gè)過程會(huì)是什么樣子?現(xiàn)在,它們顯然只是幫助你。在某個(gè)時(shí)候,它們將能夠?yàn)槟阕鍪拢踔量赡転槟憬?jīng)營整個(gè)公司。這會(huì)是一個(gè)平滑的過程嗎?在這一點(diǎn)上,我們是否希望我們擁有與用戶對齊的系統(tǒng),以至于它們可以指望公司以他們期望的方式運(yùn)行。
Schulman:我們可能不希望立即讓AI運(yùn)行整個(gè)公司。我們可能希望人們監(jiān)督這些重要決策并發(fā)號施令,即使模型足夠好,能夠自己成功經(jīng)營業(yè)務(wù)。在某種程度上,可能存在選擇。
我認(rèn)為人們?nèi)匀粫?huì)有不同的興趣和想法,關(guān)于他們希望指導(dǎo)他們的AI進(jìn)行什么樣的有趣追求。AI并不一定有某種固有的渴望,除非我們將其放入系統(tǒng)中。所以即使AI變得非常有能力,我希望人們?nèi)匀皇茿I最終要做的事情的驅(qū)動(dòng)者。
Dwarkesh:我想知道經(jīng)濟(jì)平衡是否遠(yuǎn)離這一點(diǎn),你在公司中擁有類似阿姆達(dá)爾定律的東西。過程中最慢的部分將是瓶頸。
即使AI使公司的非人類部分效率提高10倍,公司仍然受限于那個(gè)步驟。如果一家公司決定通過讓人類參與你真正希望人類監(jiān)督的所有事情,那么他們就會(huì)被沒有人類的公司所超越。如果一個(gè)國家決定走這條路,其他國家將擊敗它。我想知道保持人類參與的計(jì)劃是否可持續(xù)。
Schulman:如果我們想保持人類參與,這似乎是合理的,如果事實(shí)證明任何有人類參與的公司都被沒有人類的公司所超越,那么顯然需要某種規(guī)定,禁止沒有人類參與運(yùn)行整個(gè)公司。
Dwarkesh:但是任何一個(gè)國家都有很多公司,更不用說全世界了。我想知道是否最好對公司進(jìn)行監(jiān)管,說你必須在重要過程中保持人類參與,但那樣你必須定義什么是重要過程。
你必須監(jiān)督每一家單獨(dú)的公司,你還必須得到每一個(gè)有公司的國家的合作。如果這是一個(gè)問題,是否應(yīng)該在模型部署之前解決,以便如果你決定建立一個(gè)公司并依賴這些模型,它基本上會(huì)做你期望它做的事情,你就不需要人類參與?
這個(gè)問題有意義嗎?我只是想知道,在這種情況下,我們?nèi)绾螌?shí)際上監(jiān)督每一家單獨(dú)的公司,以確保有人類參與?如果中國決定不這樣做怎么辦?
Schulman:你將不得不讓每個(gè)國家都同意這一監(jiān)管制度,或者你需要所有的模型基礎(chǔ)設(shè)施或模型提供商同意這一要求。
這絕對不容易。這是展望未來,所以在看到類似的東西之前很難想象這個(gè)世界。
例如,我們真的相信AI運(yùn)營的公司在各方面都更好嗎?我們是否認(rèn)為它們大多數(shù)時(shí)候更好,但偶爾因?yàn)锳I在某些方面仍然不夠樣本效率而出現(xiàn)故障?想想它們必須處理非常奇怪情況的時(shí)候。
AI運(yùn)營的公司實(shí)際上可能有更高的尾部風(fēng)險(xiǎn),因?yàn)樗鼈兏锌赡芤灾卮蠓绞匠霈F(xiàn)故障??赡苡幸恍?shí)際問題會(huì)決定事情的發(fā)展。也許如果你只要求人們對各種責(zé)任負(fù)責(zé),這也將稍微改變激勵(lì)機(jī)制。
假設(shè)結(jié)果表明AI在運(yùn)營一切方面都更出色,而且它們也完全是仁慈的。假設(shè)我們已經(jīng)完全解決了對齊問題,它們比人類更能對人類負(fù)責(zé)。那么也許讓AI運(yùn)營公司是可以的。但這還很遙遠(yuǎn)。
我們更有可能處于這樣一種情況:它們在短期內(nèi)看起來更好,但它們?nèi)匀淮嬖谝恍﹪?yán)重問題。實(shí)際上,是實(shí)際考慮讓你更傾向于讓人類參與其中,至少在不久的將來是這樣。
Dwarkesh:所以這是我們今天必須處理的問題,RLHF(強(qiáng)化學(xué)習(xí)中的人類反饋)。你必須在許多不同的人類之間聚合偏好。隨著未來更強(qiáng)大的系統(tǒng)的出現(xiàn),這種情況可能會(huì)更加明顯。但當(dāng)你說我們希望最終完全取代公司中人類部分的AI系統(tǒng)要對齊時(shí),這意味著什么?
這是否意味著它們基本上按照用戶希望它們做的去做?這意味著它們必須產(chǎn)生某種我們作為OpenAI的利益相關(guān)者滿意的全球結(jié)果嗎?具體來說,這意味著什么?
Schulman:如果這些模型被用于更高風(fēng)險(xiǎn)的用例,那么我們必須以與現(xiàn)在完全不同的方式考慮RLHF。我們還沒有準(zhǔn)備好,或者當(dāng)前的方法可能不完全足夠。我們需要在涉及的不同利益相關(guān)者的需求之間做出妥協(xié)。我們發(fā)布了一個(gè)名為模型規(guī)范(Model Spec)的文件。它講述了我們希望我們的模型在API和ChatGPT中的行為方式。
我們試圖討論這個(gè)問題,涉及不同的利益相關(guān)者,有時(shí)他們之間可能存在沖突。在我們的情況下,我們認(rèn)為利益相關(guān)者是最終用戶(坐在ChatGPT或其他應(yīng)用程序前的人)、開發(fā)者(使用API的人,可能使用他們的應(yīng)用程序?yàn)槠渌罱K用戶提供服務(wù))、平臺(tái)(OpenAI,我們不希望模型使我們面臨法律風(fēng)險(xiǎn))和其余的人類(包括不屬于用戶或客戶的人)。
顯然,用戶可能會(huì)要求模型做一些我們認(rèn)為對其他人有害的事情。我們可能必須拒絕。順便說一下,這不一定是優(yōu)先順序。這些只是四類左右的利益相關(guān)者。實(shí)際上,你也許還可以說,在未來,模型本身。我們還沒有到那一步。
無論如何,我們有這些不同的利益相關(guān)者。有時(shí)他們的要求存在沖突。我們必須對如何解決這些沖突做出一些決定。這并不總是顯而易見的。我們必須仔細(xì)考慮權(quán)衡,基本上大致的啟發(fā)式方法是我們希望模型主要遵循你的指示,對用戶和開發(fā)者有幫助。
但是當(dāng)這影響到其他人的幸?;蛏罘绞綍r(shí),這就成為一個(gè)問題,我們必須阻止某些類型的使用。我們主要希望模型成為人們意志的延伸,按照他們說的去做。我們不想過于家長式。我們希望保持中立,不強(qiáng)加我們的觀點(diǎn)。我們主要希望讓人們用模型做他們想做的事情。
Dwarkesh:我有機(jī)會(huì)事先閱讀了規(guī)范。這是關(guān)于它如何很好地轉(zhuǎn)移到模型本身的行為的問題。我對權(quán)衡的合理性印象深刻。我相信實(shí)際的邊緣案例被明確陳述,而不是那些顯而易見的事情。在這種情況下,你真的是在追求邊緣案例。
Schulman:我們希望它非??尚?,而不僅僅是一些聽起來不錯(cuò)的原則。每個(gè)例子都會(huì)告訴你一些關(guān)于某種非顯而易見情況的信息,并通過那種情況進(jìn)行推理。
研究現(xiàn)狀、平臺(tái)期和護(hù)城河
Dwarkesh:我有幾個(gè)關(guān)于研究本身的問題。在社會(huì)科學(xué)中,眾所周知,事情真的很難復(fù)制。有一個(gè)問題是關(guān)于有多少科學(xué)是真實(shí)的,以及有多少是制造的、定制的實(shí)驗(yàn)。當(dāng)你看到平均的機(jī)器學(xué)習(xí)論文時(shí),它感覺像是真正扎實(shí)的文學(xué)作品,還是經(jīng)常感覺像是社會(huì)科學(xué)中的p-hacking(一種數(shù)據(jù)挖掘手法)?
Schulman:大家對機(jī)器學(xué)習(xí)文獻(xiàn)都有抱怨??傮w而言,我認(rèn)為這是一個(gè)相對健康的領(lǐng)域,特別是與社會(huì)科學(xué)等領(lǐng)域相比。它主要基于實(shí)用性,讓事情奏效。如果你發(fā)表了一些不能輕易復(fù)制的東西,人們就會(huì)忘記它。
人們普遍接受,你不僅僅報(bào)告某人論文中的數(shù)字。你還嘗試重新實(shí)現(xiàn)他們的方法,并將其與你的方法在同一訓(xùn)練數(shù)據(jù)集上進(jìn)行比較。如果你發(fā)表的方法很難實(shí)現(xiàn)或者非常挑剔,它們往往會(huì)被遺忘。
因此,人們實(shí)際上會(huì)嘗試開放他們的工作。還存在各種不利的激勵(lì)措施。人們被激勵(lì)使他們比較的基線方法變得更糟。還有其他輕微的病態(tài),比如試圖讓你的方法在數(shù)學(xué)上看起來更復(fù)雜。
但總的來說,我認(rèn)為這個(gè)領(lǐng)域正在取得進(jìn)展。我希望看到更多的科學(xué)和嘗試?yán)斫馐挛?,而不僅僅是在基準(zhǔn)測試上的爬山和提出新方法。最近已經(jīng)有了相當(dāng)多的成果。我們可以有更多的成果。我認(rèn)為這對學(xué)者來說是一個(gè)值得研究的好領(lǐng)域。
另外,我真的很期待看到更多使用基礎(chǔ)模型進(jìn)行模擬社會(huì)科學(xué)的研究。這些模型對整個(gè)世界有概率模型,你可以設(shè)置模擬問卷或?qū)υ?,并查看任何事物的相關(guān)性。任何你可以想象到的特質(zhì),你都可以看到它們?nèi)绾闻c其他特質(zhì)相關(guān)。
如果人們能夠通過以不同方式提示基礎(chǔ)模型并查看相關(guān)性,來復(fù)制社會(huì)科學(xué)中一些更值得注意的成果,比如道德基礎(chǔ)等,那將是非??岬摹?/span>
Dwarkesh:那個(gè)斯坦福的實(shí)驗(yàn)是什么?阿希從眾實(shí)驗(yàn)?如果這也能用語言模型復(fù)制,那就有趣了。我想問一問大實(shí)驗(yàn)室發(fā)生的其他研究。其中有多少是在增加或減少獲得特定結(jié)果所需的計(jì)算量,作為實(shí)際的計(jì)算乘數(shù),以及有多少只是在使學(xué)習(xí)更穩(wěn)定和構(gòu)建基礎(chǔ)設(shè)施?
我想問的更廣泛問題是,自從GPT-4以來,是否感覺用相同的計(jì)算量,你可以訓(xùn)練一個(gè)更好的模型?還是感覺你已經(jīng)確保學(xué)習(xí)可以以更好、更可擴(kuò)展的方式發(fā)生,用GPT-5,但現(xiàn)在我們不能用GPT-3.5的預(yù)算訓(xùn)練GPT-4?
Schulman:在提高效率方面肯定一直在取得進(jìn)展。每當(dāng)你有一個(gè)1D性能指標(biāo)時(shí),你會(huì)發(fā)現(xiàn)不同的改進(jìn)可以相互替代。你可能發(fā)現(xiàn)后訓(xùn)練和預(yù)訓(xùn)練都提高了指標(biāo)。它們在提高哪些指標(biāo)方面有不同的特點(diǎn)。
但歸根結(jié)底,如果你有一個(gè)單一的數(shù)字,它們都會(huì)在某種程度上相互替代。對于像人類評估這樣的事情,人類更喜歡什么,我們肯定在預(yù)訓(xùn)練和后訓(xùn)練兩方面都取得了很多進(jìn)展,以改善這一點(diǎn)。
Dwarkesh:關(guān)于RLHF(強(qiáng)化學(xué)習(xí)中的人類反饋),我有幾個(gè)快速的問題。顯然,RLHF對于使這些模型有用很重要。所以也許“閹割”的描述是不準(zhǔn)確的。
然而,一旦所有這些模型都以聊天機(jī)器人的形式出現(xiàn),它們就有一種非常相似的說話方式。它們真的想“深入”到事情中去。它們想把事情變成項(xiàng)目符號。它們通常似乎有一種正式和乏味的說話方式。
有人抱怨它們不夠有創(chuàng)造力。就像我們之前討論的,它們只能做押韻詩而不是非押韻詩,直到最近。這是不是因?yàn)镽LHF現(xiàn)在的特殊方式?如果是的話,是因?yàn)樵u估者是誰嗎?是因?yàn)閾p失函數(shù)是什么嗎?為什么所有聊天機(jī)器人看起來都這樣?
Schulman:我會(huì)說,在訓(xùn)練過程中確實(shí)有很大的變化空間。我們正在積極嘗試改進(jìn)這一點(diǎn),使寫作更加生動(dòng)有趣。我們在改進(jìn)ChatGPT的個(gè)性方面取得了一些進(jìn)展。當(dāng)你和它聊天時(shí),它更有趣,不那么機(jī)械。
有趣的是,一些特點(diǎn)是如何產(chǎn)生的,比如“深入”這個(gè)詞。我最近實(shí)際上發(fā)現(xiàn)自己在使用這個(gè)詞。我不知道是不是從模型中潛移默化地影響了我。
實(shí)際上,可能還有一些有趣的效果,即在語言模型和提供者之間發(fā)生了無意的蒸餾。如果你雇人去做標(biāo)記任務(wù),他們可能只是把它輸入到模型中。他們可能正在使用他們最喜歡的聊天機(jī)器人,輸入它,讓模型執(zhí)行任務(wù),然后復(fù)制并粘貼回來。這可能解釋了其中的一些趨同。
我們看到的一些事情只是人們所喜歡的。人們確實(shí)喜歡項(xiàng)目符號。他們喜歡結(jié)構(gòu)化的回答。人們通常確實(shí)喜歡從模型那里得到的大量信息傾倒。
所以現(xiàn)在還不清楚有多少只是后訓(xùn)練過程中特定選擇和設(shè)計(jì)的怪癖,以及多少實(shí)際上是人們真正想要的。
Dwarkesh:它確實(shí)似乎比一些人想要的更加啰嗦。也許只是因?yàn)樵跇?biāo)記階段,評估者更喜歡更加啰嗦的答案。我想知道這是否是因?yàn)轭A(yù)訓(xùn)練的方式而固有的,停止序列并不經(jīng)常出現(xiàn),它真的想繼續(xù)進(jìn)行。
Schulman:評估中可能存在一些導(dǎo)致啰嗦的偏見。我們傾向于一次訓(xùn)練一條消息,而不是整個(gè)交互。如果你只看到一條消息,那么只有一個(gè)澄清問題,或者可能是一個(gè)簡短的回答,邀請后續(xù)跟進(jìn),看起來就不那么完整,而那些涵蓋所有可能性的內(nèi)容看起來更完整。
還有一個(gè)問題,就是人們是否更喜歡模型即時(shí)輸出的文本。顯然,如果你坐在那里等待標(biāo)記出現(xiàn),你會(huì)希望它直接進(jìn)入重點(diǎn)。但如果它立即給你一堆文本,也許你并不在意是否有很多模板化的內(nèi)容,或者有很多你將快速瀏覽的內(nèi)容。你寧愿擁有所有這些。
Dwarkesh:獎(jiǎng)勵(lì)模型是一個(gè)非常有趣的工件,因?yàn)樗亲罱咏覀儞碛械年P(guān)于人們想要什么以及他們有什么偏好的東西。我在想更聰明的模型。一個(gè)希望是,你可以只給它一個(gè)我們想要的不瑣碎和明顯的清單,比如聯(lián)合國人權(quán)宣言。
另一方面,我想我聽到你的觀點(diǎn),我們的許多偏好和價(jià)值觀非常微妙,所以它們可能最好通過成對偏好來表示。當(dāng)你想到GPT-6或GPT-7級別的模型時(shí),我們是給它更多的書面指示,還是我們?nèi)匀辉谧鲞@些潛意識的偏好?
Schulman:這是個(gè)好問題。這些偏好模型確實(shí)學(xué)到了人們偏好的許多微妙之處,這些在說明書中很難表述。顯然,你可以編寫一個(gè)有很多比較例子的說明書。這就是模型規(guī)范所擁有的。它有很多例子和一些解釋。目前還不清楚描述偏好的最佳格式是什么。
我猜測,無論你能從一個(gè)大的數(shù)據(jù)集中得到什么模糊的偏好,你都可以將其蒸餾成一個(gè)更短的文檔,主要捕捉到這些觀點(diǎn)。更大的模型確實(shí)自動(dòng)學(xué)到了很多這些概念,人們可能覺得有用和有幫助。它們將有一些復(fù)雜的道德理論可以依靠。當(dāng)然,還有很多空間可以依靠不同的風(fēng)格或不同的道德觀。
所以如果我們寫一個(gè)文檔,如果我們想要對齊這些模型,我們正在做的是依靠一種特定的風(fēng)格,一種特定的道德觀。你仍然需要一個(gè)相當(dāng)長的文檔來精確捕捉你想要什么。
Dwarkesh:更好的后訓(xùn)練有多少護(hù)城河?公司目前通過它們的模型有多大來區(qū)分自己。這將是一個(gè)大護(hù)城河,對于已經(jīng)弄清楚你之前談到的所有這些細(xì)節(jié)的人來說,關(guān)于所有這些數(shù)據(jù)?
Schulman:它有一定的護(hù)城河,因?yàn)樗皇且粋€(gè)非常復(fù)雜的操作,需要很多有技能的人來做。需要大量的默示知識和組織知識。
有了后訓(xùn)練,要?jiǎng)?chuàng)建一個(gè)實(shí)際上具有人們關(guān)心的所有功能,這是相當(dāng)復(fù)雜的。它需要相當(dāng)復(fù)雜的努力和大量的研發(fā)積累。這讓它有一定的護(hù)城河。它不是立即就能啟動(dòng)的??雌饋恚瑯诱J(rèn)真進(jìn)行預(yù)訓(xùn)練的公司也在認(rèn)真進(jìn)行后訓(xùn)練。
在某種程度上,復(fù)制或啟動(dòng)更多的這些努力是可能的。還有一種力量讓它不那么成為護(hù)城河。你可以蒸餾模型,或者你可以采用別人的模型并克隆輸出。你可以使用別人的模型作為評委進(jìn)行比較。
更大的聯(lián)盟可能不會(huì)這樣做,因?yàn)檫@違反了服務(wù)條款政策。這也會(huì)打擊他們的自尊。但我預(yù)計(jì)一些較小的參與者會(huì)這樣做來起步。這在很大程度上可以趕上。
Dwarkesh:我想這有助于清除護(hù)城河。中位數(shù)評估者是什么樣的?他們在哪里?他們的政治觀點(diǎn)是什么?他們的知識水平如何?
Schulman:這有很大的不同。我們絕對雇傭了不同技能的評估者來完成不同類型的任務(wù)或項(xiàng)目。一個(gè)不錯(cuò)的心智模型就是看看在Upwork等平臺(tái)上的人??纯茨切氖逻h(yuǎn)程工作的零工的人。
這是一個(gè)相當(dāng)國際化的群體。在美國有相當(dāng)多的人。我們?yōu)椴煌愋偷臉?biāo)記雇傭不同的人群,比如我們是否更專注于寫作或STEM任務(wù)。從事STEM任務(wù)的人更有可能在印度或其他中低收入國家。從事更多英語寫作和寫作的人更傾向于在美國。
有時(shí)我們需要為一些活動(dòng)雇傭不同的專家。有些人非常有才華,我們甚至發(fā)現(xiàn)他們在執(zhí)行這些任務(wù)上至少和我們這些研究人員一樣好,他們比我們更仔細(xì)。我會(huì)說我們現(xiàn)在的人非常熟練和認(rèn)真。
Dwarkesh:關(guān)于平臺(tái)期的敘述,我聽說其中之一是這些模型幫助您處理特定事情的許多能力與在監(jiān)督式微調(diào)數(shù)據(jù)集中具有非常接近的標(biāo)簽有關(guān)。這是真的嗎?
它能教我如何正確使用FFmpeg嗎?就像有人看到輸入,看到您需要添加的標(biāo)志,并且有人計(jì)算出并匹配那個(gè)。你需要雇傭所有這些在各個(gè)領(lǐng)域具有領(lǐng)域?qū)I(yè)知識的標(biāo)簽評估者嗎?如果是這樣的話,看起來要讓這些模型隨著時(shí)間的推移變得越來越聰明將是一個(gè)更大的挑戰(zhàn)。
Schulman:你并不確切需要那樣。你可以從泛化中得到很多?;A(chǔ)模型已經(jīng)在大量文檔、代碼、shell腳本等上接受過訓(xùn)練。它已經(jīng)看過所有的FFmpeg手冊頁,很多Bash腳本等。
即使只是給基礎(chǔ)模型一個(gè)好的少量示例提示,你也能讓它回答這樣的問題。即使沒有在任何STEM上訓(xùn)練,僅訓(xùn)練一個(gè)偏好模型以幫助性,也會(huì)在一定程度上泛化到STEM。所以不僅你不需要FFmpeg的使用示例,你甚至可能不需要任何編程相關(guān)的東西就能在編程領(lǐng)域得到一些合理的行為。
Dwarkesh:也許是最后一個(gè)問題。我們已經(jīng)以不同的方式提到了這一點(diǎn),但讓我們把它整合起來。你說你正在訓(xùn)練更多的多模態(tài)數(shù)據(jù)??梢灶A(yù)見,這些東西將理解屏幕的外觀,并將能夠以更連貫的方式與它們交互。而且你還將進(jìn)行這種長期RL,所以它們將能夠作為代理在系統(tǒng)中工作,并以更集成的方式成為你工作流程的一部分。
你期望它看起來像什么?從那里的下一步是什么?假設(shè)在年底或明年,你有一個(gè)可以與你在屏幕上工作的助手。期望這樣的事物似乎是合理的嗎?從那里開始,它會(huì)去哪里?
Schulman:我絕對期望事情朝那個(gè)方向發(fā)展。目前還不清楚什么是最好的形式因素。它可能是像Clippy在你的電腦上幫助你,或者它更像是云中的一個(gè)有幫助的同事。我們將看看哪種形式因素最有效。我期望人們嘗試所有這些。
我期望一個(gè)有益的助手或有益的同事的心理模型變得更加真實(shí)。它將是你可以分享更多日常工作的東西。而不僅僅是給它一次性查詢,你將有一個(gè)你一直在做的整個(gè)項(xiàng)目,它知道到目前為止你在那個(gè)項(xiàng)目上所做的一切。
它甚至可以主動(dòng)提出建議。也許你可以告訴它記得問我這個(gè),如果我在這方面取得了任何進(jìn)展。主動(dòng)性是一直缺失的東西之一。我希望能從一次性查詢、像搜索引擎一樣使用模型,轉(zhuǎn)向與模型合作進(jìn)行整個(gè)項(xiàng)目。在這種情況下,它知道我所做的一切。它主動(dòng)建議我嘗試的事情,或者它在后臺(tái)進(jìn)行工作。
Dwarkesh:這真的很有意思。這是最后一個(gè)問題。你被取代工作的中位數(shù)時(shí)間表是什么時(shí)候?
Schulman:哦,它取代我的工作?也許五年。
Dwarkesh:相當(dāng)快。有趣。John,這次談話非常有趣。非常感謝你抽出時(shí)間。這似乎是人工智能過程中非常重要的一部分,而人們對此不太了解。深入探討并聽取你的想法非常有趣。
Schulman:謝謝你邀請我參加播客。談?wù)撨@些事情很有趣。
本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Schulman
