OpenAI底層AGI技術(shù)被曝光!前研究主管豪言:從此再無(wú)新范式
AGI所需突破已經(jīng)實(shí)現(xiàn)!
OpenAI前研究主管Bob McGrew公開表示:AGI的「技術(shù)拼圖」已經(jīng)齊全,關(guān)鍵在于如何將推理能力落地,并重塑價(jià)值創(chuàng)造路徑
作為研究主管,他見證了OpenAI從GPT-3的突破到如今推理模型的演變。
他認(rèn)為,實(shí)現(xiàn)通用人工智能 (AGI) 的三大支柱是:
Transformer、規(guī)?;A(yù)訓(xùn)練和推理。
AI能力持續(xù)增強(qiáng)。在過(guò)去五年中,技術(shù)發(fā)展迅猛、令人興奮。
而且這一趨勢(shì)仍在延續(xù),他認(rèn)為并不存在所謂的「技術(shù)墻」。
在紅杉的「訓(xùn)練數(shù)據(jù)」(Training Data)系列播客中,他分享了關(guān)于AI的洞見。
AGI拼圖已現(xiàn)
「除了預(yù)訓(xùn)練、后訓(xùn)練、推理這三部分外,未來(lái)可能不會(huì)再出現(xiàn)根本性突破。」
Bob McGrew的這個(gè)觀點(diǎn)可能有爭(zhēng)議。
但如果穿越到2030年, 總結(jié)實(shí)現(xiàn)更高智能(也許是AGI,也許是其他形式)所需的根本概念。
他認(rèn)為,最終會(huì)得出全部關(guān)鍵點(diǎn):
1. 基于Transformer的語(yǔ)言模型;
2. 大規(guī)模預(yù)訓(xùn)練(比如GPT-1和GPT-2);
3. 推理能力的引入與不斷提升;
4. 越來(lái)越多的多模態(tài)能力。
他甚至認(rèn)為,到了2035年,我們?nèi)匀徊粫?huì)看到這些之外的新趨勢(shì)。為什么這么認(rèn)為?
回到2020年,那時(shí)GPT-3剛訓(xùn)練完成。可以想象一下當(dāng)時(shí)OpenAI的情景:模型還未發(fā)布,但已經(jīng)知道它帶來(lái)了「劃時(shí)代的變革」。
Dario Amodei、Ilya Sutskever、Alec Radford等一群人圍坐在辦公室,盯著這個(gè)模型。他們很清楚接下來(lái)的路線圖是什么:
- 從GPT-3到GPT-4,預(yù)訓(xùn)練規(guī)模必須擴(kuò)大;
- 必須增強(qiáng)多模態(tài)能力,最終發(fā)展出能使用電腦的模型;
- 開始探索「測(cè)試時(shí)計(jì)算」(test time compute)。
所以Bob認(rèn)為,從現(xiàn)在起大家會(huì)繼續(xù)擴(kuò)大、改進(jìn)和打磨這三個(gè)概念。這非常難,需要大量智慧和努力。但若干年后再回頭看,我們不會(huì)看到有其他新出現(xiàn)的根本性技術(shù)趨勢(shì)。
他認(rèn)為如果錯(cuò)了,那未來(lái)將更加精彩。但現(xiàn)在,他覺(jué)得他是對(duì)的。
為什么說(shuō)今年是推理之年
我們正處在AI發(fā)展的關(guān)鍵節(jié)點(diǎn),見證了預(yù)訓(xùn)練、后訓(xùn)練與推理三者的融合。
而2025年是「推理之年」。
推理是種新技術(shù)。從2023年9月的o1-preview,到六個(gè)月后的2024年4月發(fā)布o(jì)3,僅用了六個(gè)月,期間進(jìn)展迅猛。
同時(shí),OpenAI多年開發(fā)的推理能力,正在向Google、DeepSeek、Anthropic等公司擴(kuò)散——只在短短幾個(gè)月內(nèi)就實(shí)現(xiàn)了。
這說(shuō)明,推理是各大實(shí)驗(yàn)室今年的重點(diǎn)方向。
而且推理模型領(lǐng)域目前還有很多成果,唾手可得。例如,o1-preview與o3之間最大的區(qū)別在于:
前者無(wú)法使用工具,而后者則能在「思維鏈」(Chain of Thought)中調(diào)用工具。
在訓(xùn)練o1時(shí),OpenAI就知道推理很值得做,但實(shí)現(xiàn)起來(lái)很難,最終他們用了六個(gè)月將其開發(fā)并發(fā)布。
但推理的下一步并不直觀。
隨著推理能力趨于成熟,技術(shù)潛力也將逐漸被「消耗殆盡」。因此,進(jìn)展的速度可能會(huì)放緩,不再像前期那樣迅猛。
預(yù)訓(xùn)練
地位仍在,但角色轉(zhuǎn)型
許多人說(shuō):「預(yù)訓(xùn)練正面臨瓶頸」「Scaling Law即將終結(jié)」……
但Bob認(rèn)為:「預(yù)訓(xùn)練仍然重要,但收益遞減?!?/span>
之所以會(huì)出現(xiàn)收益遞減,是因?yàn)槟P偷闹悄茉鲩L(zhǎng)與所投入的算力呈對(duì)數(shù)線性關(guān)系——也就是說(shuō),要提升一定幅度的智能,就必須成倍增加算力。
本質(zhì)上,預(yù)訓(xùn)練是規(guī)模巨大、耗時(shí)持久的訓(xùn)練過(guò)程,要用整個(gè)數(shù)據(jù)中心持續(xù)運(yùn)行好幾個(gè)月。而當(dāng)要訓(xùn)練下一個(gè)新模型時(shí),通常要在多個(gè)數(shù)據(jù)中心上完成。
這可以依賴一些算法效率的提升,但從根本上說(shuō),必須等新的數(shù)據(jù)中心建成。這無(wú)法像推理那樣在六個(gè)月內(nèi)完成改進(jìn),而是需要數(shù)年的時(shí)間。
不過(guò),這并不意味著預(yù)訓(xùn)練無(wú)用。
2025年,預(yù)訓(xùn)練的真正杠桿在于架構(gòu)的改進(jìn)。
即使正在重點(diǎn)開發(fā)推理能力,仍然希望改進(jìn)預(yù)訓(xùn)練,提高推理時(shí)的效率、支持更長(zhǎng)的上下文或更好地利用上下文。而要做到這些時(shí),就必須從頭開始,在新架構(gòu)上重新進(jìn)行預(yù)訓(xùn)練,然后再進(jìn)入整個(gè)推理優(yōu)化流程。
所以,預(yù)訓(xùn)練仍然重要,但它在整個(gè)流程中扮演的角色已經(jīng)發(fā)生了變化。
后訓(xùn)練
模型的人格
預(yù)訓(xùn)練和推理的目標(biāo)是提升智能。在這兩個(gè)環(huán)節(jié)中,有明確的「Scaling Law」:
投入更多算力,就能獲得更高的智能。
后訓(xùn)練不提升智能,而是塑造模型的「人格」,與「智能」完全不同。
本質(zhì)上,智能是「薄問(wèn)題」(thin problem),只要做得更好,它的適應(yīng)能力和泛化能力就會(huì)提升,幾乎可以遷移到任何任務(wù)上——
比如你在數(shù)學(xué)上做得更好,就能更好地應(yīng)對(duì)法律推理問(wèn)題。
但「模型人格」是「厚問(wèn)題」(thick problem)。
這需要去思考:「我希望這個(gè)智能體表現(xiàn)出什么樣的個(gè)性?我希望它如何行動(dòng)?」更像是人類多年與他人互動(dòng)的成長(zhǎng)過(guò)程。
而如何將人類對(duì)「好人格」的定義,轉(zhuǎn)化為真實(shí)、吸引人的AI人格,這本身就非常難,值得深入研究。
這需要像OpenAI的Joanne Jang(下圖左)或Anthropic的Amanda Askell(下圖右)之類的「產(chǎn)品經(jīng)理」,專門去設(shè)計(jì)模型人格。
她們對(duì)人性有非常深刻的理解。
推理演進(jìn)路徑與挑戰(zhàn)
推理為何關(guān)鍵?
主持人Sonya Huang對(duì)推理很感興趣。
而OpenAI似乎很早就堅(jiān)定地押注在這個(gè)推理范式上,可能比其他實(shí)驗(yàn)室都要早。
所以她問(wèn)了Bob一個(gè)問(wèn)題:「最初OpenAI為什么會(huì)對(duì)推理下注這么重?」
Bob McGrew認(rèn)為推理是AGI缺失的關(guān)鍵拼圖。
預(yù)訓(xùn)練可以讓模型對(duì)問(wèn)題有一種「直覺(jué)式的理解」。
但如果讓人馬上去計(jì)算2個(gè)五位數(shù)的乘法,對(duì)一般人來(lái)說(shuō)完全做得到,但不能立刻得到準(zhǔn)確結(jié)果。因?yàn)槿祟愄焐托枰冈诨卮鹎八伎肌埂?/span>
人類需要「草稿紙」,慢慢推導(dǎo)。這就是早期模型(甚至包括GPT-3)所不具備的能力。
后來(lái)OpenAI開始關(guān)注到一些公開實(shí)驗(yàn)的啟示——比如「逐步思考」(step by step thinking)、「思維鏈」(chain of thought)等概念。
OpenAI意識(shí)到模型可以自己引導(dǎo)推理過(guò)程,而不是僅僅模仿人類如何思考的樣本。這種能力非常強(qiáng)大,而且可以被訓(xùn)練出來(lái)。
他們知道這會(huì)比單純的預(yù)訓(xùn)練更具潛力,因?yàn)椋?/span>
- 人類的思維是在腦子里的,不是模型能直接獲取的數(shù)據(jù);
- 公開的數(shù)據(jù)幾乎都是「最終答案」,模型看不到中間推理過(guò)程;
- 所以模型必須自己推導(dǎo)出「思考的方式」。
這就是為什么OpenAI如此看重推理。
之前,Bob提到:「我們尚未揭示完全推理?!?/span>
主持人Stephanie Zhan繼續(xù)追問(wèn)道:「我們現(xiàn)在對(duì)推理理解得足夠了嗎?還是說(shuō)還處在早期研發(fā)階段?」
Bob McGrew認(rèn)為行業(yè)一線依舊能看到大量新想法和細(xì)節(jié)上的改進(jìn),但局外人已經(jīng)看不懂了。
現(xiàn)在,很多進(jìn)展已經(jīng)不會(huì)公開出現(xiàn)在論文中了。
就像以前,學(xué)術(shù)界還能做出很大的突破。但后來(lái),當(dāng)Bob再看到學(xué)術(shù)論文時(shí),他會(huì)想:「哦,這個(gè)我們?cè)缇妥鲞^(guò)了,他們剛剛又重新發(fā)現(xiàn)了一次?!?/span>
如今,投入到這個(gè)方向的精力已經(jīng)非常巨大。
因此,確實(shí)還有很多東西可以探索,但它們已經(jīng)不是三言兩語(yǔ)可以講清楚的點(diǎn)子了。