GPT-5≈o3.1!OpenAI首次詳解思考機(jī)制:RL+預(yù)訓(xùn)練才是AGI正道
在某種程度上,GPT-5可以被視作是o3.1。
該觀點(diǎn)出自O(shè)penAI研究副總裁Jerry Tworek的首次播客采訪,而Jerry其人,正是o1模型的主導(dǎo)者之一。

在他看來,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下來要做的,就是再創(chuàng)造一個(gè)“o3奇跡”——構(gòu)建能力更強(qiáng)、思考時(shí)間更長、能自主與多系統(tǒng)互動(dòng)的模型。
在長達(dá)一小時(shí)的訪談中,Jerry Tworek侃侃而談自己對GPT系列模型的思考。
從o1到GPT-5的模型演變歷程講起,介紹OpenAI的模型推理過程、公司內(nèi)部架構(gòu)、強(qiáng)化學(xué)習(xí)對OpenAI的意義,中間還穿插了他個(gè)人進(jìn)入OpenAI的經(jīng)歷,以及對OpenAI未來走向AGI的想法。
如果向10年前的人展示今天的ChatGPT,他們可能會稱之為AGI。
另外,他也著重肯定了DeepSeek提出的GRPO算法貢獻(xiàn),推動(dòng)了美國RL研究。

有趣的是,當(dāng)他談及自己也是ChatGPT的重度“發(fā)燒友”,每月都會花200美元充值在上面時(shí),網(wǎng)友發(fā)現(xiàn)了華點(diǎn):
萬萬沒想到,OpenAI自家員工也要為ChatGPT付費(fèi)。(doge)

不過有一說一,這場訪談的知識密度爆炸,非常值得一看,連他本人在社媒發(fā)帖,也說:
如果你想要深入了解RL,那么這個(gè)播客不容錯(cuò)過。

GPT-5如何思考
主持人Matt Turk首先拋出了一個(gè)所有人都很好奇的問題:
當(dāng)我們和ChatGPT聊天時(shí),它們正在思考些什么?
簡單來說就是,什么是模型的推理。
Jerry Tworek當(dāng)即一語中的,模型的推理過程類比于人類的思考,本質(zhì)上都是尋找未知答案的過程,期間可能涉及執(zhí)行計(jì)算、查找信息或自我學(xué)習(xí)。

推理過程具體表現(xiàn)在思維鏈上,自從OpenAI發(fā)布o(jì)1模型以來,這個(gè)概念開始變得廣為人知。
它是將模型的思維過程用人類的語言口語化表述出來,整個(gè)過程就是:語言模型在大量人類知識上訓(xùn)練、學(xué)習(xí)如何像人類一樣思考,然后通過思維鏈“翻譯”回人類。
早期如果想要激發(fā)思維鏈,需要在提示詞中描述“讓我們一步步解決它”,因?yàn)槿绻苯犹釂?,模型可能會推理失敗,但只要讓它分步進(jìn)行,它就會生成一系列思維鏈,并最終得出結(jié)果。
所以通常情況下,模型在推理中花費(fèi)的時(shí)間越長,結(jié)果往往會更好。
但OpenAI在實(shí)際用戶反饋中發(fā)現(xiàn),一般用戶并不喜歡花費(fèi)大量時(shí)間在等待上,這在一定程度上也影響了他們構(gòu)建模型的決策路線。
現(xiàn)在OpenAI會同時(shí)將高推理模型與低推理模型通通都開放給用戶,將模型思考時(shí)長的選擇權(quán)交還用戶,同時(shí)內(nèi)部嘗試編碼啟發(fā)式方法以找到合適的平衡。
而OpenAI推理模型的伊始還得從o1說起。

這也是OpenAI發(fā)布的第一個(gè)正式的推理模型。
不過作為o1的主要負(fù)責(zé)人,Jerry也相當(dāng)坦誠地表示,o1主要擅長解決謎題,所以與其說它是真正有用的產(chǎn)品,更像是一次技術(shù)演示。
隨后是o3的出現(xiàn)改變了這種局面,它也代表了AI發(fā)展過程中的結(jié)構(gòu)性轉(zhuǎn)變。
它是真正意義上有用的,能夠熟練使用工具以及各種來源的上下文信息,并在尋求答案的過程中呈現(xiàn)出堅(jiān)持不懈刨根問底的狀態(tài)。

Jerry本人自己也是從o3開始完全信賴推理模型的。
所以從某種程度上講,GPT-5更像是o3的迭代——o3.1,擁有一脈相承的思考過程。
在之后,OpenAI也會繼續(xù)尋求下一個(gè)重大飛躍,即能力更強(qiáng)、思考更優(yōu),也更自主的推理模型。
加入OpenAI是自然而然的過程
但正是這樣一個(gè)主導(dǎo)OpenAI推理模型的關(guān)鍵人物,Jerry Tworek最初進(jìn)入這個(gè)領(lǐng)域卻頗有一種命定感,獨(dú)屬于天才的靈光一現(xiàn)。
Jerry將這個(gè)過程比喻為一顆水晶的誕生,與生俱來想要從事科學(xué)研究的想法,在隨后的學(xué)習(xí)工作生涯中逐漸明確,然后當(dāng)OpenAI出現(xiàn)的那一刻,叮咚,時(shí)機(jī)已到。
而這一切還得從他兒時(shí)說起,Jerry在波蘭長大,從小表現(xiàn)出超越同齡人的天賦,包括數(shù)學(xué)和科學(xué),用他自己的話來說就是:
它們是自然而然適合我的東西。
18歲的時(shí)候想要成為一名數(shù)學(xué)家,于是進(jìn)入華沙大學(xué)學(xué)習(xí)數(shù)學(xué),渴望追求真理,但“叛逆”的他因?yàn)閰捑雽W(xué)術(shù)界的死板和嚴(yán)苛,放棄了這個(gè)理想。
為了養(yǎng)家糊口,他決定成為一名交易員,利用自己的數(shù)學(xué)技能謀生,曾在摩根大通的股票衍生品交易部門實(shí)習(xí),隨后又離職創(chuàng)立對沖基金。
幾年之后,對交易工作再次感到厭倦的他,陷入了職業(yè)期瓶頸。

直到DeepMind的DQN智能體的出現(xiàn)打破了這一僵局,他被其中的強(qiáng)化學(xué)習(xí)深深吸引,此前他認(rèn)為分類器其實(shí)并不智能,但DQN展示出學(xué)習(xí)復(fù)雜行為的能力。
于是在2019年他加入了OpenAI,但最開始他在里面從事的是機(jī)器人項(xiàng)目,專注于靈巧操作。而這個(gè)項(xiàng)目也正是OpenAI著名的“用機(jī)器人解決魔方”項(xiàng)目,是強(qiáng)化學(xué)習(xí)與仿真實(shí)體交互的代表作之一。
隨后就是眾所周知的領(lǐng)導(dǎo)o1項(xiàng)目、推動(dòng)OpenAI模型能力進(jìn)步,而目前他的主要工作內(nèi)容是和其他研究人員交流,集思廣益完善研究計(jì)劃。
在OpenAI內(nèi)部,據(jù)Jerry所說,工作結(jié)構(gòu)相當(dāng)獨(dú)特,是自上而下與自下而上的結(jié)合。

具體來說就是,公司整體專注于三到四個(gè)核心項(xiàng)目,集中精力押注,而研究人員在項(xiàng)目內(nèi)部享有相對自下而上的自由。
整個(gè)研究部門總計(jì)約600人,但每個(gè)人都知道項(xiàng)目的所有內(nèi)容,因?yàn)樵贠penAI看來,讓研究人員因?yàn)闊o法獲取全部信息而不能做出最佳研究,這個(gè)風(fēng)險(xiǎn)遠(yuǎn)高于知識產(chǎn)權(quán)泄漏。
而OpenAI之所以能夠快速發(fā)布產(chǎn)品,一年時(shí)間就從o1到GPT-5,歸根結(jié)底是因?yàn)樗麄儞碛辛己玫倪\(yùn)營結(jié)構(gòu)、巨大的發(fā)展勢頭,以及頂尖人才的高效產(chǎn)出,他們都相信自己所做工作的意義:
AI在歷史上只會被構(gòu)建和部署一次。
另外員工們也會大量使用內(nèi)部工具,Jerry自己就是ChatGPT的深度用戶,每個(gè)月都會為其支付費(fèi)用,另外例如CodeX也被廣泛應(yīng)用在內(nèi)部的代碼編寫中。
RL對OpenAI的關(guān)鍵一擊
對Jerry本人來說,強(qiáng)化學(xué)習(xí)是引領(lǐng)他走進(jìn)OpenAI的鑰匙,而放眼看OpenAI整個(gè)公司,RL也是多次轉(zhuǎn)折的關(guān)鍵。
今天的語言模型可以被認(rèn)為是預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的結(jié)合:先進(jìn)行預(yù)訓(xùn)練,然后在其之上進(jìn)行強(qiáng)化學(xué)習(xí),二者缺一不可。這也是OpenAI自2019年起的研究計(jì)劃核心。
不過要想進(jìn)一步了解RL在OpenAI的地位,首先要先清楚什么是RL。
Jerry認(rèn)為,RL類似于訓(xùn)練狗,當(dāng)狗表現(xiàn)良好時(shí),可以給予“獎(jiǎng)勵(lì)”(零食或微笑),當(dāng)狗做錯(cuò)事時(shí),給予“懲罰”(例如轉(zhuǎn)移注意力、表達(dá)不悅情緒)。
RL就是在模型中提供類似作用,如果模型的行為正確就給予積極獎(jiǎng)勵(lì),反之行為不正確就給予負(fù)面獎(jiǎng)勵(lì),其中的關(guān)鍵在于策略和環(huán)境:
- 策略:指模型的行為,是一個(gè)將觀察結(jié)果映射到行動(dòng)的數(shù)學(xué)函數(shù)。
- 環(huán)境:模型所看到的一切,必須是交互式的,而環(huán)境會根據(jù)模型的行動(dòng)而演變,比如學(xué)習(xí)彈吉他時(shí),會根據(jù)撥弦發(fā)出的聲音獲得反饋。RL就是教模型對環(huán)境變化做出反應(yīng)的唯一途徑。
隨后DeepMind的DQN將RL帶到了新的階段——Deep RL,它將神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,誕生出真正有意義的智能體。

Jerry也分享了當(dāng)年GPT-4剛訓(xùn)練完成的故事,那時(shí)內(nèi)部團(tuán)隊(duì)對其表現(xiàn)并不滿意,因?yàn)镚PT-4在較長的回答中始終缺乏連貫性。
后續(xù)是通過RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))解決了這個(gè)問題,即讓人類對模型輸出的內(nèi)容提供反饋,并以此作為獎(jiǎng)勵(lì)。
也正是因?yàn)镚PT-4碰到了RLHF,世界才擁有了“ChatGPT時(shí)刻”。
最近OpenAI在編程競賽中出乎意料的優(yōu)異表現(xiàn),Jerry說也是因?yàn)檠芯咳藛T長期使用編程謎題作為測試平臺,來嘗試他們的RL想法。
無心插柳柳成蔭,在他們研究RL的進(jìn)程中,也為OpenAI帶來了階段性榮譽(yù)。
所以只要能夠評估當(dāng)前結(jié)果并計(jì)算反饋信號,RL就能應(yīng)用在任何領(lǐng)域,即使答案不只是簡單的對與錯(cuò)。
但目前要想規(guī)?;疪L,還是很有難度的,因?yàn)镽L在實(shí)際運(yùn)行中會出現(xiàn)很多可能出錯(cuò)的地方,相比預(yù)訓(xùn)練會有更多的瓶頸和故障類型。
它是一個(gè)非常精細(xì)的過程,類比RL和預(yù)訓(xùn)練,就是制造半導(dǎo)體要比制造鋼鐵要復(fù)雜得多。

另外,Jerry也對DeepSeek團(tuán)隊(duì)提出的全新的強(qiáng)化學(xué)習(xí)算法GRPO(組相對策略優(yōu)化)表示了認(rèn)可:
GRPO的開源,讓許多缺乏高級RL研究項(xiàng)目的美國實(shí)驗(yàn)室,可以更快地啟動(dòng)并訓(xùn)練推理模型。
RL+預(yù)訓(xùn)練才是通往AGI的正確道路
關(guān)于AI的未來,Jerry Tworek也在最后提出了自己的見解。
首先是Agent,Jerry認(rèn)為AI帶來的積極影響,是可以通過自動(dòng)化解決人類問題。
模型目前提供答案的速度非常之快,大概需要幾分鐘,而他們內(nèi)部測試顯示,在某些任務(wù)上模型其實(shí)可以獨(dú)立思考30分鐘、1小時(shí)或者更久,所以當(dāng)前模型遇到的挑戰(zhàn)是如何建立合適的產(chǎn)品來部署長時(shí)間的思考過程。
其中由基礎(chǔ)推理驅(qū)動(dòng)的Agent能夠允許模型更長時(shí)間的獨(dú)立思考,并解決更為復(fù)雜的任務(wù),例如編程、旅游預(yù)訂、設(shè)計(jì)等,所以AI智能體化是大勢所趨。
模型對齊也是大眾比較關(guān)心的問題之一,也就是引導(dǎo)模型行為符合人類價(jià)值觀。
Jerry表示對齊問題本質(zhì)上其實(shí)就是一個(gè)RL問題,要讓模型深入理解其行為和可能導(dǎo)致的后果,才能讓模型做出正確的選擇。它將是永無止境的,因?yàn)閷R的概念將隨著人類文明的演進(jìn)而不斷發(fā)展。

而如果要通往AGI,當(dāng)前的預(yù)訓(xùn)練和RL肯定是必不可少的,當(dāng)然后續(xù)肯定需要添加更多元素一起發(fā)力。
Jerry明確反對當(dāng)前業(yè)界一些關(guān)于“純RL是通往AGI的唯一途徑”的觀點(diǎn),他堅(jiān)信:
RL需要預(yù)訓(xùn)練才能成功,而預(yù)訓(xùn)練也需要RL才能成功,二者缺一不可。
雖然對于AGI,他也很難描述,具體什么時(shí)候模型可以在沒有大量外部輸出和人類干預(yù)的情況下,實(shí)現(xiàn)自我改進(jìn)。
但他相信,OpenAI目前走在正確的道路上,未來的變化將會是新的復(fù)雜組件的添加,而絕非完全推翻現(xiàn)有的架構(gòu)。





































