九年實(shí)現(xiàn)愛因斯坦級(jí)AGI?OpenAI科學(xué)家Dan Roberts談強(qiáng)化學(xué)習(xí)擴(kuò)展的未來(lái)
近日,在紅杉資本主辦的 AI Ascent 上,OpenAI 研究科學(xué)家 Dan Roberts 做了主題為「接下來(lái)的未來(lái) / 擴(kuò)展強(qiáng)化學(xué)習(xí)」的演講,其上傳到 YouTube 的版本更是采用了一個(gè)更吸引人的標(biāo)題:「9 年實(shí)現(xiàn) AGI?OpenAI 的 Dan Roberts 推測(cè)將如何模擬愛因斯坦?!?/span>

在這場(chǎng)演講中,Dan Roberts 介紹了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的 Scaling Law,并預(yù)測(cè)強(qiáng)化學(xué)習(xí)將在未來(lái)的 AI 模型構(gòu)建中發(fā)揮越來(lái)越大的作用,而隨著強(qiáng)化學(xué)習(xí)繼續(xù)擴(kuò)展,我們最終將造出有能力發(fā)現(xiàn)新科學(xué)的模型。

https://www.youtube.com/watch?v=_rjD_2zn2JU
Dan Roberts,Open AI 研究科學(xué)家,強(qiáng)化學(xué)習(xí)科學(xué)團(tuán)隊(duì)負(fù)責(zé)人,同時(shí)也是 MIT 理論物理中心訪問(wèn)科學(xué)家。他還曾與 Sho Yaida 合著了《The Principles of Deep Learning Theory(深度學(xué)習(xí)理論的原理)》一書,該書有發(fā)布在 arXiv 上的免費(fèi)版本:https://arxiv.org/abs/2106.10165 。他還曾在 Facebook AI 研究中心擔(dān)任過(guò)研究科學(xué)家,之后他參與創(chuàng)立了一家為國(guó)防、情報(bào)和金融服務(wù)客戶提供協(xié)作情報(bào)文本挖掘產(chǎn)品的公司 Diffeo—— 該公司后來(lái)被 Salesforce 收購(gòu),Dan Roberts 也一并加入了 Salesforce。后來(lái),他又加入了紅杉資本,成為了一位 AI Fellow。去年,他離開紅杉資本,加入了 OpenAI。
機(jī)器之心整理了 Dan Roberts 的演講內(nèi)容。
正如你們?cè)S多人知道的,去年 9 月,OpenAI 發(fā)布了一個(gè)名為 o1 的模型。
我這里展示的是一張圖表,y 軸代表模型在某種數(shù)學(xué)推理基準(zhǔn)測(cè)試上的表現(xiàn),但真正有趣的是 x 軸。
左邊的圖表顯示,隨著訓(xùn)練時(shí)間的增加,模型性能隨之提升。這種走勢(shì)是每個(gè)訓(xùn)練 AI 模型的人都熟悉的。

但真正令人興奮的是右邊的圖表:它表明在「測(cè)試時(shí)間」增加時(shí),模型的表現(xiàn)也會(huì)得到改善。模型學(xué)會(huì)了思考,思考的時(shí)間越多,進(jìn)步就越大。

這個(gè)發(fā)現(xiàn)太重要了,我們甚至把它印在了 T 恤上。因?yàn)檫@代表了一個(gè)全新的擴(kuò)展維度 —— 不僅僅是訓(xùn)練時(shí)間擴(kuò)展,還包括測(cè)試時(shí)間擴(kuò)展。

這種發(fā)現(xiàn)意味著什么呢?意味著我們有了一個(gè)會(huì)思考的模型。
上個(gè)月,我們發(fā)布了一個(gè)更強(qiáng)大的推理模型 o3,比如圖中展示的一張草稿圖,你可以提問(wèn)「Solve the QED problem on the left(解決左邊的量子電動(dòng)力學(xué)問(wèn)題)」。


來(lái)源 https://openai.com/index/thinking-with-images/
這類模型在測(cè)試時(shí),能進(jìn)行思考,分析圖像,并放大圖像細(xì)節(jié)(過(guò)程如下)。

其實(shí)這張紙上有個(gè)費(fèi)曼圖(一種用于表示量子場(chǎng)論計(jì)算的圖示),模型經(jīng)過(guò)分析后,最終給出正確答案 —— 整個(gè)過(guò)程大約花了一分鐘。

順便提個(gè)趣事:在發(fā)布這篇博客前,一位同事讓我驗(yàn)證這個(gè)計(jì)算。盡管這是教科書級(jí)別的題目,但我花了 3 個(gè)小時(shí)才搞定 —— 我得一步步追蹤它的推導(dǎo),確保所有正負(fù)號(hào)都正確,最后才能確認(rèn)答案是對(duì)的。
那么,我們現(xiàn)在能做什么?模型思考一分鐘,就能完成一些相當(dāng)復(fù)雜的計(jì)算 —— 但我們的目標(biāo)遠(yuǎn)不止于此。
不如做個(gè)思維實(shí)驗(yàn)吧!說(shuō)到思維實(shí)驗(yàn),誰(shuí)最擅長(zhǎng)?阿爾伯特?愛因斯坦。
讓我們以愛因斯坦為對(duì)象做個(gè)假設(shè):如果回到 1907 年(他剛開始研究廣義相對(duì)論之前),讓他回答一道廣義相對(duì)論的期末考題 —— 這題目其實(shí)是 GPT-4.5 編的,但我可以保證,這確實(shí)是你會(huì)遇到的那種典型問(wèn)題。
我們?cè)O(shè)想愛因斯坦在 1907 年被問(wèn)到以下問(wèn)題:?jiǎn)栴} 1:黑洞與施瓦西度規(guī)。

當(dāng)然,作為 OpenAI,我們不會(huì)直接問(wèn)愛因斯坦,而是問(wèn)「愛因斯坦 v1907-super-hacks」。
我認(rèn)為愛因斯坦是個(gè)視覺型思考者。他總愛用電梯和自由落體來(lái)舉例 —— 學(xué)廣義相對(duì)論時(shí)肯定會(huì)碰到這些概念,還有那些橡膠膜上的小球的比喻。不過(guò)看起來(lái)他中途走神去琢磨量子力學(xué)了……(我們的模型也經(jīng)常這樣分心?。?/span>

看起來(lái)「愛因斯坦 v1907-super-hacks」的思考逐漸接近黑洞的概念了…… 不過(guò)我也不知道為什么他會(huì)把自己代入到這些場(chǎng)景里。但答案是正確的。
但事實(shí)證明,GPT-4.5 沒能答對(duì)這道題,我們得靠 o3 才能解決。
我在 OpenAI 的工作大概就是專門驗(yàn)證這些物理計(jì)算,而不是搞 AI 研究。
不過(guò)重點(diǎn)在于:模型給出了正確答案,而愛因斯坦當(dāng)然也能答對(duì) —— 只是他花了 8 年時(shí)間。
目前,我們的模型已經(jīng)可以通過(guò)一分鐘的思考重現(xiàn)教科書級(jí)別的計(jì)算及其衍生問(wèn)題。但我們的目標(biāo)遠(yuǎn)不止于此 —— 我們希望它們能為人類知識(shí)與科學(xué)的前沿做出重大貢獻(xiàn)。

我們?cè)诨氐竭@張圖表(左邊),如何才能實(shí)現(xiàn)這一目標(biāo)?通過(guò)圖表可以看出,模型的性能會(huì)隨著訓(xùn)練量的增加而提升,而我們的訓(xùn)練方法主要是強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。


這次演講我最想傳達(dá)的核心信息是:我們需要持續(xù)擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模。一年前,我們發(fā)布了 GPT-4o,當(dāng)時(shí)所有的計(jì)算資源都投入在預(yù)訓(xùn)練(pre-training)上。

但隨后,我們開始探索新方向,這才有了如今測(cè)試階段的「思考」能力 —— 比如在 o1 模型 中,我們額外增加了強(qiáng)化學(xué)習(xí)計(jì)算量(RL compute)。

當(dāng)然,這只是一個(gè)卡通演示,比例不一定對(duì),但其方向是對(duì)的。o3 用到了一些強(qiáng)化學(xué)習(xí),但未來(lái)強(qiáng)化學(xué)習(xí)計(jì)算的比重會(huì)更大。到某個(gè)時(shí)候,強(qiáng)化學(xué)習(xí)計(jì)算可能會(huì)成為主導(dǎo)。

這是我從 Yann LeCun 的幻燈片借的一張圖,大概是他 2019 年的一場(chǎng)演講。這張幻燈片有點(diǎn)復(fù)雜,難以理解。其中關(guān)鍵在于:預(yù)訓(xùn)練就像這個(gè)大蛋糕,強(qiáng)化學(xué)習(xí)應(yīng)該像上面的小櫻桃。我們實(shí)際上要做的是顛覆這個(gè)迷因。我們的蛋糕大小可能不會(huì)變化,但我們可能會(huì)有一顆超大的強(qiáng)化學(xué)習(xí)櫻桃。

那么,我們計(jì)劃怎么做呢?但我不能泄漏我們的計(jì)劃。我一開始擔(dān)心我的幻燈片會(huì)被刪減一些,但一切都還好。

我們的計(jì)劃其實(shí)很明顯:大規(guī)模擴(kuò)展計(jì)算。

什么意思呢?我們將籌集 5000 億美元,在德克薩斯州的阿比林買一些地,建一些建筑,在里面放一些計(jì)算機(jī)。我們也將訓(xùn)練一些模型,然后希望能借此獲得大量收入,然后我們會(huì)建更多建筑并在里面放更多計(jì)算機(jī)。這就是我們擴(kuò)展計(jì)算的方式。與此同時(shí),我們也將發(fā)展 scaling 科學(xué),這就是我在 OpenAI 所做的事情。

這張圖來(lái)自介紹 GPT-4 的博客文章,那時(shí)候我還沒有加入 OpenAI,但這張圖確實(shí)振奮人心。下面的綠點(diǎn)是 GPT-4 的最終損失性能,前面的灰點(diǎn)是訓(xùn)練過(guò)程中記錄的性能。而這張圖采用了對(duì)數(shù)尺度。
將這些點(diǎn)連起來(lái),可以得到一條趨勢(shì)線,我們可以借此預(yù)測(cè)未來(lái):訓(xùn)練前所未有的大模型確實(shí)能帶來(lái)好處。
現(xiàn)在我們有了測(cè)試時(shí)間計(jì)算和強(qiáng)化學(xué)習(xí)訓(xùn)練的新方向。我們是否必須拋棄一切,重新發(fā)明應(yīng)用于擴(kuò)展計(jì)算的含義?所以我們需要擴(kuò)展科學(xué)。

這張圖來(lái)自播客主理人 Dwarkesh。他問(wèn),既然現(xiàn)在 LLM 已經(jīng)記住了如此多的知識(shí),為什么還沒有做出什么科學(xué)發(fā)現(xiàn)呢?
原因可能是我們提問(wèn)的方式不正確。在研究中,很多時(shí)候提問(wèn)的方式比研究過(guò)程和答案更重要。所以關(guān)鍵在于問(wèn)對(duì)問(wèn)題。
還有一個(gè)可能原因是,我們現(xiàn)在過(guò)于關(guān)注競(jìng)賽數(shù)學(xué)等問(wèn)題了,這就導(dǎo)致模型在不同問(wèn)題上的能力參差不齊。

總之,我認(rèn)為真正會(huì)發(fā)生的事情是擴(kuò)大規(guī)模。我們需要進(jìn)一步擴(kuò)大規(guī)模,這是有用的。
總結(jié)一下,這就是接下來(lái)會(huì)發(fā)生的事情。這是去年 AI Ascent 上的一張圖,其中 Y 軸是半對(duì)數(shù)的。可以看到,智能體 / AI 所能處理的任務(wù)的長(zhǎng)度每 7 個(gè)月就會(huì)翻一倍。根據(jù)這張圖,他們可以執(zhí)行長(zhǎng)達(dá)一個(gè)小時(shí)的測(cè)試了,但明年呢?大概會(huì)在 2 到 3 小時(shí)之間。

不過(guò),預(yù)測(cè) AI 的發(fā)展并不容易,大家總是錯(cuò)的。但假如這張圖的預(yù)測(cè)是對(duì)的,沿著其趨勢(shì),到 2034 年 AI Ascent 時(shí),AI 將有能力進(jìn)行長(zhǎng)達(dá) 8 年的計(jì)算和思考 —— 而 8 年正是愛因斯坦發(fā)現(xiàn)廣義相對(duì)論所用的時(shí)間。

我想,或許 9 年后,我們就將有能發(fā)現(xiàn)廣義相對(duì)論的模型。






























