偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

九年實現(xiàn)愛因斯坦級AGI?OpenAI科學家Dan Roberts談強化學習擴展的未來

人工智能 新聞
Dan Roberts 介紹了預訓練和強化學習的 Scaling Law,并預測強化學習將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用,而隨著強化學習繼續(xù)擴展,我們最終將造出有能力發(fā)現(xiàn)新科學的模型。

近日,在紅杉資本主辦的 AI Ascent 上,OpenAI 研究科學家 Dan Roberts 做了主題為「接下來的未來 / 擴展強化學習」的演講,其上傳到 YouTube 的版本更是采用了一個更吸引人的標題:「9 年實現(xiàn) AGI?OpenAI 的 Dan Roberts 推測將如何模擬愛因斯坦?!?/span>

圖片

在這場演講中,Dan Roberts 介紹了預訓練和強化學習的 Scaling Law,并預測強化學習將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用,而隨著強化學習繼續(xù)擴展,我們最終將造出有能力發(fā)現(xiàn)新科學的模型。

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts,Open AI 研究科學家,強化學習科學團隊負責人,同時也是 MIT 理論物理中心訪問科學家。他還曾與 Sho Yaida 合著了《The Principles of Deep Learning Theory(深度學習理論的原理)》一書,該書有發(fā)布在 arXiv 上的免費版本:https://arxiv.org/abs/2106.10165 。他還曾在 Facebook AI 研究中心擔任過研究科學家,之后他參與創(chuàng)立了一家為國防、情報和金融服務客戶提供協(xié)作情報文本挖掘產(chǎn)品的公司 Diffeo—— 該公司后來被 Salesforce 收購,Dan Roberts 也一并加入了 Salesforce。后來,他又加入了紅杉資本,成為了一位 AI Fellow。去年,他離開紅杉資本,加入了 OpenAI。

機器之心整理了 Dan Roberts 的演講內(nèi)容。

正如你們許多人知道的,去年 9 月,OpenAI 發(fā)布了一個名為 o1 的模型。

我這里展示的是一張圖表,y 軸代表模型在某種數(shù)學推理基準測試上的表現(xiàn),但真正有趣的是 x 軸。

左邊的圖表顯示,隨著訓練時間的增加,模型性能隨之提升。這種走勢是每個訓練 AI 模型的人都熟悉的。

圖片

但真正令人興奮的是右邊的圖表:它表明在「測試時間」增加時,模型的表現(xiàn)也會得到改善。模型學會了思考,思考的時間越多,進步就越大。

圖片

這個發(fā)現(xiàn)太重要了,我們甚至把它印在了 T 恤上。因為這代表了一個全新的擴展維度 —— 不僅僅是訓練時間擴展,還包括測試時間擴展。

圖片

這種發(fā)現(xiàn)意味著什么呢?意味著我們有了一個會思考的模型。

上個月,我們發(fā)布了一個更強大的推理模型 o3,比如圖中展示的一張草稿圖,你可以提問「Solve the QED problem on the left(解決左邊的量子電動力學問題)」。

圖片


圖片

來源 https://openai.com/index/thinking-with-images/

這類模型在測試時,能進行思考,分析圖像,并放大圖像細節(jié)(過程如下)。

圖片

其實這張紙上有個費曼圖(一種用于表示量子場論計算的圖示),模型經(jīng)過分析后,最終給出正確答案 —— 整個過程大約花了一分鐘。

圖片

順便提個趣事:在發(fā)布這篇博客前,一位同事讓我驗證這個計算。盡管這是教科書級別的題目,但我花了 3 個小時才搞定 —— 我得一步步追蹤它的推導,確保所有正負號都正確,最后才能確認答案是對的。

那么,我們現(xiàn)在能做什么?模型思考一分鐘,就能完成一些相當復雜的計算 —— 但我們的目標遠不止于此。

不如做個思維實驗吧!說到思維實驗,誰最擅長?阿爾伯特?愛因斯坦。

讓我們以愛因斯坦為對象做個假設:如果回到 1907 年(他剛開始研究廣義相對論之前),讓他回答一道廣義相對論的期末考題 —— 這題目其實是 GPT-4.5 編的,但我可以保證,這確實是你會遇到的那種典型問題。

我們設想愛因斯坦在 1907 年被問到以下問題:問題 1:黑洞與施瓦西度規(guī)。

圖片

當然,作為 OpenAI,我們不會直接問愛因斯坦,而是問「愛因斯坦 v1907-super-hacks」。

我認為愛因斯坦是個視覺型思考者。他總愛用電梯和自由落體來舉例 —— 學廣義相對論時肯定會碰到這些概念,還有那些橡膠膜上的小球的比喻。不過看起來他中途走神去琢磨量子力學了……(我們的模型也經(jīng)常這樣分心?。?。

圖片

看起來「愛因斯坦 v1907-super-hacks」的思考逐漸接近黑洞的概念了…… 不過我也不知道為什么他會把自己代入到這些場景里。但答案是正確的。

但事實證明,GPT-4.5 沒能答對這道題,我們得靠 o3 才能解決。

我在 OpenAI 的工作大概就是專門驗證這些物理計算,而不是搞 AI 研究。

不過重點在于:模型給出了正確答案,而愛因斯坦當然也能答對 —— 只是他花了 8 年時間。

目前,我們的模型已經(jīng)可以通過一分鐘的思考重現(xiàn)教科書級別的計算及其衍生問題。但我們的目標遠不止于此 —— 我們希望它們能為人類知識與科學的前沿做出重大貢獻。

圖片

我們在回到這張圖表(左邊),如何才能實現(xiàn)這一目標?通過圖表可以看出,模型的性能會隨著訓練量的增加而提升,而我們的訓練方法主要是強化學習(Reinforcement Learning, RL)。

圖片

圖片

這次演講我最想傳達的核心信息是:我們需要持續(xù)擴大強化學習的規(guī)模。一年前,我們發(fā)布了 GPT-4o,當時所有的計算資源都投入在預訓練(pre-training)上。

圖片

但隨后,我們開始探索新方向,這才有了如今測試階段的「思考」能力 —— 比如在 o1 模型 中,我們額外增加了強化學習計算量(RL compute)。

當然,這只是一個卡通演示,比例不一定對,但其方向是對的。o3 用到了一些強化學習,但未來強化學習計算的比重會更大。到某個時候,強化學習計算可能會成為主導。

圖片

這是我從 Yann LeCun 的幻燈片借的一張圖,大概是他 2019 年的一場演講。這張幻燈片有點復雜,難以理解。其中關(guān)鍵在于:預訓練就像這個大蛋糕,強化學習應該像上面的小櫻桃。我們實際上要做的是顛覆這個迷因。我們的蛋糕大小可能不會變化,但我們可能會有一顆超大的強化學習櫻桃。

圖片

那么,我們計劃怎么做呢?但我不能泄漏我們的計劃。我一開始擔心我的幻燈片會被刪減一些,但一切都還好。

圖片

我們的計劃其實很明顯:大規(guī)模擴展計算。

圖片

什么意思呢?我們將籌集 5000 億美元,在德克薩斯州的阿比林買一些地,建一些建筑,在里面放一些計算機。我們也將訓練一些模型,然后希望能借此獲得大量收入,然后我們會建更多建筑并在里面放更多計算機。這就是我們擴展計算的方式。與此同時,我們也將發(fā)展 scaling 科學,這就是我在 OpenAI 所做的事情。

圖片

這張圖來自介紹 GPT-4 的博客文章,那時候我還沒有加入 OpenAI,但這張圖確實振奮人心。下面的綠點是 GPT-4 的最終損失性能,前面的灰點是訓練過程中記錄的性能。而這張圖采用了對數(shù)尺度。

將這些點連起來,可以得到一條趨勢線,我們可以借此預測未來:訓練前所未有的大模型確實能帶來好處。

現(xiàn)在我們有了測試時間計算和強化學習訓練的新方向。我們是否必須拋棄一切,重新發(fā)明應用于擴展計算的含義?所以我們需要擴展科學。

圖片

這張圖來自播客主理人 Dwarkesh。他問,既然現(xiàn)在 LLM 已經(jīng)記住了如此多的知識,為什么還沒有做出什么科學發(fā)現(xiàn)呢?

原因可能是我們提問的方式不正確。在研究中,很多時候提問的方式比研究過程和答案更重要。所以關(guān)鍵在于問對問題。

還有一個可能原因是,我們現(xiàn)在過于關(guān)注競賽數(shù)學等問題了,這就導致模型在不同問題上的能力參差不齊。

圖片

總之,我認為真正會發(fā)生的事情是擴大規(guī)模。我們需要進一步擴大規(guī)模,這是有用的。

總結(jié)一下,這就是接下來會發(fā)生的事情。這是去年 AI Ascent 上的一張圖,其中 Y 軸是半對數(shù)的。可以看到,智能體 / AI 所能處理的任務的長度每 7 個月就會翻一倍。根據(jù)這張圖,他們可以執(zhí)行長達一個小時的測試了,但明年呢?大概會在 2 到 3 小時之間。

圖片

不過,預測 AI 的發(fā)展并不容易,大家總是錯的。但假如這張圖的預測是對的,沿著其趨勢,到 2034 年 AI Ascent 時,AI 將有能力進行長達 8 年的計算和思考 —— 而 8 年正是愛因斯坦發(fā)現(xiàn)廣義相對論所用的時間。

圖片

我想,或許 9 年后,我們就將有能發(fā)現(xiàn)廣義相對論的模型。


責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-12-10 10:16:26

LLMAGI

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2020-06-30 09:54:30

框架AI開發(fā)

2024-12-06 09:00:00

2018-12-05 09:40:19

人工智能AIAGI

2024-12-30 09:30:00

OpenAIAI訓練

2012-12-06 15:36:55

CIO

2015-06-11 10:27:29

數(shù)據(jù)科學家

2023-10-12 14:18:06

2020-03-20 14:40:48

數(shù)據(jù)科學Python學習

2023-11-02 13:35:00

訓練模型

2025-05-14 09:03:00

2025-10-17 10:01:30

2022-08-24 10:57:38

深度學習人工智能

2017-06-29 15:53:43

5Gsdnnfv

2015-10-16 09:44:51

2009-03-27 09:09:03

GoogleAndroid移動OS

2012-12-26 10:51:20

數(shù)據(jù)科學家

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2025-04-10 09:00:00

GPTAI模型
點贊
收藏

51CTO技術(shù)棧公眾號