偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Hinton揭秘Ilya成長歷程:Scaling Law是他學(xué)生時代就有的直覺

人工智能 新聞
今天我們現(xiàn)在已經(jīng)看到了,做一個大語言模型,不刻意訓(xùn)練其推理能力,就產(chǎn)生了推理能力。

2003年夏天的一個周日,AI教父Hinton在多倫多大學(xué)的辦公室里敲代碼,突然響起略顯莽撞的敲門聲。

門外站著一位年輕的學(xué)生,說自己整個夏天都在打工炸薯條,但更希望能加入Hinton的實驗室工作。

Hinton問,你咋不預(yù)約呢?預(yù)約了我們才能好好談?wù)劇?/p>

學(xué)生反問,要不就現(xiàn)在吧?

圖片

這位年輕學(xué)生就是Ilya Sutskever,剛剛完成本科二年級的數(shù)學(xué)課程,從教務(wù)處打聽到“想學(xué)機器學(xué)習(xí),最好去找Hinton教授”。

他照做了,也因此成就了一段傳奇:

從AlexNet到AlphaGo,他兩次參與改變世界的研究。

OpenAI創(chuàng)立之初挖他去當(dāng)首席科學(xué)家,在他的領(lǐng)導(dǎo)下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界

多年后,他發(fā)動董事會內(nèi)訌,最終與OpenAI徹底分道揚鑣,全世界都在等待著他的下一個動作。

圖片

在OpenAI的時候,Ilya并不像Altman那樣到處拋頭露面,也不像Brockman天天在網(wǎng)上分享自己的“編程之禪”。

僅有的幾次演講和訪談中也多是聊技術(shù)、宏觀思考,不常談及自己的經(jīng)歷,最近半年更是銷聲匿跡。

這次的故事,正是來自他的博士導(dǎo)師Geoffrey Hinton。

在與Sana Labs創(chuàng)始人的最新對話節(jié)目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。

20多年過去了,很多細節(jié)在Hinton的敘述里還是那么鮮活。

圖片

這段訪談錄像理所當(dāng)然的火了,除了軼事之外,還涉及Ilya的一些學(xué)術(shù)思想怎么來的,又是如何發(fā)展:

  • 2010年Ilya就用GPU開發(fā)了一種語言模型
  • Scaling Law最早是他的一種直覺
  • 兩人都認為”語言模型不只是預(yù)測下一個token“
  • 兩人都認同“預(yù)測即壓縮壓縮即智能”

圖片

那么,Hinton眼中的Ilya,到底是什么樣子?

驚人的原始直覺

Ilya加入實驗室后,Hinton給他布置的第一個任務(wù)是讀論文,一篇關(guān)于反向傳播的論文。

下一個周會,Ilya回來報告了,說“我不理解”。

Hinton很失望,內(nèi)心OS:“這孩子看著挺機靈的,咋連鏈式法則求導(dǎo)這么基礎(chǔ)的東西都看不懂?”

Ilya連忙解釋,哦這個部分我懂了,我不理解的是,為什么不給梯度加一個sensible functional optimizer?

Hinto團隊后來花了好幾年來解決這個問題,最初指出問題的卻是剛?cè)腴T一周的Ilya。

圖片

像這樣的情況后面還在反復(fù)發(fā)生……Hinton如此評價Ilya:

他對事物的原始直覺總是非常好。

但Hinton也說搞不清楚Ilya這種直覺從何而來,或許歸功于他從小就對人工智能問題感興趣,再加上數(shù)學(xué)基礎(chǔ)很棒。

除了研究直覺,學(xué)生時期的Ilya也展現(xiàn)了超強的代碼和工程能力。

當(dāng)時還沒有TenserFlow或Torch之類流行框架,機器學(xué)習(xí)的主要工具和平臺是Matlab。

一項工作需要在Matlab里調(diào)整大量矩陣乘法代碼,Ilya做了一段時間就很不耐煩,說要為Matlab寫一個界面:

我用其他(Python等更方便的)語言寫代碼,然后能自動轉(zhuǎn)成Matlab代碼就好了。

Hinton聽說后苦口婆心勸他,你可別,這得花上一個月時間,我們不要分心,把手頭項目先做完。

Ilya卻輕描淡寫地說,害,沒事,今天早上我已經(jīng)寫完了。

圖片這項工作出現(xiàn)在Ilya的博士畢業(yè)論文里

打小就堅信Scaling Law

正如Hinton所言,Ilya在很多問題上有驚人的直覺。

今天全AI圈不少人信奉的Scaling Law,Ilya學(xué)生時代就已堅信,并抓住各種機會向身邊的人安利:

只要(把模型)做得更大,它們就會發(fā)揮更好的作用。

后來到OpenAI成立之初,Ilya的表述更加完善了:

如果你有一個大而深的神經(jīng)網(wǎng)絡(luò),可以在大量數(shù)據(jù)上進行訓(xùn)練,那么你實際上可以解決任何模式識別問題。

早年間Hinton看來,這就像是研究者在沒有創(chuàng)新的想法時,一種“逃避責(zé)任”的表現(xiàn)。

當(dāng)時的我錯了,而Ilya基本上是對的。

比如Transformer確實是一種創(chuàng)新想法,但實際上起作用的還是規(guī)模,數(shù)據(jù)的規(guī)模和計算的規(guī)模。

圖片

Hinton提到在當(dāng)年那個時間節(jié)點,沒人敢預(yù)料計算機速度今后會快上10億倍,最多想象到快100倍就不得了。

如果有今天的計算機,當(dāng)年研究的難題可能會自行解決,包括語言模型問題。

(此處應(yīng)插入比爾蓋茨曾預(yù)言64k內(nèi)存就足夠任何人用了笑話)

Ilya在2003年加入Hinton的實驗室,不知具體何時開始有了Scaling Law的想法,可能在他腦海里已經(jīng)盤旋了20多年。

圖片

后來直到2020年,GPT-3發(fā)布的幾個月前,OpenAI團隊才正式在論文中向世人完整定義和介紹這一理念。

圖片

在語言模型上用GPU,比AlexNet更早

2010年底,Ilya和另一個學(xué)生James Martens(現(xiàn)DeepMind研究科學(xué)家)合作研究了一種語言模型,后來入選ICML 2011。

RNN架構(gòu),使用維基百科數(shù)據(jù),在8張當(dāng)時最先進的GPU上訓(xùn)練,比在AlexNet上使用GPU還早兩年。

圖片

與今天的大語言模型預(yù)測下一個token不一樣,當(dāng)時他們嘗試的是一次預(yù)測一個字符。

這款模型能力有限,比如給一段起始文字,模型可以繼續(xù)生成看起來像維基百科文章的語句。

雖然語意上像是胡言亂語,但語法和標點符號大部分是準確的,引號和括號已經(jīng)能成對出現(xiàn),主語和動詞形態(tài)一致,比如論文中的一段:

生命的意義是古代人類繁殖的傳統(tǒng):對于好男孩什么時候移除她更大的來說,并不是很有利。在這個節(jié)目的協(xié)議中,幾乎一致地重新浮現(xiàn)……

圖片

當(dāng)時多倫多大學(xué)校刊的采訪中,Ilya認為這已經(jīng)超出了所有人的預(yù)期:

它發(fā)現(xiàn)了單詞的存在,也發(fā)現(xiàn)了語法。

Hinton理智上也無法去相信這個系統(tǒng)能“理解”任何事,但它看起來就像是理解了。

比如給它一個地點組成的列表,它可以繼續(xù)生成地點,盡管還分不出國家和州的區(qū)別。

圖片

當(dāng)年的Ilya并不愿意討論這項工作的潛在應(yīng)用。

在維基百科上成功后,團隊又嘗試了紐約時報文章數(shù)據(jù),目標是教會它根據(jù)文字識別不同作者的身份。

但Ilya已經(jīng)想到并承認,如果做的足夠好,這項技術(shù)有一天可能成為洗稿軟件的基礎(chǔ)。

如今,這篇論文的代碼依然存放在多倫多大學(xué)的服務(wù)器上,供感興趣的人研究。

圖片

不止是預(yù)測下一個token

后來的AlexNet、師徒三人“拍賣”自己加入谷歌等大家已熟知的故事,這里先略過。

Ilya加入OpenAI后,雖然不再與Hinton共事,但兩人的學(xué)術(shù)思想始終在一條路上。

圖片

ChatGPT問世后,不少人批評大模型本質(zhì)上只是統(tǒng)計學(xué),預(yù)測下一個token,就像隨機模仿人類說話的鸚鵡。

但Hinton和Ilya師徒二人都認為,遠不止如此。

在Hinton眼中,問題之后的下一個token,便是答案的第一個token。

因此學(xué)會預(yù)測,就意味著必須學(xué)會理解問題

這種理解的方式與人類相似,同時與老式基于三元組數(shù)據(jù)的自動補全有根本不同。

今天我們現(xiàn)在已經(jīng)看到了,做一個大語言模型,不刻意訓(xùn)練其推理能力,就產(chǎn)生了推理能力。

這就是大腦如何學(xué)習(xí),你在預(yù)測視覺的下一幀、聽覺的下一個聲音。

圖片

Ilya更是不遺余力傳播這套理論,在去年和英偉達老黃的爐邊對話中說了這個,在OpenAI內(nèi)訌兩周前最后一個公開采訪中也講了這個:

當(dāng)我們訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò)來準確預(yù)測互聯(lián)網(wǎng)上許多不同文本中的下一個單詞時,我們所做的就是學(xué)習(xí)一個世界模型。

從表面上看,可能只是在學(xué)習(xí)文本中的統(tǒng)計相關(guān)性。

但事實證明,為了“只是學(xué)習(xí)”文本中的統(tǒng)計相關(guān)性,為了壓縮它們,神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的是文本生成過程的某種表示。

文本實際上是對世界的投影。

圖片

在另一場采訪中,他走的更遠:

很好地預(yù)測下一個token,意味著了解創(chuàng)造該token的深層現(xiàn)實。

這不僅是統(tǒng)計學(xué),而是理解創(chuàng)造了這些統(tǒng)計數(shù)字的那個世界。

如果真的很擅長預(yù)測下一個token,就可能根據(jù)普通人如何行動的數(shù)據(jù),外推出擁有非凡智慧和洞察力的人如何行動,盡管這種人可能并不存在。

這就是Ilya認為的,為什么“預(yù)測下一個token”范式有可能抵達AGI,甚至有可能超越人類直至ASI。

圖片

預(yù)測即壓縮,壓縮即智能

在不同場合提到“預(yù)測下一個Token”時,Ilya大概率會同時提到“壓縮”,他認為預(yù)測即是壓縮,壓縮就是智能的來源。

但Ilya總是從理論的角度去解釋這個想法,并不容易讓所有人都能理解。

比如在UC Berkley的一場演講中,他這樣解釋:

- “Kolmogorov壓縮器”,是理論上能生成特定數(shù)據(jù)集的、長度最短的一段程序,能最小化遺憾值。

- 隨機梯度下降,可以看成在軟計算機(比如大型Transformer)的權(quán)重里,搜索隱含的“Kolmogorov壓縮器”。

- 神經(jīng)網(wǎng)絡(luò)越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。

圖片

Hinton也認同這個說法,并且在訪談中舉了非常形象的例子。

大模型做的是尋找共同結(jié)構(gòu),使用共同結(jié)構(gòu)編碼事物,這樣效率更高。

如果你問GPT-4堆肥和原子彈相似性在哪,大多數(shù)人類都回答不出來,認為它們是非常不同的兩種東西。

GPT-4會告訴你,雖然他們的能量規(guī)模不同,時間尺度不同,但仍有相同之處:

  • 當(dāng)堆肥變熱時,產(chǎn)生熱量的速度就更快。
  • 當(dāng)原子彈產(chǎn)生更多中子時,產(chǎn)生中子的速度也更快。

通過類比,AI就理解了“鏈式反應(yīng)”的概念。

Hinton認為,AI在利用這種理解去將所有信息壓縮到自己的權(quán)重中。

一但AI這樣做了,那么它就有能力理解數(shù)百種人類還未見過的類比,這就是創(chuàng)造力的來源。

Hinton眼中什么是好學(xué)生?

說回到兩人相遇時,Hinton談到,與他交談沒多久就能看出他很聰明。

再多交談一會,就能發(fā)現(xiàn)他有很好的直覺,而且擅長數(shù)學(xué)。

所以選Ilya做學(xué)生是非常容易做出的決定。

那么如何挑選其他學(xué)生?Hinton也用了Ilya最擅長的方法:跟著直覺走。

如果一個人輕信別人告訴他的一切,那就太致命了。

不輕信他人,而是嘗試將新信息融入自己對世界的理解框架中,如果融入不進去,就拒絕,這是很好的策略。

如果試圖吸收被告知的一切,最終會得到一個非常模糊的框架。相信一切,但是沒有用處。

所以Hinton眼中的好學(xué)生,應(yīng)該擁有一個堅定的世界觀,并試圖擺弄輸入的事實以適應(yīng)你的觀點

這樣雖然也可能陷入深信宗教或堅持致命錯誤,但我認為這種方法仍是正確的。

后來我們也能看到,兩人都是秉持這樣的理念,堅持著“大模型不止是預(yù)測下一個token”,堅持著“預(yù)測即壓縮,壓縮即智能”。

他們也都堅持認為,這個世界應(yīng)該更加重視AI帶來的風(fēng)險,一個因此離開了工作10年的谷歌,一個因此離開了一手拉扯大的OpenAI。

Hinton訪談完整視頻https://www.youtube.com/watch?v=tP-4njhyGvo

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-16 07:15:00

2024-11-12 13:07:44

2025-07-04 16:39:56

AI模型機器學(xué)習(xí)

2024-08-29 14:05:00

數(shù)據(jù)模型

2010-06-17 17:34:15

UML發(fā)展

2021-04-13 14:25:41

架構(gòu)運維技術(shù)

2024-11-11 14:00:00

AI模型

2024-11-14 18:40:57

2025-05-12 09:02:00

2024-10-10 13:13:18

2024-10-11 14:00:00

模型數(shù)據(jù)

2025-03-14 11:18:19

2024-04-17 13:22:55

人工智能

2011-09-20 11:17:26

敏捷

2024-11-25 15:50:00

模型訓(xùn)練

2024-11-11 17:35:11

2025-03-17 09:25:00

AI模型谷歌

2011-07-01 13:36:18

2011年(第九屆)中中國電腦商年會

2024-10-14 08:59:13

2025-04-01 09:20:00

模型預(yù)測AI
點贊
收藏

51CTO技術(shù)棧公眾號