LeCun最新訪談對(duì)DeepSeek一頓猛夸，還談了AI發(fā)展需理解物理世界

作者：量子位 2025-03-11 09:15:00

最終大部分的基礎(chǔ)設(shè)施建設(shè)和大部分的投資實(shí)際上都用在運(yùn)行模型上，而不是訓(xùn)練模型。

LeCun最新訪談，對(duì)DeepSeek一頓猛夸。

他表示，DeepSeek是一項(xiàng)很出色的成果，它的開源不只是成果創(chuàng)造者受益，全世界都能從中受益。

不過LeCun也指出，金融市場(chǎng)對(duì)DeepSeek出現(xiàn)的反應(yīng)，說什么“哦，現(xiàn)在我們可以更便宜地訓(xùn)練系統(tǒng)了，所以我們不再需要那么多計(jì)算機(jī)”，這種說法是錯(cuò)誤的。

最終大部分的基礎(chǔ)設(shè)施建設(shè)和大部分的投資實(shí)際上都用在運(yùn)行模型上，而不是訓(xùn)練模型。

順帶他還提到了對(duì)OpenAI“星際之門”項(xiàng)目的看法，OpenAI之前官宣將與軟銀甲骨文組建合資公司，未來4年內(nèi)總投資5000億美元在這個(gè)項(xiàng)目上，LeCun卻表示不認(rèn)為它會(huì)改變一切。

他認(rèn)為這個(gè)項(xiàng)目的投資與微軟、Meta的投資規(guī)模實(shí)際上處于同一數(shù)量級(jí)，并沒有太大的不同。

另外，LeCun著重講了現(xiàn)在的AI系統(tǒng)在很多方面都還非?！坝薮馈?，光靠大語言模型不行，AI發(fā)展需要理解復(fù)雜物理世界。

LeCun的一些大膽言論讓網(wǎng)友聽得一愣一愣的：

說當(dāng)前AI愚蠢沒有智能，又將自己的“情感”概念強(qiáng)加到他正在構(gòu)建的東西上，這有點(diǎn)瘋狂。

當(dāng)然，也有研究人員贊同LeCun的說法。

量子位在不改變?cè)獾幕A(chǔ)上，對(duì)部分問題進(jìn)行了翻譯整理。

最新訪談問題整理

談AI是否會(huì)有類似人的情緒

Q：我們努力推動(dòng)AI達(dá)到與人類能力相匹配的水平?，F(xiàn)在我們是否會(huì)讓AI展現(xiàn)出類似人類憤怒這類的情緒呢？你覺得這有可能實(shí)現(xiàn)嗎？

LeCun：不，我不這么認(rèn)為。

目前AI系統(tǒng)在很多方面都還非?！坝薮馈保覀冎詴?huì)覺得它們很聰明，是因?yàn)樗鼈兡軌蚝芎玫靥幚碚Z言，但實(shí)際上它們并不具備真正的智慧。

它們不理解物理世界，也沒有像我們?nèi)祟愃鶕碛械哪欠N持久記憶，無法真正地進(jìn)行推理，也不能制定計(jì)劃。而這些都是智能行為的基本特征。

所以，我和我在FAIR以及紐約大學(xué)的同事們一直在努力做的一件事，就是設(shè)計(jì)一種新型的AI系統(tǒng)，而且它仍然是基于深度學(xué)習(xí)的。

這種系統(tǒng)將能夠理解物理世界，擁有實(shí)體記憶，并且能夠進(jìn)行推理和規(guī)劃。在我看來，一旦我們成功地按照這個(gè)藍(lán)圖構(gòu)建出這樣的系統(tǒng)，它們就會(huì)擁有情感，可能會(huì)恐懼、興奮或者失落，因?yàn)檫@些都是對(duì)結(jié)果的預(yù)期。

這些系統(tǒng)會(huì)按照我們?cè)O(shè)定的目標(biāo)來運(yùn)行，然后會(huì)嘗試弄清楚自己可以采取怎樣的行動(dòng)來實(shí)現(xiàn)這個(gè)目標(biāo)。如果它們能夠提前預(yù)測(cè)到目標(biāo)將會(huì)實(shí)現(xiàn)，在某種程度上會(huì)“感到高興”；如果它們預(yù)測(cè)到無法實(shí)現(xiàn)目標(biāo)，它們就會(huì)“不開心”。

所以在一定程度上它們會(huì)擁有情感，因?yàn)樗鼈儗⒛軌蝾A(yù)測(cè)自己可能采取的一系列行動(dòng)的結(jié)果。

但是我們不會(huì)在它們的程序中人為設(shè)定類似憤怒、嫉妒之類的情感。

但意識(shí)是另外一回事，我們實(shí)際上并不清楚它究竟是什么，目前并沒有一個(gè)真正意義上的定義，也沒有任何一種真正可衡量的東西能讓我們判斷某樣事物到底有沒有意識(shí)。

就好比我們觀察動(dòng)物，大概我們都會(huì)認(rèn)同猿是有意識(shí)的，也許大象以及諸如此類的動(dòng)物也是有意識(shí)的，但狗有意識(shí)嗎？老鼠有意識(shí)嗎？界限在哪里？

因?yàn)槲覀儧]有一個(gè)關(guān)于意識(shí)的恰當(dāng)定義，所以我們確實(shí)無法判斷。

談機(jī)器學(xué)習(xí)三種模式

Q：當(dāng)年你說機(jī)器學(xué)習(xí)很爛，現(xiàn)在情況有什么變化嗎？

LeCun：這就是我們正在努力的，我們正在尋找構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的新方法，讓它們能夠像人類和動(dòng)物那樣高效地學(xué)習(xí)，因?yàn)槟壳暗那闆r并非如此。

我可以給你講講過去幾十年里機(jī)器學(xué)習(xí)是如何發(fā)展的。實(shí)際上機(jī)器學(xué)習(xí)主要有三種早期模式。

一種叫監(jiān)督學(xué)習(xí)，這是最經(jīng)典的一種。

訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)系統(tǒng)的方式是這樣的，例如對(duì)于一個(gè)用于識(shí)別圖像的系統(tǒng)，你給它展示一張圖片，比方說一張桌子的圖片，然后告訴它“這是一張桌子”，這就是監(jiān)督學(xué)習(xí)，你告訴了它正確答案是什么，也就是系統(tǒng)計(jì)算機(jī)的輸出應(yīng)該是什么。

如果它給出的不是“桌子”，那么它就會(huì)調(diào)整自身的參數(shù)，也就是它的內(nèi)部結(jié)構(gòu)，使得產(chǎn)生的輸出更接近你想要的結(jié)果。

如果你不斷地用大量桌子、椅子、汽車、貓、狗等例子來進(jìn)行訓(xùn)練，最終這個(gè)系統(tǒng)將會(huì)找到一種方法，能夠識(shí)別出你用來訓(xùn)練它的每一張圖像，而且對(duì)于那些它從未見過但與訓(xùn)練圖像相似的圖像，它也能識(shí)別，這就叫做泛化能力。

還有另一種模式，人們認(rèn)為這種模式更接近動(dòng)物和人類的學(xué)習(xí)方式，叫做強(qiáng)化學(xué)習(xí)。

在強(qiáng)化學(xué)習(xí)中，你不會(huì)告訴系統(tǒng)正確答案是什么，你只告訴它所產(chǎn)生的答案是好還是壞。在某種程度上，這可以解釋人類和動(dòng)物的一些學(xué)習(xí)類型。比如，你嘗試騎自行車，一開始不知道怎么騎，過了一會(huì)兒你摔倒了，所以你知道自己做得不好，于是你稍微改變一下策略，最終你就學(xué)會(huì)了騎自行車。

但事實(shí)證明，強(qiáng)化學(xué)習(xí)效率極其低下。

如果你想訓(xùn)練一個(gè)系統(tǒng)來下國際象棋、圍棋或者玩撲克之類的，它確實(shí)效果很好。因?yàn)槟憧梢宰屜到y(tǒng)自己和自己玩數(shù)百萬局游戲，然后基本上就能對(duì)自身進(jìn)行微調(diào)。

但在現(xiàn)實(shí)世界中，它并不太適用。如果你想訓(xùn)練一輛汽車自動(dòng)駕駛，你可不能用強(qiáng)化學(xué)習(xí)的方法，不然它會(huì)撞車成千上萬次。如果你訓(xùn)練一個(gè)機(jī)器人學(xué)習(xí)如何抓取東西，強(qiáng)化學(xué)習(xí)可以是解決方案的一部分，但它不是全部，僅靠強(qiáng)化學(xué)習(xí)是不夠的。

所以還有第三種學(xué)習(xí)形式，叫做自監(jiān)督學(xué)習(xí)。

正是自監(jiān)督學(xué)習(xí)推動(dòng)了近期自然語言理解和聊天機(jī)器人領(lǐng)域的進(jìn)展。在自監(jiān)督學(xué)習(xí)中，你不是訓(xùn)練系統(tǒng)去完成特定的任務(wù)，而是訓(xùn)練它去捕捉輸入的結(jié)構(gòu)。

比如說，在處理文本和語言方面的應(yīng)用方式是，你取一段文本，以某種方式對(duì)它進(jìn)行破壞，比如刪除一些單詞，然后訓(xùn)練系統(tǒng)去預(yù)測(cè)缺失的單詞。

這種方式的一個(gè)特殊情況是，你取一段文本，這段文本的最后一個(gè)單詞是不可見的。所以你訓(xùn)練系統(tǒng)去預(yù)測(cè)這段文本的最后一個(gè)單詞。這就是訓(xùn)練大語言模型以及所有聊天機(jī)器人所采用的方式。

從技術(shù)層面來說會(huì)有所不同，但基本原理就是這樣。這就叫做自監(jiān)督學(xué)習(xí)。你不是為了某個(gè)任務(wù)去訓(xùn)練系統(tǒng)，只是訓(xùn)練它去學(xué)習(xí)輸入內(nèi)容的內(nèi)部依賴關(guān)系。

自監(jiān)督學(xué)習(xí)的成功令人驚嘆，它的效果出奇地好，最終你得到的系統(tǒng)似乎真的理解了語言，并且如果你通過監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)對(duì)它們進(jìn)行微調(diào)，使它們能夠正確回答問題，那么這些系統(tǒng)就能理解問題。

這就是目前行業(yè)內(nèi)大家都在努力研究的方向，但如果你想要一個(gè)系統(tǒng)去理解物理世界，這種模型就不管用了。

談AI系統(tǒng)所缺的關(guān)鍵要素

LeCun：物理世界比語言要難理解得多，我們往往認(rèn)為語言是展現(xiàn)智能的重要方面，因?yàn)橹挥腥祟惸軌蜻\(yùn)用語言。但事實(shí)證明，語言其實(shí)是相對(duì)簡(jiǎn)單的。

它之所以簡(jiǎn)單，是因?yàn)樗请x散的，是由一系列離散的符號(hào)組成的序列。

字典里可能出現(xiàn)的單詞數(shù)量是有限的，所以，雖然你永遠(yuǎn)無法訓(xùn)練一個(gè)系統(tǒng)精確地預(yù)測(cè)下一個(gè)出現(xiàn)的單詞是什么，但你可以訓(xùn)練它為字典里的每個(gè)單詞在那個(gè)位置出現(xiàn)的概率進(jìn)行估算。這樣，你就可以通過這種方式來處理預(yù)測(cè)中的不確定性。

然而，你卻無法訓(xùn)練一個(gè)系統(tǒng)去預(yù)測(cè)視頻中將會(huì)發(fā)生什么。

人們嘗試過這么做，我自己也為此努力了20年，如果你能夠訓(xùn)練一個(gè)系統(tǒng)去預(yù)測(cè)視頻中將會(huì)發(fā)生的事情，那么這個(gè)系統(tǒng)就會(huì)潛移默化地理解這個(gè)世界的底層結(jié)構(gòu)，比如直觀的物理學(xué)知識(shí)，以及任何動(dòng)物和人類在嬰兒時(shí)期所學(xué)到的關(guān)于物理方面的一切知識(shí)。

你知道的，如果我拿起一個(gè)物體然后松開手，它就會(huì)掉落，重力會(huì)把物體拉向地面，人類嬰兒大概9個(gè)月大的時(shí)候就學(xué)會(huì)了這一點(diǎn)。

這是個(gè)棘手的問題，貓或者狗幾個(gè)月的時(shí)間就能了解重力，而且貓?jiān)谶@方面真的很厲害，它能夠規(guī)劃復(fù)雜的動(dòng)作，爬上爬下還能跳躍，它對(duì)我們所說的直觀物理學(xué)有著非常好的理解。而我們還不知道如何用計(jì)算機(jī)來重現(xiàn)這一點(diǎn)。

原因就在于，這又是AI研究人員所說的“莫拉維克悖論”。

漢斯?莫拉維克是一位機(jī)器人專家。他指出，為什么我們能讓計(jì)算機(jī)下棋、解決數(shù)學(xué)難題，但卻無法讓它們做一些像動(dòng)物能做的操控物體、跳躍之類的物理動(dòng)作？

所以這就是這個(gè)悖論的又一個(gè)例子，即離散物體和符號(hào)的空間很容易被計(jì)算機(jī)處理，但現(xiàn)實(shí)世界實(shí)在是太復(fù)雜了，在一種情況下有效的技術(shù)在另一種情況下卻行不通。

如果你想直觀地理解這一點(diǎn)，有個(gè)不錯(cuò)的方法：通過我們的感官比如視覺或觸覺，傳遞給我們的信息量，與我們通過語言獲取的信息量相比，絕對(duì)是極其龐大的。

這也許就能解釋為什么我們有大語言模型、聊天機(jī)器人，它們能通過律師資格考試，能解決數(shù)學(xué)問題，或者寫出聽起來不錯(cuò)的文章。但我們?nèi)匀粵]有家用機(jī)器人。我們?nèi)匀粵]有能完成貓或狗能完成的任務(wù)的機(jī)器人。我們?nèi)匀粵]有達(dá)到L5完全自動(dòng)駕駛的汽車，而且我們肯定也沒有能像17歲的孩子那樣，通過大約20個(gè)小時(shí)的練習(xí)就能學(xué)會(huì)駕駛的自動(dòng)駕駛汽車。

所以很明顯，我們還缺少一些關(guān)鍵的東西，而我們所缺少的，就是如何訓(xùn)練一個(gè)系統(tǒng)去理解像視覺這樣復(fù)雜的感官輸入。

如果你想要擁有與動(dòng)物和人類智力相仿的機(jī)器，它們具備常識(shí)，或許在某個(gè)階段還擁有意識(shí)以及其它能力，并且能夠真正應(yīng)對(duì)復(fù)雜世界中錯(cuò)綜復(fù)雜的情況，那我們就需要攻克這個(gè)難題。

一個(gè)典型的大語言模型的信息量大約是10的14次方字節(jié)，也就是1后面跟著14個(gè)零，這是互聯(lián)網(wǎng)上所有公開可用文本的總量，我們?nèi)魏稳艘x完這些材料都得花幾十萬年的時(shí)間，這是極其龐大的信息量。

當(dāng)你把大語言模型的信息量與在生命的頭四年里通過視覺系統(tǒng)進(jìn)入我們大腦的信息量作比較。在頭四年里，一個(gè)幼兒醒著的總時(shí)長(zhǎng)大約是16000個(gè)小時(shí)。進(jìn)入大腦到達(dá)視神經(jīng)的信息量大約是2MB/s。計(jì)算一下，那大約也是10的14次方字節(jié)。

也就是說，一個(gè)幼兒在頭四年里所接觸到的信息或數(shù)據(jù)量，和最大的大語言模型所處理的信息量大致相當(dāng)。

這就告訴我們，僅僅通過對(duì)文本進(jìn)行訓(xùn)練，我們永遠(yuǎn)無法實(shí)現(xiàn)達(dá)到人類水平的人工智能，必須讓系統(tǒng)去理解真實(shí)世界。而要做到這一點(diǎn)，在現(xiàn)實(shí)世界中確實(shí)非常困難。

Q：你在你的LinkedIn和Facebook主頁上把AI和熵聯(lián)系起來了，它們之間有什么關(guān)聯(lián)？你寫的內(nèi)容很難讓人理解，能否給我們簡(jiǎn)單解釋一下。

LeCun：這一直是我著迷的一個(gè)問題，它是計(jì)算機(jī)科學(xué)、物理學(xué)、信息論以及許多不同領(lǐng)域中諸多問題的根源，那就是如何對(duì)信息進(jìn)行量化的問題，也就是一條消息中包含了多少信息。

我已經(jīng)多次提出的觀點(diǎn)是，一條消息中的信息量并非是一個(gè)絕對(duì)的量，因?yàn)樗Q于解讀這條消息的人。你能從傳感器中、從別人告訴你的語言信息或其它任何信息中提取出的信息量，取決于你如何去解讀它，這就是關(guān)鍵所在。

認(rèn)為可以用絕對(duì)的方式來衡量信息，這種想法可能是錯(cuò)誤的。每一種對(duì)信息的度量都是相對(duì)于解讀該信息的特定方式而言的。所以這就是我一直想表達(dá)的觀點(diǎn)。

而這會(huì)產(chǎn)生非常廣泛的影響。因?yàn)槿绻麤]有一種絕對(duì)的方法來衡量信息，那就意味著物理學(xué)中有很多概念實(shí)際上并沒有那種像熵這樣客觀的定義，所以熵是對(duì)我們對(duì)一個(gè)物理系統(tǒng)狀態(tài)的未知程度的一種度量。當(dāng)然，這取決于你對(duì)這個(gè)系統(tǒng)了解多少。

所以我一直執(zhí)著于試圖找到一些好的方法來定義熵、復(fù)雜性或者信息內(nèi)容。

Q：你難道不認(rèn)為我們用于訓(xùn)練AI模型的全球數(shù)據(jù)庫已經(jīng)達(dá)到極限了嗎？我們?cè)?000年時(shí)將數(shù)據(jù)的25%進(jìn)行了數(shù)字化，而如今我們已經(jīng)把所有數(shù)據(jù)的100%都數(shù)字化了。

LeCun：不，仍然有大量的文本知識(shí)尚未被數(shù)字化。而且，也許在很多發(fā)達(dá)地區(qū)很多數(shù)據(jù)已經(jīng)被數(shù)字化了，但其中大部分都不是公開的。

比如說，有大量的醫(yī)療數(shù)據(jù)就是不公開的，還有很多文化數(shù)據(jù)、世界上很多地區(qū)的歷史數(shù)據(jù)都無法以數(shù)字形式獲取，或者即便有數(shù)字形式也是以掃描文檔的形式存在。所以它并不是可利用的文本之類的東西。

所以我認(rèn)為那種說法不對(duì)，我覺得仍然還有大量的數(shù)據(jù)未被合理利用。

談o1式推理模型

Q：那關(guān)于像o1這樣的自由推理、抽象思維模型呢？我們能期待從您的實(shí)驗(yàn)室中看到類似這樣的成果嗎？

LeCun：從觀察中精心構(gòu)建抽象表征的問題是深度學(xué)習(xí)的關(guān)鍵所在。深度學(xué)習(xí)的核心就在于學(xué)習(xí)表征。

實(shí)際上，深度學(xué)習(xí)領(lǐng)域的一個(gè)主要會(huì)議叫做國際學(xué)習(xí)表征會(huì)議（ICLR），我是這個(gè)會(huì)議的共同創(chuàng)始人之一。這就表明了學(xué)習(xí)抽象表征這個(gè)問題對(duì)于AI整體尤其是對(duì)于深度學(xué)習(xí)來說是多么的核心。

如今，如果你希望一個(gè)系統(tǒng)能夠進(jìn)行推理，你就需要它具備另一套特性。在AI領(lǐng)域，推理或規(guī)劃行為由來已久，自 20世紀(jì)50年代起便有相關(guān)研究，其經(jīng)典模式是要找到一種搜索問題解決方案的方法。

比如說，如果我給你一份城市列表，然后讓你找出經(jīng)過所有這些城市的最短路線。那么，你就會(huì)思考，我應(yīng)該從相鄰的城市開始走，這樣我的總行程才會(huì)盡可能短。

現(xiàn)在，存在一個(gè)由所有可能路線構(gòu)成的空間，也就是所有城市排列順序的集合。這是一個(gè)非常龐大的空間，像在GPS之類的算法中，它們搜索路徑的方式就是在所有可能的路徑中尋找最短的那一條。所有的推理系統(tǒng)都是基于這種搜索的理念。

也就是說，在一個(gè)由可能的解決方案構(gòu)成的空間里，你去搜索那個(gè)符合你所期望目標(biāo)的方案。

目前的系統(tǒng)，比如現(xiàn)有的大語言模型，它們進(jìn)行這種搜索的方式還非常原始，它們是在所謂的token空間中進(jìn)行搜索，也就是輸出空間。所以基本上，它們讓系統(tǒng)或多或少隨機(jī)地生成大量不同的token序列，然后再用另一個(gè)神經(jīng)元去查看所有這些假設(shè)的序列，從中找出看起來最好的那個(gè)，然后輸出它。

這是極其耗費(fèi)資源的，因?yàn)檫@需要生成大量的輸出結(jié)果，然后再從中挑選出好的。而且這也不是我們?nèi)祟愃伎嫉姆绞?。我們不是通過生成大量的行為，然后觀察結(jié)果，再判斷哪個(gè)是最好的來進(jìn)行思考的。

比如說，如果我讓你想象在你正前方的空中漂浮著一個(gè)立方體，現(xiàn)在拿起那個(gè)立方體，繞著垂直軸旋轉(zhuǎn)90 度，這樣你就有了一個(gè)旋轉(zhuǎn)了90度的立方體。現(xiàn)在想象這個(gè)立方體，然后告訴我它看起來是否和你旋轉(zhuǎn)之前的原始立方體一樣。答案是肯定的。

因?yàn)槟阒溃瑢?duì)于一個(gè)立方體來說，如果你將它旋轉(zhuǎn)90度，并且你仍然是從相同的視角去看它的話，它看起來就是一樣的。

Q：那是自由推理的錯(cuò)覺嗎？

LeCun：你所做的是在你的思維狀態(tài)中進(jìn)行推理，而不是在你的輸出行為狀態(tài)或行為空間中進(jìn)行推理。

或者說，無論你的輸出狀態(tài)是什么，你是在一個(gè)抽象空間中進(jìn)行推理。

所以我們擁有這些關(guān)于世界的心理模型，這些模型使我們能夠預(yù)測(cè)世界上將會(huì)發(fā)生什么，操控現(xiàn)實(shí)，提前預(yù)知我們行為的后果。如果我們能夠預(yù)測(cè)自己行為的后果，比如將一個(gè)立方體旋轉(zhuǎn)90度之類的事情，那么我們就可以規(guī)劃一系列的行動(dòng)，從而達(dá)成一個(gè)特定的目標(biāo)。

所以，每當(dāng)我們有意識(shí)地去完成一項(xiàng)任務(wù)時(shí)，我們的全部心思都會(huì)集中在上面，然后思考我需要采取怎樣的一系列行動(dòng)，才能做好任何事情。

基本上，我們每天用心去做的每一項(xiàng)這類任務(wù)，都需要進(jìn)行規(guī)劃。而且大多數(shù)時(shí)候，我們是分層級(jí)地進(jìn)行規(guī)劃。

比如說，我們不會(huì)一下子就跳到某個(gè)最終步驟，如果你現(xiàn)在決定從紐約回到華沙，你知道你得先去機(jī)場(chǎng)然后搭乘飛機(jī)?，F(xiàn)在你有了一個(gè)子目標(biāo)，那就是去機(jī)場(chǎng)。這就是分層級(jí)規(guī)劃的意義所在。

在某個(gè)時(shí)候，你會(huì)確定一個(gè)足夠具體且無需再進(jìn)一步規(guī)劃的目標(biāo)，比如從椅子上站起來，你不需要再去規(guī)劃這個(gè)動(dòng)作，因?yàn)槟阋呀?jīng)非常習(xí)慣這么做了，你可以直接就做到，而且你擁有完成這個(gè)動(dòng)作所需的所有信息。

所以，我們需要進(jìn)行分層級(jí)規(guī)劃，智能系統(tǒng)也需要進(jìn)行分層級(jí)規(guī)劃，這個(gè)理念至關(guān)重要。如今，我們還不知道如何讓機(jī)器做到這一點(diǎn)。這是未來幾年里的一個(gè)巨大挑戰(zhàn)。

談DeepSeek和OpenAI星際之門

Q：現(xiàn)在全世界都在談?wù)撔履Ｐ虳eepSeek，它比OpenAI一些模型便宜得多，你難道不覺得木已成舟、大局已定了嗎？你對(duì)此有何看法？

LeCun：有件事必須解釋得非常清楚。如果一項(xiàng)研發(fā)成果被發(fā)表出來，用于產(chǎn)生這項(xiàng)成果的技術(shù)或者相關(guān)的論文、白皮書、報(bào)告之類的也被發(fā)布了出來，并且如果代碼是開源的，全世界都能從中受益。

明白嗎，不只是成果的創(chuàng)造者受益，成果的創(chuàng)造者或創(chuàng)造團(tuán)隊(duì)會(huì)獲得聲譽(yù)以及認(rèn)可，但全世界都能從中受益，這就是開放開源的魅力所在。

就我個(gè)人以及Meta公司整體而言，一直都是開放研究和開源理念的堅(jiān)定支持者。每當(dāng)有一個(gè)踐行開放開源研究的機(jī)構(gòu)產(chǎn)出了成果，整個(gè)開源社區(qū)也會(huì)從中受益。

有人把這描述成了一種競(jìng)爭(zhēng)的態(tài)勢(shì)，但其實(shí)并非如此，這更像是一種合作。

問題在于，我們是否希望這種合作是全球性的，我的答案是肯定的，因?yàn)槿澜绺鱾€(gè)地方都能涌現(xiàn)出好的創(chuàng)意。沒有哪個(gè)機(jī)構(gòu)能壟斷好的創(chuàng)意，這就是為什么開放協(xié)作能讓這個(gè)領(lǐng)域發(fā)展得更快。

現(xiàn)在行業(yè)里有些人過去也曾踐行開放研究然后取得了成功，OpenAI就是這樣的情況。

而Anthropic從來都不是開放的，他們把所有東西都保密。

谷歌則從部分開放逐漸走向基本不開放，比如說他們不會(huì)公開關(guān)于PaLM背后的所有技術(shù)，他們?nèi)匀辉谧龊芏嚅_放研究，但更多的是那種基礎(chǔ)性、長(zhǎng)期性的研究。

我覺得挺遺憾的，因?yàn)楹芏嗳嘶旧习炎约号懦诹耸澜缪芯可鐓^(qū)之外，他們沒有參與進(jìn)來沒有為行業(yè)的進(jìn)步做出貢獻(xiàn)。

過去十年AI領(lǐng)域發(fā)展如此迅速的原因就在于開放研究。不只是我這么認(rèn)為，這不是一種觀點(diǎn)，而是事實(shí)。

讓我舉個(gè)例子。幾乎可以說，整個(gè)AI行業(yè)，至少在研發(fā)階段構(gòu)建系統(tǒng)時(shí)都會(huì)使用一款名為PyTorch的開源軟件。它最初是由我在Meta FAIR實(shí)驗(yàn)室的同事開發(fā)的，后來有更多人參與進(jìn)來。

幾年前，PyTorch的所有權(quán)轉(zhuǎn)移到了Linux 基金會(huì)，Meta是主要的貢獻(xiàn)者，但不再控制它了。它實(shí)際上是由一個(gè)開發(fā)者社區(qū)來管理的，基本上整個(gè)行業(yè)都在使用它，這其中包括OpenAI，也包括很多其他公司。

谷歌有他們自己的軟件，但微軟、英偉達(dá)等公司也都在使用PyTorch，整個(gè)學(xué)術(shù)界和世界范圍內(nèi)的研究也都在使用 PyTorch。

我認(rèn)為在科學(xué)文獻(xiàn)中發(fā)表的所有論文里，大概有70%都提到了PyTorch。所以這說明，AI領(lǐng)域的進(jìn)步是建立在彼此的研究成果之上的。而且，這就是科技進(jìn)步的合理方式。

Q：如果不是DeepSeek的話，那么也許OpenAI的“星際之門”項(xiàng)目（The Stargate Project）會(huì)改變一切嗎？

LeCun：不，不

那我再說說關(guān)于DeepSeek的一點(diǎn)看法，這是很出色的成果，參與其中的團(tuán)隊(duì)有著卓越的想法，他們確實(shí)做出了很棒的工作。

這可不是中國第一次產(chǎn)出非常優(yōu)秀的創(chuàng)新性成果了。我們?cè)缇椭肋@一點(diǎn)，尤其是在計(jì)算機(jī)視覺取得進(jìn)展的領(lǐng)域。

中國在大語言模型方面的貢獻(xiàn)是比較近期才凸顯的，但在計(jì)算機(jī)視覺領(lǐng)域，你看計(jì)算機(jī)視覺頂會(huì)上，很多參會(huì)者都是中國人，他們都是非常優(yōu)秀的科學(xué)家，都是很聰明的人。所以，世界上的任何地區(qū)都無法壟斷好的創(chuàng)意。

DeepSeek的創(chuàng)意也許很快就會(huì)被復(fù)現(xiàn)，但它現(xiàn)在已經(jīng)是世界知識(shí)的一部分了，這就是開源和開放研究的美妙之處。這在產(chǎn)品層面上或許是一種競(jìng)爭(zhēng)，但在基本方法層面上，是一種合作。

現(xiàn)在我們來談?wù)劇靶请H之門”項(xiàng)目。如今，所有涉足AI領(lǐng)域的公司都預(yù)見到了一個(gè)不遠(yuǎn)的未來，在那個(gè)未來里，數(shù)十億人每天都會(huì)想要使用AI助手。

我現(xiàn)在戴著一副眼鏡，我不知道你能不能看到這副眼鏡上有攝像頭，這是Meta的一款產(chǎn)品你可以和它對(duì)話，它連接著一個(gè)AI助手，你可以向它問任何問題，你甚至可以讓它通過攝像頭識(shí)別植物物種之類的東西。

所以我們預(yù)見到的未來是，人們會(huì)戴著智能眼鏡、智能手機(jī)或其它智能設(shè)備，在日常生活中會(huì)一直使用AI助手。

這就意味著，將會(huì)有數(shù)十億的AI助手用戶，而且他們每天會(huì)多次使用這些助手。為此，你需要非常龐大的計(jì)算基礎(chǔ)設(shè)施，因?yàn)檫\(yùn)行一個(gè)大語言模型或任何AI系統(tǒng)，成本都不低，你需要強(qiáng)大的計(jì)算能力。

所以你知道的，Meta今年在基礎(chǔ)設(shè)施方面的投資大約為600-650億美元，主要用于AI領(lǐng)域；微軟已經(jīng)宣布將投資800億美元。

“星際之門”項(xiàng)目計(jì)劃投資5000億美元，但這是在五年或十年內(nèi)的投資，而且我們也不知道這些資金將從何而來，所以這和微軟以及Meta的投資規(guī)模處于同一數(shù)量級(jí)，實(shí)際上并沒有太大的不同。

這不是用于訓(xùn)練大型模型的，實(shí)際上訓(xùn)練大型模型的成本相對(duì)較低，大部分投資是用于推理方面，也就是說，是為了運(yùn)行AI助手來服務(wù)數(shù)十億人。

所以我認(rèn)為，金融市場(chǎng)對(duì)DeepSeek出現(xiàn)的反應(yīng)，說什么“哦，現(xiàn)在我們可以更便宜地訓(xùn)練系統(tǒng)了，所以我們不再需要那么多計(jì)算機(jī)”，這種說法是錯(cuò)誤的。

我的意思是，訓(xùn)練只是會(huì)變得更高效一些，但結(jié)果是我們只會(huì)去訓(xùn)練更大規(guī)模的模型。而且最終大部分的基礎(chǔ)設(shè)施建設(shè)和大部分的投資實(shí)際上都用在運(yùn)行模型上，而不是訓(xùn)練模型。這才是投資的方向所在。

原視頻鏈接：https://www.youtube.com/watch?v=RUnFgu8kH-4

責(zé)任編輯：張燕妮來源：量子位