LeCun怒揭機(jī)器人最大騙局,坦白Llama與我無瓜!
人形機(jī)器人,也成為了AI圈最大的騙局?
最近在MIT的一場(chǎng)講座中,Meta首席AI科學(xué)家LeCun一語道破了機(jī)器人界最大的秘密——
這些公司壓根不知道,如何讓機(jī)器人變得足夠「聰明」,或是說達(dá)到通用智能的程度。
家用機(jī)器人的實(shí)現(xiàn),還需要AI領(lǐng)域取得一系列突破。

機(jī)器人在工廠里擰螺絲、搬貨等,可通過特定任務(wù)訓(xùn)練實(shí)現(xiàn),但讓它們?cè)诩抑携B衣服、倒水、理解人的意圖,還很難。
他將這種差距,比作「窄智能」和「通用智能」的鴻溝。
而突破的核心,在于打造一款真正可以規(guī)劃的「世界模型」架構(gòu),即能夠?qū)W習(xí)理解和預(yù)測(cè)物理世界系統(tǒng)。
誰曾想,LeCun這番話再次捅了「馬蜂窩」,直接給這場(chǎng)狂熱潑了一盆冷水,引機(jī)器人界大佬上陣怒噴。
特斯拉Optimus AI負(fù)責(zé)人Julian Ibarz直言,我不同意LeCun的觀點(diǎn)。
在內(nèi)部,特斯拉對(duì)于如何快速實(shí)現(xiàn)通用人形機(jī)器人,已經(jīng)有了非常明確的思路。
圖片
Figure創(chuàng)始人Brett Adcock直接喊話,「誰去和LeCun說一聲,讓他別端著了,親自下場(chǎng)干點(diǎn)實(shí)事吧」!
圖片
Yann LeCun:LLM只是記憶力好,智商還不如貓
Yann LeCun一直領(lǐng)先于時(shí)代的主流認(rèn)知,但好像每次都是對(duì)的。
在1987年,他在現(xiàn)在的索邦大學(xué)(Sorbonne)獲得博士學(xué)位,論文英文標(biāo)題是《Connectionist Learning Models》「連接主義學(xué)習(xí)模型」。
圖片
論文的核心是建立了神經(jīng)網(wǎng)絡(luò)中反向傳播算法的理論基礎(chǔ)。
而在當(dāng)時(shí),大多數(shù)人還在研究專家系統(tǒng)。
圖片
他怎么想到這個(gè)研究方向的?這又如何影響了他以后的職業(yè)發(fā)展?
在MIT演講中,Yann LeCun回顧了他如何踏上人工智能研究之路。
圖片
上大學(xué)時(shí),他有點(diǎn)偶然地發(fā)現(xiàn),原來早在50-60年代,包括1981年諾獎(jiǎng)得主David H. Hubel和Torsten N. Wiesel等人,就已經(jīng)開始思考「自組織」的問題——也就是系統(tǒng)如何自我組織學(xué)習(xí)。
圖片
這一方向后來催生了「機(jī)器可以學(xué)習(xí)」的早期想法。
他覺得這個(gè)想法特別迷人,而且當(dāng)時(shí)他「初生牛犢不怕虎」——
我一直認(rèn)為,生物學(xué)給工程提供了很多靈感。在自然界中,所有活著的東西都有適應(yīng)能力,只要有神經(jīng)系統(tǒng)就能學(xué)習(xí)。
所以,我當(dāng)時(shí)想,也許我們?nèi)祟悰]那么聰明,構(gòu)建智能系統(tǒng)最靠譜的方法,可能是讓它自己學(xué)會(huì)變聰明。
也許,正是這種「愣頭青」的心態(tài)讓他走上了機(jī)器學(xué)習(xí)這條路。
他坦言,當(dāng)時(shí)「機(jī)器學(xué)習(xí)」不是AI研究的主流。
由于當(dāng)時(shí)幾乎無人從事相關(guān)研究,他一度難以找到博士導(dǎo)師。
之后,他與Geoffrey Hinton合作,隨后進(jìn)入貝爾實(shí)驗(yàn)室Bell Labs與紐約大學(xué)NYU任職。
人工智能領(lǐng)域在1990至2000年代經(jīng)歷「寒冬」,但2013年LeCun加入Facebook,創(chuàng)立FAIR(Facebook AI Research),并推動(dòng)「深度學(xué)習(xí)」這一術(shù)語取代「神經(jīng)網(wǎng)絡(luò)」,標(biāo)志著產(chǎn)業(yè)界開始系統(tǒng)性地接受這一范式。
圖片
2018年,因在概念與工程領(lǐng)域的突破性貢獻(xiàn),他讓深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算技術(shù)的關(guān)鍵組成部分,和Bengio、Hinton共享圖靈獎(jiǎng)。
順便提一句,Yann LeCun訪問清華大學(xué)時(shí),確定了自己的中文名「楊立昆」。
圖片
但這次,Yann LeCun直言:「LLM就是一條死胡同,世界模型才是正道」。
他指出,文本屬于「低帶寬」數(shù)據(jù)源,「僅靠文本訓(xùn)練永遠(yuǎn)無法實(shí)現(xiàn)人類水平智能」。真正的智能來源于高帶寬的感知輸入——視覺、聽覺、觸覺等多模態(tài)經(jīng)驗(yàn),而非低維度的離散符號(hào)。
他將大語言模型訓(xùn)練所需的數(shù)萬億標(biāo)記詞元,與兒童處理的海量感官數(shù)據(jù)進(jìn)行對(duì)比:
四歲兒童通過視覺接收的數(shù)據(jù)量,已相當(dāng)于所有公開文本訓(xùn)練的最大規(guī)模LLM的數(shù)據(jù)量。
他進(jìn)一步指出,LLM有時(shí)雖能提供實(shí)用的結(jié)果,甚至讓人誤以為其「智商堪比博士」,但這些系統(tǒng)只是「回憶」訓(xùn)練中的信息。
LeCun指出,大語言模型(LLM)存在本質(zhì)瓶頸——雖然形式上通過「學(xué)習(xí)」取代了顯式編碼,但仍依賴人類知識(shí)的間接轉(zhuǎn)移。
LLM不具備任何真實(shí)意義上的智能——甚至不如一只貓。
他強(qiáng)調(diào),即便貓的大腦僅含約2.8億個(gè)神經(jīng)元,其對(duì)物理世界的理解與行動(dòng)規(guī)劃能力仍遠(yuǎn)超當(dāng)前AI系統(tǒng)。
貓能感知三維空間、判斷物體穩(wěn)定性、規(guī)劃復(fù)雜動(dòng)作,而目前的所有生成式模型恰恰無法企及這些能力。
因此,他真正關(guān)注的問題是:如何讓機(jī)器學(xué)會(huì)物理世界的模型?
有點(diǎn)腦子的人,不再用LLM
世界模型,已成為L(zhǎng)eCun的代名詞。
對(duì)談中,他再次給「世界模型」下了一個(gè)定義——
給到一個(gè)時(shí)刻t的世界狀態(tài),再給定一個(gè)智能體可能的動(dòng)作,預(yù)測(cè)動(dòng)作執(zhí)行后的環(huán)境。
就好比,讓一個(gè)機(jī)器人沖一杯咖啡,它需要想象一系列動(dòng)作——拿起杯子、倒水、攪拌,并預(yù)測(cè)每一步的結(jié)果。
圖片
一旦系統(tǒng)配備了這樣的世界模型,就可以進(jìn)行規(guī)劃:
設(shè)想一系列連續(xù)的動(dòng)作,并利用模型預(yù)測(cè)這些動(dòng)作所導(dǎo)致的結(jié)果。
同時(shí),系統(tǒng)可結(jié)合一個(gè)「代價(jià)函數(shù)」(cost function),用于評(píng)估特定任務(wù)的完成情況。
在此基礎(chǔ)上,可運(yùn)用優(yōu)化方法,搜索能夠優(yōu)化任務(wù)目標(biāo)的最優(yōu)動(dòng)作序列,這一過程即為「規(guī)劃與最優(yōu)控制」。
LeCun稱,團(tuán)隊(duì)所采用的「環(huán)境動(dòng)力學(xué)模型」完全通過自監(jiān)督學(xué)習(xí)的,也是當(dāng)前方法的核心所在。
實(shí)驗(yàn)已證明,可以用世界狀態(tài)的表示——來自現(xiàn)有模型DINO,無論是從零開始學(xué)習(xí),還是基于V-JEPA 2等框架,都可以做到這一點(diǎn)。
機(jī)器人不用針對(duì)特定任務(wù)反復(fù)訓(xùn)練,只需從模擬數(shù)據(jù)或真實(shí)操作中學(xué)習(xí)「動(dòng)作-結(jié)果」的關(guān)系,就能零樣本完成新任務(wù)。
這種訓(xùn)練完全是自監(jiān)督的。
當(dāng)系統(tǒng)有足夠好的世界模型,便能「想象」如何完成一個(gè)它從未被訓(xùn)練過的任務(wù)。
圖片
這一概念,在2016 NeurIPS大會(huì)主題演講中,LeCun早已向世界傳輸——
世界模型,會(huì)成為未來AI系統(tǒng)的關(guān)鍵組件。
LeCun預(yù)測(cè),「未來3-5年內(nèi),這會(huì)成為AI架構(gòu)的主流模型」。
這話可讓我在硅谷得罪了不少人,包括某些巨頭公司。
到那時(shí)候,但凡頭腦清醒的人,都不會(huì)再用現(xiàn)在這種生成式LLM的路子了。
圖片
主持緊接著問道,所以這能推動(dòng)機(jī)器人技術(shù),讓未來這十年真正成為機(jī)器人的時(shí)代?
LeCun直言不諱,過去幾年,打造「類人機(jī)器人」的初創(chuàng)公司如雨后春筍般涌現(xiàn)。
但行業(yè)的一大秘密是——它們還不知道如何讓機(jī)器人真正「聰明」到實(shí)用級(jí)別。
所以很多估值數(shù)十億公司的未來,基本上取決于是否能在「世界模型+規(guī)劃」的架構(gòu)上取得顯著進(jìn)展。
LeCun越說越激動(dòng),觀點(diǎn)顯然有些「生猛」。
主持人一聽,馬上話鋒一轉(zhuǎn)打了個(gè)圓場(chǎng),「沒關(guān)系,我們不擔(dān)心那些公司。而且說真的,我們非常信奉創(chuàng)業(yè)精神」。
產(chǎn)業(yè)界在行動(dòng):機(jī)器人的世界模型
Yann LeCun的「冷靜」,與多位行業(yè)領(lǐng)袖所鼓吹的激進(jìn)時(shí)間表形成了鮮明對(duì)比。
Figure AI表現(xiàn)得尤為激進(jìn),其CEO Brett Adcock近期宣稱:
明年就能實(shí)現(xiàn)通過語音指令,讓人形機(jī)器人在陌生環(huán)境(比如從未進(jìn)入的家庭)完成各類通用工作。
圖片
這位創(chuàng)始人解釋稱,其信心源自公司對(duì)軟件與智能難題的攻關(guān)。
人形機(jī)器人擁有40個(gè)自由度(關(guān)節(jié)),可能產(chǎn)生的位姿組合數(shù)量甚至超過宇宙原子總數(shù)。
Brett Adcock強(qiáng)調(diào)「這個(gè)問題無法通過編程解決,唯一途徑是神經(jīng)網(wǎng)絡(luò)」。
他將Figure的技術(shù)路徑與同行對(duì)比,直言某些公開演示只是「戲劇表演」或預(yù)設(shè)程序。相反,F(xiàn)igure機(jī)器人的所有操作都「由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)」。
圖片
耐人尋味的是,在一個(gè)關(guān)鍵問題上的判斷與Yann LeCun不謀而合:他也否認(rèn)制造業(yè)是主要突破方向,并指出「人形機(jī)器人當(dāng)前的競(jìng)爭(zhēng)焦點(diǎn)在于誰能攻克通用機(jī)器人技術(shù)」。
雙方的核心分歧似乎在于——這個(gè)目標(biāo)離我們究竟有多近。
與此同時(shí),特斯拉正從另一個(gè)角度攻克難題。
馬斯克始終聚焦「極其艱巨」的制造挑戰(zhàn),指出人形機(jī)器人規(guī)模量產(chǎn)「所需的供應(yīng)鏈尚不存在」。
圖片
據(jù)報(bào)道,特斯拉正在建設(shè)年產(chǎn)百萬臺(tái)Optimus機(jī)器人的生產(chǎn)線,目標(biāo)在2026年初推出具備「量產(chǎn)意向」的V3原型機(jī)。
然而專注制造并不意味特斯拉忽視AI難題。
在最近的計(jì)算機(jī)視覺頂會(huì)ICCV,特斯拉AI負(fù)責(zé)人Ashok Elluswamy詳細(xì)介紹了公司的「神經(jīng)世界模擬器」——一個(gè)通過車隊(duì)視頻數(shù)據(jù)訓(xùn)練的端到端系統(tǒng)。
圖片
不同于傳統(tǒng)模型根據(jù)狀態(tài)預(yù)測(cè)動(dòng)作,神經(jīng)世界模擬器能夠基于當(dāng)前狀態(tài)與后續(xù)動(dòng)作,直接合成未來狀態(tài)。
這種機(jī)制使得模擬器可與智能體或策略AI模型形成閉環(huán)連接,從而實(shí)現(xiàn)對(duì)系統(tǒng)性能的精準(zhǔn)評(píng)估。
圖片
Elluswamy確認(rèn),這套被視作世界模型問題直接解決方案的架構(gòu),將「無縫遷移」至Optimus機(jī)器人。
圖片
Yann LeCun的論斷看似否定了整個(gè)人形機(jī)器人領(lǐng)域,但已有企業(yè)公開將其研發(fā)方向與他倡導(dǎo)的「世界模型」概念對(duì)齊。
獲得OpenAI投資的挪威公司1X Technologies,近期發(fā)布了自研「世界模型」。
圖片
傳送門:https://www.1x.tech/1x-world-model.pdf
如圖所示,1X世界模型包含視覺編碼器、動(dòng)作編碼器、核心網(wǎng)絡(luò),以及視頻與狀態(tài)價(jià)值解碼器。通過對(duì)成功標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí)生成的狀態(tài)價(jià)值預(yù)測(cè),可對(duì)輸入動(dòng)作的質(zhì)量進(jìn)行量化評(píng)估。
圖片
1X世界模型的獨(dú)特優(yōu)勢(shì)在于:允許從相同初始條件出發(fā),并行部署不同策略進(jìn)行直接對(duì)比。
1X團(tuán)隊(duì)在現(xiàn)實(shí)部署方面的審慎態(tài)度與LeCun不謀而合。
圖片
首席執(zhí)行官Bernt B?rnich在播客中坦言,讓機(jī)器人進(jìn)入家庭存在「理想與現(xiàn)實(shí)的落差」,指出「現(xiàn)實(shí)環(huán)境復(fù)雜得離譜」,甚至「Wi-Fi連接問題比機(jī)器人技術(shù)本身更棘手」。
這種務(wù)實(shí)立場(chǎng),結(jié)合其輕量級(jí)肌腱驅(qū)動(dòng)設(shè)計(jì)所帶來的安全性優(yōu)勢(shì),暗示著行業(yè)清醒認(rèn)識(shí)到:Yann LeCun所說的「突破性進(jìn)展」仍需要持續(xù)探索。
Yann LeCun的警告,最終重新定義了人形機(jī)器人競(jìng)賽的維度:勝利者,或許不屬于推出最炫酷demo或設(shè)定最激進(jìn)量產(chǎn)目標(biāo)的廠商,而將屬于那個(gè)率先攻克機(jī)器理解物理世界這一根本性難題的探索者。
彩蛋:Llama與我無瓜
全程半小時(shí)演講中,還有一個(gè)大彩蛋。
Meta血裁AI部門研究員掀全網(wǎng)風(fēng)暴之外,LeCun卻一直對(duì)外撇清自己和Llama的關(guān)系。
幾天前,他曾表示,自己并未參與任何Llama項(xiàng)目。
圖片
這一次,LeCun在演講中再一次強(qiáng)調(diào),「我并沒從技術(shù)層面上,參與Llama的項(xiàng)目」。
圖片
搞笑的是,主持人前一句還在夸「Llama的誕生讓世界AI民主化」,話音還沒落,LeCun就在旁邊急著插話——
我要坦白!
圖片
接著,他分享了幕后故事,「第一代Llama,其實(shí)有一點(diǎn)像『海盜』項(xiàng)目(pirate project),與官方LLM并行開發(fā)」。
大概2022年中后期,巴黎一個(gè)十來人的小組,決定做一個(gè)輕量高效的LLM,結(jié)果真做出來了。
沒想到,它后來成為了「主力選手」。
最后,在2023年初,小扎下定決心組建了一個(gè)GenAI團(tuán)隊(duì),也就如今的「超級(jí)智能實(shí)驗(yàn)室」(MSL)的前身,主要就是為了把它產(chǎn)品化。
但在技術(shù)上,我個(gè)人確實(shí)沒怎么插手。
圖片
LeCun最后再一次重復(fù)——Llama與我無瓜,就差把它寫在臉上了。
現(xiàn)場(chǎng),主持人再次圓話,「但最后能跑出來的,往往還是『臭鼬工廠』(Skunk Works)這種模式」。

























