馬斯克「世界模擬器」首曝,1天蒸餾人類500年駕駛經(jīng)驗(yàn)!擎天柱同腦進(jìn)化
一個(gè)神經(jīng)網(wǎng)絡(luò)模型,統(tǒng)治了一切。
今天,特斯拉官宣神經(jīng)網(wǎng)絡(luò)「世界模型器」,AI可以直接模擬、合成自動(dòng)駕駛的「孿生世界」。

如下九宮格演示中,特斯拉「世界模擬器」生成了汽車行駛過程中的不同視角。

同時(shí),一些長尾場景,諸如行人橫穿馬路、車輛加塞,AI都可以直接「腦補(bǔ)」生成。

從相同的初始視頻出發(fā),讓模擬中的汽車以對抗性方式形式
以往遇到的挑戰(zhàn)場景,「世界模擬器」能夠在虛擬世界中不斷試煉。

從相同的初始視頻片段(綠色小方塊)開始,模擬會(huì)根據(jù)新的動(dòng)作集發(fā)散到不同狀態(tài)
這種數(shù)據(jù)的合成,還可以通過像玩游戲一樣,在模擬的世界中駕駛。
如下所示,神經(jīng)網(wǎng)絡(luò)成功合成8個(gè)攝像頭、24幀/秒的連續(xù)畫面,一次直出長達(dá)6分鐘的逼真駕駛體驗(yàn),細(xì)節(jié)還原度驚人。

通過調(diào)配算力,同一模型即可實(shí)時(shí)模擬世界
一直以來,馬斯克宣稱,特斯拉所打造「世界模型」是一套共用的AI大腦,并為其配上不同的「身體」——自動(dòng)駕駛汽車、機(jī)器人。
沒錯(cuò),這個(gè)「世界模擬器」所有合成的環(huán)境,同樣可以模擬多種真實(shí)場景,訓(xùn)練擎天柱。


擎天柱正在特斯拉的神經(jīng)網(wǎng)絡(luò)虛擬世界中穿行

擎天柱的各種不同動(dòng)作,都能精準(zhǔn)地反映在虛擬世界的模擬當(dāng)中
這種無限的絕佳試煉場,正是特斯拉讓FSD和擎天柱,不斷精進(jìn)的秘密武器。


那么,特斯拉「世界模擬器」是如何學(xué)習(xí)、訓(xùn)練,并用于測試的呢?
近來,在ICCV 2025主題演講中,特斯拉AI團(tuán)隊(duì)的負(fù)責(zé)人Ashok Elluswamy揭開了內(nèi)幕。
一個(gè)神經(jīng)網(wǎng)絡(luò)大腦,兩個(gè)身體
眾所周知,特斯拉利用一個(gè)「端到端」的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)自動(dòng)駕駛。
這個(gè)端到端網(wǎng)絡(luò)處理來自多個(gè)攝像頭、車輛速度等運(yùn)動(dòng)學(xué)信號、音頻、地圖及導(dǎo)航信息,最終生成控制車輛行駛的指令。

選擇「端到端」這條技術(shù)路線,意味著什么?
要理解特斯拉在做什么,我們首先得知道,自動(dòng)駕駛領(lǐng)域存在著兩條截然不同的技術(shù)路線。
第一條路,也是絕大多數(shù)公司選擇的路,可以稱之為「模塊化」的方法。這種方法將駕駛?cè)蝿?wù)拆解成幾個(gè)獨(dú)立的步驟:
- 感知(Perception):利用激光雷達(dá)、高清攝像頭等傳感器,識別出道路上的所有物體——這是車,那是人,這是一條車道線。
- 預(yù)測(Prediction):利用感知數(shù)據(jù),預(yù)測這些物體的下一步動(dòng)向——那輛車可能會(huì)變道,那個(gè)行人可能會(huì)過馬路。
- 規(guī)劃(Planning):根據(jù)預(yù)測結(jié)果,規(guī)劃出自己車輛的最佳行駛路徑——應(yīng)該減速,還是應(yīng)該繞行。
這種方式的好處顯而易見:分工明確,每個(gè)模塊都可以獨(dú)立開發(fā)和調(diào)試,在項(xiàng)目初期更容易上手。

第二條路,也是特斯拉所選擇的:是「端到端」(End-to-End)神經(jīng)網(wǎng)絡(luò)。
在特斯拉的系統(tǒng)中,不存在獨(dú)立的感知、預(yù)測和規(guī)劃模塊,只有一個(gè)龐大而統(tǒng)一的神經(jīng)網(wǎng)絡(luò)。
這個(gè)網(wǎng)絡(luò)的「輸入端」,是車輛攝像頭捕捉到的原始像素畫面、車輛自身的速度、音頻、地圖導(dǎo)航信息等一切原始數(shù)據(jù);
這也是特斯拉一直以來,所推崇的「純視覺」方案。
而它的「輸出端」,則直接是兩個(gè)指令:轉(zhuǎn)動(dòng)方向盤的角度,和踩下油門/剎車的力度。

在特斯拉看來,與依賴激光雷達(dá)等昂貴傳感器的「模塊化」(感知、預(yù)測、規(guī)劃分立)方案相比,端到端方案擁有根本性優(yōu)勢:
1. 學(xué)習(xí)人類價(jià)值觀
復(fù)雜的現(xiàn)實(shí)路況充滿了「迷你電車難題」,這些權(quán)衡難以用代碼規(guī)則窮舉,但可以從海量的人類駕駛數(shù)據(jù)中隱式學(xué)習(xí)。

舉個(gè)栗子,在下面的場景中,AI需要決定是直接碾過前方一大片水洼,還是借道對向車道。
通常來說,突然駛?cè)肓硪粋?cè)車道會(huì)存在一定的危險(xiǎn)。
傳統(tǒng)的「模塊化」系統(tǒng)會(huì)在這里陷入邏輯沖突。
它的程序里可能有兩條寫死的規(guī)則:「規(guī)則A:絕對不能駛?cè)雽ο蜍嚨馈购汀敢?guī)則B:避免駛過障礙物(如此大的水坑)」。
當(dāng)兩條規(guī)則沖突時(shí),系統(tǒng)該如何抉擇?
但眼下能見度足夠高,在可預(yù)見的未來未來不會(huì)有對向車輛駛來;其次,水坑比較大,最好是避開。
而這種權(quán)衡,很難用傳統(tǒng)編程邏輯描述出來,但人看一眼就知道該怎么做了。

這只是經(jīng)典「迷你電車難題」其中一個(gè)案例,現(xiàn)實(shí)中,自動(dòng)駕駛汽車還會(huì)遇到各種罕見的問題。
AI不是在執(zhí)行規(guī)則,而是在學(xué)習(xí)一種更接近人類價(jià)值觀的判斷方式。
2. 消除模塊間的信息損失
在傳統(tǒng)方案中,感知、預(yù)測和規(guī)劃模塊之間的接口難以明確界定。
而在端到端系統(tǒng)中,梯度能夠從最終的控制指令一直反向傳播至傳感器輸入,從而對整個(gè)網(wǎng)絡(luò)進(jìn)行整體性優(yōu)化。
如下兩段路況:一個(gè)是雞群要過馬路,另一個(gè)是鵝群在路中間溜達(dá)。
若在「感知」和「規(guī)劃」這兩個(gè)模塊之間,建立一套明確的判斷規(guī)則(本體論ontology)非常困難。
對于模塊化系統(tǒng),「感知」模塊可能會(huì)給「規(guī)劃」模塊傳遞這樣的信息:「識別到一群鳥類」。
但這種信息是冰冷的。
這群鳥的「意圖」——一種微妙、難以量化的信息——在模塊之間的傳遞過程中很容易丟失。
「規(guī)劃」模塊無法知道,它應(yīng)該為這群雞減速讓行,還是可以安全地繞過這群鵝。

一群雞正在路邊,看起來有要過馬路的意圖;FSD停車等待

一群鵝在路邊,但它們只是想待在原地;FSD直接繞行
在「端到端」的網(wǎng)絡(luò)里,不存在這種信息傳遞的壁壘。
整個(gè)網(wǎng)絡(luò)作為一個(gè)整體,直接從像素中理解了「雞要過馬路」和「鵝想待著」這兩種不同的「軟意圖」(soft intent),并直接輸出減速或繞行的駕駛行為。
從輸入到輸出,信息是完整流動(dòng)的,不存在中間環(huán)節(jié)的損耗。
正是基于這些原因,特斯拉選擇了「端到端」這條路。當(dāng)然,也伴隨著巨大的挑戰(zhàn)。
3. 可擴(kuò)展性與簡潔性
它能更好地處理現(xiàn)實(shí)世界中無窮無盡的「長尾問題」,并且計(jì)算架構(gòu)統(tǒng)一,延遲確定。
4. Scaling Law的延續(xù)
總體而言,這更符合「苦澀的教訓(xùn)」(The Bitter Lesson)所揭示的規(guī)律——即強(qiáng)大的通用方法和海量算力,最終將超越復(fù)雜的人工設(shè)計(jì)。
正是因?yàn)樯厦孢@些原因,以及其更多其他的考量,特斯拉才選擇了「端到端」架構(gòu)來做自動(dòng)駕駛。
不過話說回來,要打造這樣的系統(tǒng),還得克服不少難題。
20億token輸入,跳出「維度詛咒」
在真實(shí)世界中,一個(gè)安全的自動(dòng)駕駛系統(tǒng),需要處理高幀率、高分辨率、長時(shí)間序列的輸入信息。
特斯拉算了一筆賬:
- 7個(gè)攝像頭×36幀/秒×500萬像素×30秒歷史數(shù)據(jù)
- 未來幾英里的導(dǎo)航地圖和路線
- 100 Hz車輛動(dòng)態(tài)數(shù)據(jù),如速度、慣性測量單元(IMU)、里程計(jì)等
- 48 KHz音頻數(shù)據(jù)
如果將這些輸入token拆分成最小的「信息單元」,比如每個(gè)圖像塊是5x5像素,token總數(shù)將高達(dá)20億個(gè)。
神經(jīng)網(wǎng)絡(luò)的任務(wù),就是在這20億個(gè)輸入信息單元中,找到正確的因果關(guān)系,并最終將其壓縮成2個(gè)token——方向盤和加減速。
這是一個(gè)極其棘手的問題,AI很容易在如此海量的數(shù)據(jù)中,學(xué)到錯(cuò)誤的、偶然的「相關(guān)性」,而非真正的「因果性」。
特斯拉的解法簡單粗暴:用巨大的數(shù)據(jù)量來解決問題。
他們坐擁一個(gè)數(shù)據(jù)寶庫,其車隊(duì)每天能產(chǎn)生相當(dāng)于人類500年駕駛時(shí)長的海量數(shù)據(jù)。
負(fù)責(zé)人Ashok Elluswamy將其稱之為,「Niagara Falls of data」。當(dāng)然,并非所有數(shù)據(jù)都有用。
因此,特斯拉建立了一套復(fù)雜的「數(shù)據(jù)引擎」流水線,從海量視頻中自動(dòng)篩選出最有趣、最罕見、最高質(zhì)量的學(xué)習(xí)樣本。

當(dāng)AI學(xué)習(xí)了足夠多這樣的「疑難雜癥」數(shù)據(jù)后,它就能展現(xiàn)出驚人的泛化能力。
比如在一個(gè)雨天路滑的場景中,AI在前方車輛還未明顯失控時(shí),就提前開始減速。
它理解到:下雨、前車可能打滑、撞上護(hù)欄后可能反彈回車道……這種對「二階效應(yīng)」的預(yù)判,只有在見過足夠多復(fù)雜情況后才能學(xué)會(huì)。

FSD思維過程揭開,全憑攝像頭
「端到端」系統(tǒng)最大的詬病在于——「黑箱」特性。
如果車輛做出了一個(gè)奇怪的舉動(dòng),工程師如何知道是哪里出了問題?
Ashok認(rèn)為,這個(gè)「黑箱」其實(shí)可以被打開。
特斯拉神經(jīng)網(wǎng)絡(luò)在輸出最終駕駛指令的同時(shí),也能輸出可供人類理解的「中間token」(Intermediate Tokens)。
這些token可以被看作是AI的「思考過程」,也是人們常說的CoT。

完整架構(gòu)與可解釋性輸出
其中一項(xiàng)最直觀的技術(shù),叫做「生成式高斯?jié)姙R」(Generative Gaussian Splatting)。
車輛在行駛過程中,軌跡通常是線性的,導(dǎo)致視角變化不足,用傳統(tǒng)方法重建3D模型質(zhì)量不高。
尤其是,在新視角下更容易失真。
此外,3D高斯?jié)姙R還需要以來,其他pipeline良好的初始化,整體優(yōu)化時(shí)間可能長達(dá)數(shù)分鐘。
另一方面,它還具備了出色的泛化能力。
無需初始化,全程運(yùn)行時(shí)間僅約220毫秒,能夠?qū)?dòng)態(tài)物體進(jìn)行建模,還能和端到端大模型聯(lián)合訓(xùn)練。
最厲害的是,所有這些高斯點(diǎn),都基于車上配置的攝像頭生成。

特斯拉神經(jīng)網(wǎng)絡(luò)生成的高斯?jié)姙R渲染的新視角

由攝像頭視頻(上),生成的特斯拉生成式高斯模型(下)
此外,AI還能用自然語言解釋它的決策。這套系統(tǒng)已經(jīng)在FSD v14.x版本中部分運(yùn)行。

自然語言推理
世界模擬器,AI無限試錯(cuò)
最后一個(gè),也是最難的挑戰(zhàn)是——評估。
一個(gè)訓(xùn)好的自動(dòng)駕駛系統(tǒng),若在真實(shí)道路上測試,既危險(xiǎn)又緩慢。
即使AI在歷史數(shù)據(jù)上表現(xiàn)完美,也不意味著它能在真實(shí)世界中應(yīng)對自如。
為此,特斯拉亮出了終極武器:一個(gè)完全由神經(jīng)網(wǎng)絡(luò)構(gòu)成的「世界模擬器」。

這個(gè)模擬器和駕駛AI一樣,也是用海量真實(shí)世界數(shù)據(jù)訓(xùn)練出來的。
但它的功能不同:它不是根據(jù)當(dāng)前狀態(tài)預(yù)測「下一步該怎么開」,而是根據(jù)「當(dāng)前狀態(tài)」和「一個(gè)駕駛動(dòng)作」,來生成「下一秒世界會(huì)變成什么樣」。
這個(gè)模擬器能以極高的保真度,實(shí)時(shí)生成車輛所有攝像頭應(yīng)該看到的畫面。它就像一個(gè)由AI創(chuàng)造的、無限逼真的駕駛視頻游戲。
如前所述,這個(gè)「世界模擬器」的威力在于:
- 閉環(huán)評估:可以將新的駕駛AI模型放入這個(gè)模擬世界中,讓它自由駕駛,評估其長期表現(xiàn)。
- 情景再現(xiàn)與修改:可以截取一段真實(shí)發(fā)生的危險(xiǎn)場景,讓AI在這個(gè)模擬世界里用不同的方式重新應(yīng)對一次,看看結(jié)果是否會(huì)更好。
- 創(chuàng)造對抗性場景:可以人為地在模擬世界中創(chuàng)造出極端、罕見的危險(xiǎn)情況,比如讓一輛車突然做出不合常理的舉動(dòng)),專門測試AI的應(yīng)對極限。

真正的終局:人形機(jī)器人
講到這里,你會(huì)發(fā)現(xiàn),特斯拉的野心早已超越了「造車」。
汽車,只是他們收集數(shù)據(jù)的觸手,和這套AI系統(tǒng)的第一個(gè)應(yīng)用載體。他們真正打造的,是一套可以解決通用物理世界交互問題的底層AI引擎。

最好的證據(jù)是,這套系統(tǒng)已經(jīng)無縫遷移到了他們的另一個(gè)人形機(jī)器人項(xiàng)目——擎天柱(Optimus)上。
為FSD打造的「世界模擬器」,同樣可以為擎天柱生成在工廠里漫步的場景,測試和訓(xùn)練它在物理世界中的導(dǎo)航與交互能力。

而這,才是特斯拉自動(dòng)駕駛故事背后,那個(gè)更宏大、也更激動(dòng)人心的未來。































