偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

馬斯克「世界模擬器」首曝,1天蒸餾人類500年駕駛經(jīng)驗(yàn)!擎天柱同腦進(jìn)化

人工智能 新聞
馬斯克的終極設(shè)想,正在成形。今天,特斯拉放出了「世界模擬器」震撼演示。一個(gè)神經(jīng)網(wǎng)絡(luò),每天狂吞500年人類駕駛經(jīng)驗(yàn),并在無限的虛擬世界中自我進(jìn)化。同款A(yù)I大腦,擎天柱也可共用。

一個(gè)神經(jīng)網(wǎng)絡(luò)模型,統(tǒng)治了一切。

今天,特斯拉官宣神經(jīng)網(wǎng)絡(luò)「世界模型器」,AI可以直接模擬、合成自動(dòng)駕駛的「孿生世界」。

如下九宮格演示中,特斯拉「世界模擬器」生成了汽車行駛過程中的不同視角。

同時(shí),一些長尾場景,諸如行人橫穿馬路、車輛加塞,AI都可以直接「腦補(bǔ)」生成。

從相同的初始視頻出發(fā),讓模擬中的汽車以對抗性方式形式

以往遇到的挑戰(zhàn)場景,「世界模擬器」能夠在虛擬世界中不斷試煉。

從相同的初始視頻片段(綠色小方塊)開始,模擬會(huì)根據(jù)新的動(dòng)作集發(fā)散到不同狀態(tài)

這種數(shù)據(jù)的合成,還可以通過像玩游戲一樣,在模擬的世界中駕駛。

如下所示,神經(jīng)網(wǎng)絡(luò)成功合成8個(gè)攝像頭、24幀/秒的連續(xù)畫面,一次直出長達(dá)6分鐘的逼真駕駛體驗(yàn),細(xì)節(jié)還原度驚人。

通過調(diào)配算力,同一模型即可實(shí)時(shí)模擬世界

一直以來,馬斯克宣稱,特斯拉所打造「世界模型」是一套共用的AI大腦,并為其配上不同的「身體」——自動(dòng)駕駛汽車、機(jī)器人。

沒錯(cuò),這個(gè)「世界模擬器」所有合成的環(huán)境,同樣可以模擬多種真實(shí)場景,訓(xùn)練擎天柱。

擎天柱正在特斯拉的神經(jīng)網(wǎng)絡(luò)虛擬世界中穿行

擎天柱的各種不同動(dòng)作,都能精準(zhǔn)地反映在虛擬世界的模擬當(dāng)中

這種無限的絕佳試煉場,正是特斯拉讓FSD和擎天柱,不斷精進(jìn)的秘密武器。

那么,特斯拉「世界模擬器」是如何學(xué)習(xí)、訓(xùn)練,并用于測試的呢?

近來,在ICCV 2025主題演講中,特斯拉AI團(tuán)隊(duì)的負(fù)責(zé)人Ashok Elluswamy揭開了內(nèi)幕。

一個(gè)神經(jīng)網(wǎng)絡(luò)大腦,兩個(gè)身體

眾所周知,特斯拉利用一個(gè)「端到端」的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)自動(dòng)駕駛。

這個(gè)端到端網(wǎng)絡(luò)處理來自多個(gè)攝像頭、車輛速度等運(yùn)動(dòng)學(xué)信號、音頻、地圖及導(dǎo)航信息,最終生成控制車輛行駛的指令。

選擇「端到端」這條技術(shù)路線,意味著什么?

要理解特斯拉在做什么,我們首先得知道,自動(dòng)駕駛領(lǐng)域存在著兩條截然不同的技術(shù)路線。

第一條路,也是絕大多數(shù)公司選擇的路,可以稱之為「模塊化」的方法。這種方法將駕駛?cè)蝿?wù)拆解成幾個(gè)獨(dú)立的步驟:

  • 感知(Perception):利用激光雷達(dá)、高清攝像頭等傳感器,識別出道路上的所有物體——這是車,那是人,這是一條車道線。
  • 預(yù)測(Prediction):利用感知數(shù)據(jù),預(yù)測這些物體的下一步動(dòng)向——那輛車可能會(huì)變道,那個(gè)行人可能會(huì)過馬路。
  • 規(guī)劃(Planning):根據(jù)預(yù)測結(jié)果,規(guī)劃出自己車輛的最佳行駛路徑——應(yīng)該減速,還是應(yīng)該繞行。

這種方式的好處顯而易見:分工明確,每個(gè)模塊都可以獨(dú)立開發(fā)和調(diào)試,在項(xiàng)目初期更容易上手。

第二條路,也是特斯拉所選擇的:是「端到端」(End-to-End)神經(jīng)網(wǎng)絡(luò)。

在特斯拉的系統(tǒng)中,不存在獨(dú)立的感知、預(yù)測和規(guī)劃模塊,只有一個(gè)龐大而統(tǒng)一的神經(jīng)網(wǎng)絡(luò)。

這個(gè)網(wǎng)絡(luò)的「輸入端」,是車輛攝像頭捕捉到的原始像素畫面、車輛自身的速度、音頻、地圖導(dǎo)航信息等一切原始數(shù)據(jù);

這也是特斯拉一直以來,所推崇的「純視覺」方案。

而它的「輸出端」,則直接是兩個(gè)指令:轉(zhuǎn)動(dòng)方向盤的角度,和踩下油門/剎車的力度。

在特斯拉看來,與依賴激光雷達(dá)等昂貴傳感器的「模塊化」(感知、預(yù)測、規(guī)劃分立)方案相比,端到端方案擁有根本性優(yōu)勢:

1. 學(xué)習(xí)人類價(jià)值觀

復(fù)雜的現(xiàn)實(shí)路況充滿了「迷你電車難題」,這些權(quán)衡難以用代碼規(guī)則窮舉,但可以從海量的人類駕駛數(shù)據(jù)中隱式學(xué)習(xí)。

舉個(gè)栗子,在下面的場景中,AI需要決定是直接碾過前方一大片水洼,還是借道對向車道。

通常來說,突然駛?cè)肓硪粋?cè)車道會(huì)存在一定的危險(xiǎn)。

傳統(tǒng)的「模塊化」系統(tǒng)會(huì)在這里陷入邏輯沖突。

它的程序里可能有兩條寫死的規(guī)則:「規(guī)則A:絕對不能駛?cè)雽ο蜍嚨馈购汀敢?guī)則B:避免駛過障礙物(如此大的水坑)」。

當(dāng)兩條規(guī)則沖突時(shí),系統(tǒng)該如何抉擇?

但眼下能見度足夠高,在可預(yù)見的未來未來不會(huì)有對向車輛駛來;其次,水坑比較大,最好是避開。

而這種權(quán)衡,很難用傳統(tǒng)編程邏輯描述出來,但人看一眼就知道該怎么做了。

這只是經(jīng)典「迷你電車難題」其中一個(gè)案例,現(xiàn)實(shí)中,自動(dòng)駕駛汽車還會(huì)遇到各種罕見的問題。

AI不是在執(zhí)行規(guī)則,而是在學(xué)習(xí)一種更接近人類價(jià)值觀的判斷方式。

2. 消除模塊間的信息損失

在傳統(tǒng)方案中,感知、預(yù)測和規(guī)劃模塊之間的接口難以明確界定。

而在端到端系統(tǒng)中,梯度能夠從最終的控制指令一直反向傳播至傳感器輸入,從而對整個(gè)網(wǎng)絡(luò)進(jìn)行整體性優(yōu)化。

如下兩段路況:一個(gè)是雞群要過馬路,另一個(gè)是鵝群在路中間溜達(dá)。

若在「感知」和「規(guī)劃」這兩個(gè)模塊之間,建立一套明確的判斷規(guī)則(本體論ontology)非常困難。

對于模塊化系統(tǒng),「感知」模塊可能會(huì)給「規(guī)劃」模塊傳遞這樣的信息:「識別到一群鳥類」。

但這種信息是冰冷的。

這群鳥的「意圖」——一種微妙、難以量化的信息——在模塊之間的傳遞過程中很容易丟失。

「規(guī)劃」模塊無法知道,它應(yīng)該為這群雞減速讓行,還是可以安全地繞過這群鵝。

一群雞正在路邊,看起來有要過馬路的意圖;FSD停車等待

一群鵝在路邊,但它們只是想待在原地;FSD直接繞行

在「端到端」的網(wǎng)絡(luò)里,不存在這種信息傳遞的壁壘。

整個(gè)網(wǎng)絡(luò)作為一個(gè)整體,直接從像素中理解了「雞要過馬路」和「鵝想待著」這兩種不同的「軟意圖」(soft intent),并直接輸出減速或繞行的駕駛行為。

從輸入到輸出,信息是完整流動(dòng)的,不存在中間環(huán)節(jié)的損耗。

正是基于這些原因,特斯拉選擇了「端到端」這條路。當(dāng)然,也伴隨著巨大的挑戰(zhàn)。

3. 可擴(kuò)展性與簡潔性

它能更好地處理現(xiàn)實(shí)世界中無窮無盡的「長尾問題」,并且計(jì)算架構(gòu)統(tǒng)一,延遲確定。

4. Scaling Law的延續(xù)

總體而言,這更符合「苦澀的教訓(xùn)」(The Bitter Lesson)所揭示的規(guī)律——即強(qiáng)大的通用方法和海量算力,最終將超越復(fù)雜的人工設(shè)計(jì)。

正是因?yàn)樯厦孢@些原因,以及其更多其他的考量,特斯拉才選擇了「端到端」架構(gòu)來做自動(dòng)駕駛。

不過話說回來,要打造這樣的系統(tǒng),還得克服不少難題。

20億token輸入,跳出「維度詛咒」

在真實(shí)世界中,一個(gè)安全的自動(dòng)駕駛系統(tǒng),需要處理高幀率、高分辨率、長時(shí)間序列的輸入信息。

特斯拉算了一筆賬:

  • 7個(gè)攝像頭×36幀/秒×500萬像素×30秒歷史數(shù)據(jù)
  • 未來幾英里的導(dǎo)航地圖和路線
  • 100 Hz車輛動(dòng)態(tài)數(shù)據(jù),如速度、慣性測量單元(IMU)、里程計(jì)等
  • 48 KHz音頻數(shù)據(jù)

如果將這些輸入token拆分成最小的「信息單元」,比如每個(gè)圖像塊是5x5像素,token總數(shù)將高達(dá)20億個(gè)

神經(jīng)網(wǎng)絡(luò)的任務(wù),就是在這20億個(gè)輸入信息單元中,找到正確的因果關(guān)系,并最終將其壓縮成2個(gè)token——方向盤和加減速。

這是一個(gè)極其棘手的問題,AI很容易在如此海量的數(shù)據(jù)中,學(xué)到錯(cuò)誤的、偶然的「相關(guān)性」,而非真正的「因果性」。

特斯拉的解法簡單粗暴:用巨大的數(shù)據(jù)量來解決問題。

他們坐擁一個(gè)數(shù)據(jù)寶庫,其車隊(duì)每天能產(chǎn)生相當(dāng)于人類500年駕駛時(shí)長的海量數(shù)據(jù)。

負(fù)責(zé)人Ashok Elluswamy將其稱之為,「Niagara Falls of data」。當(dāng)然,并非所有數(shù)據(jù)都有用。

因此,特斯拉建立了一套復(fù)雜的「數(shù)據(jù)引擎」流水線,從海量視頻中自動(dòng)篩選出最有趣、最罕見、最高質(zhì)量的學(xué)習(xí)樣本。

當(dāng)AI學(xué)習(xí)了足夠多這樣的「疑難雜癥」數(shù)據(jù)后,它就能展現(xiàn)出驚人的泛化能力。

比如在一個(gè)雨天路滑的場景中,AI在前方車輛還未明顯失控時(shí),就提前開始減速。

它理解到:下雨、前車可能打滑、撞上護(hù)欄后可能反彈回車道……這種對「二階效應(yīng)」的預(yù)判,只有在見過足夠多復(fù)雜情況后才能學(xué)會(huì)。

FSD思維過程揭開,全憑攝像頭

「端到端」系統(tǒng)最大的詬病在于——「黑箱」特性。

如果車輛做出了一個(gè)奇怪的舉動(dòng),工程師如何知道是哪里出了問題?

Ashok認(rèn)為,這個(gè)「黑箱」其實(shí)可以被打開。

特斯拉神經(jīng)網(wǎng)絡(luò)在輸出最終駕駛指令的同時(shí),也能輸出可供人類理解的「中間token」(Intermediate Tokens)。

這些token可以被看作是AI的「思考過程」,也是人們常說的CoT。

完整架構(gòu)與可解釋性輸出

其中一項(xiàng)最直觀的技術(shù),叫做「生成式高斯?jié)姙R」(Generative Gaussian Splatting)。

車輛在行駛過程中,軌跡通常是線性的,導(dǎo)致視角變化不足,用傳統(tǒng)方法重建3D模型質(zhì)量不高。

尤其是,在新視角下更容易失真。

此外,3D高斯?jié)姙R還需要以來,其他pipeline良好的初始化,整體優(yōu)化時(shí)間可能長達(dá)數(shù)分鐘。

另一方面,它還具備了出色的泛化能力。

無需初始化,全程運(yùn)行時(shí)間僅約220毫秒,能夠?qū)?dòng)態(tài)物體進(jìn)行建模,還能和端到端大模型聯(lián)合訓(xùn)練。

最厲害的是,所有這些高斯點(diǎn),都基于車上配置的攝像頭生成。

特斯拉神經(jīng)網(wǎng)絡(luò)生成的高斯?jié)姙R渲染的新視角

由攝像頭視頻(上),生成的特斯拉生成式高斯模型(下)

此外,AI還能用自然語言解釋它的決策。這套系統(tǒng)已經(jīng)在FSD v14.x版本中部分運(yùn)行。

自然語言推理

世界模擬器,AI無限試錯(cuò)

最后一個(gè),也是最難的挑戰(zhàn)是——評估。

一個(gè)訓(xùn)好的自動(dòng)駕駛系統(tǒng),若在真實(shí)道路上測試,既危險(xiǎn)又緩慢。

即使AI在歷史數(shù)據(jù)上表現(xiàn)完美,也不意味著它能在真實(shí)世界中應(yīng)對自如。

為此,特斯拉亮出了終極武器:一個(gè)完全由神經(jīng)網(wǎng)絡(luò)構(gòu)成的「世界模擬器」。

這個(gè)模擬器和駕駛AI一樣,也是用海量真實(shí)世界數(shù)據(jù)訓(xùn)練出來的。

但它的功能不同:它不是根據(jù)當(dāng)前狀態(tài)預(yù)測「下一步該怎么開」,而是根據(jù)「當(dāng)前狀態(tài)」和「一個(gè)駕駛動(dòng)作」,來生成「下一秒世界會(huì)變成什么樣」。

這個(gè)模擬器能以極高的保真度,實(shí)時(shí)生成車輛所有攝像頭應(yīng)該看到的畫面。它就像一個(gè)由AI創(chuàng)造的、無限逼真的駕駛視頻游戲。

如前所述,這個(gè)「世界模擬器」的威力在于:

  • 閉環(huán)評估:可以將新的駕駛AI模型放入這個(gè)模擬世界中,讓它自由駕駛,評估其長期表現(xiàn)。
  • 情景再現(xiàn)與修改:可以截取一段真實(shí)發(fā)生的危險(xiǎn)場景,讓AI在這個(gè)模擬世界里用不同的方式重新應(yīng)對一次,看看結(jié)果是否會(huì)更好。
  • 創(chuàng)造對抗性場景:可以人為地在模擬世界中創(chuàng)造出極端、罕見的危險(xiǎn)情況,比如讓一輛車突然做出不合常理的舉動(dòng)),專門測試AI的應(yīng)對極限。

真正的終局:人形機(jī)器人

講到這里,你會(huì)發(fā)現(xiàn),特斯拉的野心早已超越了「造車」。

汽車,只是他們收集數(shù)據(jù)的觸手,和這套AI系統(tǒng)的第一個(gè)應(yīng)用載體。他們真正打造的,是一套可以解決通用物理世界交互問題的底層AI引擎。

最好的證據(jù)是,這套系統(tǒng)已經(jīng)無縫遷移到了他們的另一個(gè)人形機(jī)器人項(xiàng)目——擎天柱(Optimus)上。

為FSD打造的「世界模擬器」,同樣可以為擎天柱生成在工廠里漫步的場景,測試和訓(xùn)練它在物理世界中的導(dǎo)航與交互能力。

而這,才是特斯拉自動(dòng)駕駛故事背后,那個(gè)更宏大、也更激動(dòng)人心的未來。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-02-01 15:01:46

AI模型

2022-09-01 14:54:18

機(jī)器人人工智能自動(dòng)駕駛

2025-09-04 10:10:18

2024-01-16 08:34:38

擎天柱機(jī)器人人工智能

2025-06-30 09:03:00

2025-07-28 09:08:00

2024-01-30 11:34:16

腦植入物神經(jīng)信號Neuralink

2025-02-18 15:16:25

2011-10-12 10:44:24

惠普DL980關(guān)鍵業(yè)務(wù)

2024-06-11 07:30:00

2017-03-29 08:08:28

人工智能神經(jīng)織網(wǎng)

2025-09-17 08:50:00

2025-09-03 09:07:00

2021-12-09 22:17:48

大腦芯片埃隆·馬斯克Neuralink

2024-09-18 14:30:00

馬斯克AI腦機(jī)接口

2024-02-21 11:42:49

2011-04-08 14:11:48

集裝箱數(shù)據(jù)中心

2017-02-15 14:30:00

馬斯克人工智能機(jī)器人

2024-08-05 14:05:00

2020-02-25 20:37:58

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號