特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動(dòng)駕駛技術(shù)路線
特斯拉世界模擬器來(lái)了!
這些看似真實(shí)的駕駛場(chǎng)景,全都是用模擬器生成:

這個(gè)模擬器在今年的計(jì)算機(jī)視覺(jué)頂會(huì)ICCV上亮相,由特斯拉自動(dòng)駕駛副總裁Ashok Elluswamy親自講解。
網(wǎng)友看了之后表示,這個(gè)模型實(shí)在是泰褲辣。

同時(shí),Elluswamy也首次揭秘了特斯拉的自動(dòng)駕駛技術(shù)路線圖,表示端到端才是智能駕駛的未來(lái)。
世界模擬器生成自動(dòng)駕駛場(chǎng)景
除了開(kāi)頭看到的多場(chǎng)景駕駛視頻,特斯拉的世界模擬器還可以為自動(dòng)駕駛?cè)蝿?wù)生成新的挑戰(zhàn)場(chǎng)景。
比如右側(cè)的車(chē)輛突然連并兩條線,闖入預(yù)設(shè)的駕駛路徑。

也可以讓AI在已有的場(chǎng)景中執(zhí)行自動(dòng)駕駛?cè)蝿?wù),躲避行人和障礙物。

模型生成的場(chǎng)景視頻,除了讓自動(dòng)駕駛模型在里面練手,也可以當(dāng)成電子游戲,供人類(lèi)玩耍體驗(yàn)。

當(dāng)然除了駕駛相關(guān),對(duì)其他具身智能場(chǎng)景——比如特斯拉的擎天柱機(jī)器人——也同樣有用。

與這個(gè)模型一同被揭秘的,還有特斯拉在自動(dòng)駕駛上的一整套方法論。
特斯拉VP:端到端才是自動(dòng)駕駛的未來(lái)
ICCV演講中,特斯拉自動(dòng)駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術(shù)細(xì)節(jié),同時(shí)還在X上發(fā)表了文字版本。
Ashok首先明確,端到端AI才是自動(dòng)駕駛的未來(lái)。

特斯拉利用端到端神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)駕駛,這個(gè)端到端神經(jīng)網(wǎng)絡(luò)會(huì)利用來(lái)自各個(gè)攝像頭的圖像、運(yùn)動(dòng)信號(hào)(例如車(chē)速)、音頻、地圖等數(shù)據(jù),生成驅(qū)動(dòng)汽車(chē)的控制指令。
與端到端相對(duì)的另一種方法是采用大量傳感器的模塊化駕駛,這類(lèi)系統(tǒng)的優(yōu)勢(shì)是在初期更容易開(kāi)發(fā)和調(diào)試,但相比之下,端到端的優(yōu)勢(shì)更加明顯:
- 將人類(lèi)價(jià)值觀規(guī)則化極其困難,但從數(shù)據(jù)中學(xué)習(xí)則容易;
- 模塊化方法中感知、預(yù)測(cè)和規(guī)劃之間的接口定義不明確,但在端到端中梯度從控制一直流向傳感器輸入,從而整體優(yōu)化整個(gè)網(wǎng)絡(luò);
- 端到端方法可輕松擴(kuò)展以處理現(xiàn)實(shí)世界機(jī)器人的繁重和長(zhǎng)尾問(wèn)題;
- 端到端具有確定性延遲的同質(zhì)計(jì)算。
Ashok舉了一些例子,比如車(chē)輛行駛過(guò)程中發(fā)現(xiàn)前方路面存在積水,此時(shí)有兩種策略,一是直接從積水上開(kāi)過(guò),二是借用對(duì)向車(chē)道繞過(guò)積水。
駛?cè)雽?duì)向車(chē)道是危險(xiǎn)的,但在這個(gè)具體場(chǎng)景中視野開(kāi)闊,在避開(kāi)水坑所需的路程之內(nèi)對(duì)向車(chē)道沒(méi)有車(chē)輛,借用對(duì)向車(chē)道避開(kāi)水坑是一種可行的選擇。

這種權(quán)衡取舍就很難用傳統(tǒng)的編程邏輯來(lái)表達(dá),而對(duì)于人類(lèi)來(lái)說(shuō),這在觀察場(chǎng)景時(shí)卻相當(dāng)簡(jiǎn)單。
基于以上考慮及其他因素,特斯拉采用了端到端的自動(dòng)駕駛架構(gòu),當(dāng)然,端到端系統(tǒng)也仍有許多挑戰(zhàn)需要克服。
特斯拉如何解決端到端自動(dòng)駕駛困難
端到端自動(dòng)駕駛面臨的困難,其中之一就是評(píng)估。特斯拉推出的世界模擬器,也正是針對(duì)這一難題。
該模擬器使用特斯拉篩選出的同樣的海量數(shù)據(jù)集進(jìn)行訓(xùn)練,其功能并非預(yù)測(cè)給定狀態(tài)下的行動(dòng),而是根據(jù)當(dāng)前狀態(tài)和下一步行動(dòng)來(lái)合成未來(lái)狀態(tài)。
這樣的狀態(tài)可以與智能體或策略AI模型連接起來(lái),以閉環(huán)方式運(yùn)行,從而評(píng)估性能。
同時(shí),這些視頻并不局限于評(píng)估,它還可以用于閉環(huán)大規(guī)模強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn)超越人類(lèi)的表現(xiàn)。

除了評(píng)估之外,端到端自動(dòng)駕駛還面臨“維數(shù)災(zāi)難”,以及可解釋性和安全性保證的問(wèn)題。
在現(xiàn)實(shí)世界中,想讓自動(dòng)駕駛系統(tǒng)安全運(yùn)行,就需要處理高幀率、高分辨率、長(zhǎng)上下文輸入。
假設(shè)輸入信息包括7個(gè)攝像頭×36FPS×5 百萬(wàn)像素×30秒的場(chǎng)景畫(huà)面、未來(lái)幾英里的導(dǎo)航地圖和路線、100Hz的運(yùn)動(dòng)數(shù)據(jù),以及48KHz的音頻數(shù)據(jù),大約會(huì)有20億輸入Token。
神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)正確的因果映射,將這20億個(gè)Token精簡(jiǎn)為2個(gè),即車(chē)輛的下一個(gè)轉(zhuǎn)向和加速動(dòng)作。在不學(xué)習(xí)虛假相關(guān)性的情況下學(xué)習(xí)正確的因果關(guān)系是一個(gè)極其棘手的問(wèn)題。
為此,特斯拉通過(guò)龐大的車(chē)隊(duì),每天收集相當(dāng)于500年駕駛總和的數(shù)據(jù),并使用復(fù)雜的數(shù)據(jù)引擎篩選最高質(zhì)量的數(shù)據(jù)樣本。
使用這樣的數(shù)據(jù)進(jìn)行訓(xùn)練,就能讓模型獲得極高的泛化能力,從而應(yīng)對(duì)極端情況。

對(duì)于可解釋和安全性問(wèn)題,如果車(chē)輛的行為不符合預(yù)期,端到端系統(tǒng)的調(diào)試可能就會(huì)變得很困難,但模型也可以生成可解釋的中間Token,可以根據(jù)情況用作推理Token。

特斯拉的生成式高斯?jié)姙R就是這樣一項(xiàng)任務(wù),它具有出色的泛化能力,無(wú)需初始化即可建模動(dòng)態(tài)物體,并可與端到端模型聯(lián)合訓(xùn)練。
其中所有的高斯函數(shù)都是基于量產(chǎn)車(chē)配置的攝像頭生成的。

除了3D幾何之外,推理還可以通過(guò)自然語(yǔ)言和視頻背景進(jìn)行。該推理模型的一個(gè)小版本已經(jīng)在FSD v14.x版本中運(yùn)行。

更多技術(shù)細(xì)節(jié),可以到Ashok的文章和原始演講視頻當(dāng)中一探究竟。
端到端自動(dòng)駕駛兩大路線:VLA還是世界模型?
雖然端到端被視為自動(dòng)駕駛的未來(lái),但在業(yè)界,具體的軟件算法路線也一直存在VLA和世界模型之爭(zhēng)。
以國(guó)內(nèi)為例,華為和蔚來(lái)都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認(rèn)為應(yīng)該將兩者結(jié)合。
VLA玩家認(rèn)為,該范式一方面可以應(yīng)用互聯(lián)網(wǎng)已有的海量數(shù)據(jù),積累豐富常識(shí),進(jìn)而理解世界。另一方面模型通過(guò)語(yǔ)言能力實(shí)際上是具備了思維鏈能力,能夠理解長(zhǎng)時(shí)序數(shù)據(jù)并進(jìn)行推理。
更尖銳的觀點(diǎn)認(rèn)為,有些廠家不用VLA是因?yàn)樗懔Σ粔颍瑤Р粍?dòng)VLA模型。
世界模型玩家們則堅(jiān)持世界模型更接近問(wèn)題本質(zhì),例如華為車(chē)BU CEO靳玉志認(rèn)為“VLA這樣的路徑看似取巧,并不能真正走向自動(dòng)駕駛”。
而現(xiàn)在,特斯拉的方案之所以備受關(guān)注,也正是因?yàn)樵谧詣?dòng)駕駛發(fā)展歷程中,馬斯克從未有過(guò)“選錯(cuò)”。
特斯拉選什么路線,VLA還是世界模型,關(guān)于端到端自動(dòng)駕駛兩大技術(shù)路線的歷史性決戰(zhàn)。
你看好VLA,還是世界模型?




































