站在自動駕駛技術(shù)的轉(zhuǎn)折點:2024端到端大佬們這樣說~
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
- 端到端落地的難點在哪?
- 如果說特斯拉和小鵬的優(yōu)勢在數(shù)據(jù),那么wayve作為初創(chuàng)數(shù)據(jù)應(yīng)該是個門檻,但是它的端到端也些亮眼成果了?
- 基于合成數(shù)據(jù),3dgs,world model這類新技術(shù)有沒有可能讓端到端突破真實數(shù)據(jù)的枷鎖?
- 端到端的技術(shù)路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術(shù)優(yōu)勢和壁壘?
清華大學(xué)博士生&加州大學(xué)伯克利分校博士后 Kimi
- 端到端的難點主要在于如何評價學(xué)出來的端到端系統(tǒng),特別是他是否學(xué)出來了真正的開車邏輯。這是因為輸出軌跡是一個很簡單的任務(wù),即使你什么也沒學(xué)會,就輸出一條跟著前車的直線軌跡也大差不差。這跟感知任務(wù)還不太一樣,感知任務(wù)的難度還是比較高的。這就使得端到端系統(tǒng),輸入圖像的話很容易學(xué)到一些shortcut,也就是他學(xué)到的邏輯其實是不對的。這也是為什么端到端系統(tǒng)中高質(zhì)量的數(shù)據(jù)是真正重要的,因為這樣的數(shù)據(jù)才蘊含了真正的開車邏輯。
- 端到端數(shù)據(jù)只是一方面, 正如第1點提到的,更重要的是如果只告訴它一個真實軌跡真值,怎么才能讓這個系統(tǒng)從數(shù)據(jù)中學(xué)到真正的開車邏輯,也就是為什么這個真值是對的,其他是錯的。因此端到端的系統(tǒng)設(shè)計其實沒那么容易,而wayve很早之前就開始探索端到端自動駕駛,也一直有一些高質(zhì)量的工作,因此端到端做得好也不奇怪了。
- 我認(rèn)為這個是非常有希望的一個方向,不僅僅是在訓(xùn)練階段,在測試階段其實更加重要。對于端到端系統(tǒng)的測試,很難像感知那樣直接通過GT來評判他的對錯,而是要把他放在一個仿真系統(tǒng)里來進行閉環(huán)測試。這就使得我們需要給端到端系統(tǒng)新視角的輸入,這個在數(shù)據(jù)集里大概率是沒有的,需要3dgs這樣的技術(shù)來實現(xiàn)。但是這個目前的技術(shù)距離真正實用還有一段距離,但我認(rèn)為這方面的技術(shù)突破是自動駕駛的落地的一個核心。
- 通過我上面說的其實可以看出來,端到端模型的設(shè)計不是用一個神經(jīng)網(wǎng)絡(luò)來擬合真實軌跡這么簡單的。除了從高質(zhì)量數(shù)據(jù)篩選這個角度來教模型有用的開車邏輯,在感知、軌控方面的技術(shù)積累是很有幫助的。端到端系統(tǒng)的設(shè)計中,圖像和軌跡之間的這個場景表示是最核心的。我個人認(rèn)為occupancy是最接近終極場景表示的方式了,一方面因為occ對三維場景表達(dá)的全面性,另一方面也是因為它可以使用自監(jiān)督被有效地學(xué)到,這也是我們后續(xù)課程會重點講的一部分。
端到端論文帶讀老師 資深算法工程師 Jason
非常贊同上述第4點。我認(rèn)為比較工程友好的路線是分模塊先實現(xiàn)端到端,比如規(guī)控模塊先用模型代替,感知模塊用一個統(tǒng)一的模型代替,后面再把兩個模塊拼接起來的形式。實際上規(guī)控的模型化難度是比較高的,一方面數(shù)據(jù)收集的困難,比如一些corner cases怎么收集,這里可能需要借助仿真或者world model來幫忙。此外規(guī)控模型的測試也是很難的。不像感知可以直接有幾個測集就可以,規(guī)控嚴(yán)格來說需要去做閉環(huán)測試才能接近真實車端的表現(xiàn),那么總不能發(fā)一版模型讓車去到處測吧,那樣可能測試一個模型比訓(xùn)一個模型的代價還大了。
軌跡預(yù)測課程老師 資深算法工程師 Thomas
端到端是從sensor到控制信號,比較大的優(yōu)勢1)是sensor的信息不會有損失吧,2)不會因為前級模型的誤差導(dǎo)致級聯(lián)誤差。
傳統(tǒng)的技術(shù)路線相當(dāng)于把端到端抽象成一個個人工定義的顯示子任務(wù),每個任務(wù)有明確定義和相對高的可解釋性。
目前來看,端到端的方法還有提升的空間吧,它并沒有體現(xiàn)出比傳統(tǒng)方法更好的可解釋性穩(wěn)定性可靠性安全性。比如一個case接管了,我們并不知道是端到端的模型的哪個模塊出問題了比較難針對性地去解這個case,但對于傳統(tǒng)Pipeline 我可以定位到是感知預(yù)測還是歸控出了問題,所以我感覺端到端達(dá)到百分百的安全性的難度可能會更大。
端到端還有一個難點是優(yōu)質(zhì)數(shù)據(jù)的搭建和收集,需要標(biāo)注大量有駕駛行為的視頻和控制行為。但是當(dāng)數(shù)據(jù)量達(dá)到一定的level, 基于scaling law, 我還是比較看好端到端或者/ world model會給我們帶來驚艷的表現(xiàn)
頭部大廠算法專家 Dylan
- 難點是根本沒有可以閉環(huán)的模型,只有各種公司和公眾號在亂吹,pnc是個系統(tǒng)不是個簡單模型搞定的,一步一步走才是硬道理,第一步不如想想ML和AI怎么幫助現(xiàn)有的pnc而不是一口吃成胖子
- 數(shù)據(jù)量不是優(yōu)勢,有效數(shù)據(jù)才是,wayve有后發(fā)優(yōu)勢,可能有更完善高效挖掘和收集有效數(shù)據(jù)方法
- 從業(yè)務(wù)角度看,個人短期(2-3年)看不到生成特別重要的用處。端到端可能也沒到那個階段,先理清楚端到端怎么用到現(xiàn)有的自駕框架怎么用更重要。
- 學(xué)術(shù)和業(yè)務(wù)發(fā)展應(yīng)該是分開的。學(xué)術(shù)可以考慮更遠(yuǎn)的可能性,考慮各種思路,業(yè)務(wù)需要一步一步來(當(dāng)然人力財力足夠可以多方案同步嘗試)。另外感覺當(dāng)前端到端模型沒啥壁壘,近期發(fā)的那幾篇論文比再早期的也沒啥真的新東西,借了純視覺bev的東風(fēng)吧。
NeRF與自動駕駛知名博主:意茗
針對問題3,當(dāng)前3DGS或者NeRF這類合成數(shù)據(jù)的方法,暫時不能讓端到端突破真實數(shù)據(jù)的枷鎖,但未來可期。當(dāng)前合成數(shù)據(jù)做的事情是
- 采集數(shù)據(jù)的倍增,比如提升傳感器高度在重建好的模型中做渲染,來模擬不同高度車型的采集數(shù)據(jù);
- 有限的閉環(huán)仿真,比如自車車道變化引起的相機和雷達(dá)傳感器渲染數(shù)據(jù)變化。
但這些功能還遠(yuǎn)未達(dá)到能夠突破真實數(shù)據(jù)的枷鎖,枷鎖在于天氣模擬、動態(tài)前景和corner case。對于天氣模擬,當(dāng)前逐漸取代NeRF的3DGS方法天生沒法重建環(huán)境光照,很難去做光線條件或者天氣的更改,即便有carla之類的工具也沒法作用到GS模型中未解耦的反光、表面和材質(zhì);對于動態(tài)前景,3DGS或者NeRF作為靜態(tài)重建方法,自然是不支持動態(tài)的重建,因此需向重建和渲染pipeline中引入大量或許不適配3DGS/NeRF特性的動態(tài)重建工具,很難,也未必是動態(tài)重建的最優(yōu)解;對于corner case的數(shù)據(jù)合成,可以做到一部分,但是真實生活中的corner case的數(shù)量和類型遠(yuǎn)超開發(fā)者想象,只期望生成模型有一天能夠補足這一部分,讓合成數(shù)據(jù)的過程更方便簡單,結(jié)果更真實可用。
上海AI LAB 資深研究員 DOMIN
個人理解現(xiàn)在的仿真主要還是偏規(guī)控,像carla這種三維建模場景加上比較簡單的隨機交通流,有些算法就有不小domain gap,做不了端到端。我們團隊也做過,我們發(fā)現(xiàn)其實是需要大量實車動力學(xué)數(shù)據(jù)以及carsim數(shù)據(jù)去訓(xùn)模型,也就是說模型能力上限其實是carsim。我理解端到端是要做closed loop的,喂感知數(shù)據(jù)很難去完整評價,更難讓模型自己去不斷迭代
新加坡南洋理工大學(xué)博士生 加州大學(xué)伯克利分校訪問學(xué)者 黃志宇
- 端到端實施的主要難點何在?
自動駕駛系統(tǒng)或產(chǎn)品的首要目標(biāo)是確保安全。端到端實施面臨的最大挑戰(zhàn)是如何確保系統(tǒng)的安全性,能否完全信賴模型輸出的決策和規(guī)劃,以及這些決策是否能與人類的價值觀和期望相符。
- 關(guān)于Tesla和Xpeng在數(shù)據(jù)方面的優(yōu)勢,Wayve作為初創(chuàng)公司是如何應(yīng)對的?
盡管Wayve是一家初創(chuàng)公司,但它已在倫敦進行了早期的數(shù)據(jù)收集,并開展了端到端模型的訓(xùn)練,成為該領(lǐng)域的先行者之一。未來,Wayve可能會探索與歐洲的OEM廠商合作,部署其開發(fā)的系統(tǒng)。
- 利用合成數(shù)據(jù)、3DGS、World Model等新技術(shù),端到端能否突破真實數(shù)據(jù)的限制?
我認(rèn)為3DGS和World Model主要是作為測試和仿真工具而不是訓(xùn)練工具。由于機器學(xué)習(xí)的方法依賴于訓(xùn)練數(shù)據(jù)的分布,僅用合成數(shù)據(jù)難以顯著增加數(shù)據(jù)多樣性或提升模型性能。因此,關(guān)鍵還是要在真實世界中持續(xù)收集新的多樣化數(shù)據(jù)。不過,將這些技術(shù)用作測試駕駛系統(tǒng)確實是一個有前途的方向。此外,World Model的概念相當(dāng)廣泛,并不局限于特定方法,可以作為端到端系統(tǒng)中一個關(guān)鍵的模塊,既可用于決策也可用于系統(tǒng)測試。
- 端到端技術(shù)的發(fā)展方向?qū)⑷绾窝葸M?
我認(rèn)為感知任務(wù)的目標(biāo)應(yīng)是盡可能準(zhǔn)確地提供周圍環(huán)境的關(guān)鍵信息至決策模塊。即便擁有了完美的感知信息,如何設(shè)計出高效的人性化決策模塊依然是一個挑戰(zhàn)。端到端系統(tǒng)旨在為決策模塊提供盡可能多的感知信息,通過高維潛在信息替代人工定義和處理的物理信息,以優(yōu)化交互和決策過程。近期,學(xué)術(shù)界在基于學(xué)習(xí)的規(guī)劃上已取得進展,這也推動了端到端技術(shù)的廣泛關(guān)注和應(yīng)用??偟膩碚f,應(yīng)當(dāng)首先開發(fā)高效的AI決策模型,待其能力成熟后,再向全面的端到端系統(tǒng)演進,確保決策能力的優(yōu)先發(fā)展
多傳感器融合與多目標(biāo)跟蹤全棧老師 感知算法專家 Edison
- 一方面,端到端模型會遠(yuǎn)比現(xiàn)有的檢測、分割、預(yù)測、規(guī)劃小模型要復(fù)雜,甚至完全是另一種范式,現(xiàn)在來看這種模型的框架還沒有完全探索出來;另一方面, 由于模型的復(fù)雜性,人類工程師更難理解它工作的機制,當(dāng)模型在corner case上表現(xiàn)差時,僅僅增加數(shù)據(jù)可能無法提升模型性能。
- 對于Wayve了解不多,但是很多人對數(shù)據(jù)的理解比較簡單,一般來說,即使原始數(shù)據(jù)量很大,其中蘊含的有效的高質(zhì)量數(shù)據(jù)卻很少。如果缺乏高效合理的數(shù)據(jù)工程能力,絕大部分?jǐn)?shù)據(jù)都無法用來提升模型能力。小公司能把數(shù)據(jù)Pipeline做好的話,在數(shù)據(jù)上或許也會很有優(yōu)勢,和公司體量無關(guān),和原始數(shù)據(jù)量大小也無關(guān)。
- 我認(rèn)為真正的未來的端到端模型和分模塊小模型是兩種不同的技術(shù)范式,不斷提升感知、預(yù)測、規(guī)劃的AI成分,使其不斷接近100%可微網(wǎng)絡(luò),可能無法達(dá)到真正的端到端可學(xué)習(xí)自動駕駛大模型。但是從公司角度來說,在這個過程中會積累出對自動駕駛技術(shù)有深刻理解的工程師和技術(shù)團隊,這批人在工程實踐中的自我迭代,會逐漸超越既有技術(shù)范式,探索出真正的端到端大模型。
Waymo研究員:自動駕駛方向算法專家,jerry
- 端到端落地的難點在哪?
數(shù)據(jù)/云端算力/車端算力/組織架構(gòu)/infra效率/評測體系
- 如果說特斯拉和小鵬的優(yōu)勢在數(shù)據(jù),那么wayve作為初創(chuàng)數(shù)據(jù)應(yīng)該是個門檻,但是它的端到端也些亮眼成果了?
小鵬在新宙離開之后,已經(jīng)是另一個公司。數(shù)據(jù)總量 不等于 數(shù)據(jù)能力 wayve科研工作很好,e2e具體落地的穩(wěn)定性有待觀察。
e2e對整個自動駕駛管線的影響系統(tǒng)性的,數(shù)據(jù)總量很關(guān)鍵,但并不是唯一因素。并不排除有些新公司,在有限數(shù)據(jù)的情況下能把e2e做好。
- 基于合成數(shù)據(jù),3dgs,world model這類新技術(shù)有沒有可能讓端到端突破真實數(shù)據(jù)的枷鎖?
對于合成數(shù)據(jù)在業(yè)務(wù)中如何使用,是個目前沒有共識的方向??雌饋碓u測會比訓(xùn)練先用起來。
用大量的數(shù)據(jù)去訓(xùn)練合成數(shù)據(jù)生成,再用這些數(shù)據(jù)訓(xùn)練。未必比直接訓(xùn)練自監(jiān)督的模型效果更好。需要等待更多的研究。
- 端到端的技術(shù)路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術(shù)優(yōu)勢和壁壘?
會是多個方向并行。很多時候并不存在唯一解。甚至端到端都不一定是唯一解。
但就具體到e2e這個方向。長期看來,模塊化的端到端和現(xiàn)有自駕體系更匹配,類似UniAD等方案。一體化的e2e方案,LLM-based 或者diffusion-based 由或者 VFM+LLM的二階段方案,在車端算力冗余的前提下,很可能經(jīng)歷多個方向并行在市場中競爭,最終收斂到某些固定的格局。各自面臨的技術(shù)挑戰(zhàn)不一樣,都有壁壘。最終市場上存在,應(yīng)該都是針對各自的優(yōu)勢進行不同程度的trade-oof
感知算法專家 星球嘉賓 LEO
- (1) 算力 (2) 如何保證正確性和安全性 (3)模型收斂
- 我想,我們應(yīng)該意識到的是,端到端技術(shù)的出現(xiàn),就是為了打破 標(biāo)注數(shù)據(jù) 瓶頸。希望通過更簡單的監(jiān)督信息,來實現(xiàn)更有效的駕駛行為決策。
傳統(tǒng)意義上的標(biāo)注數(shù)據(jù)(bbox, segmentation )由于人工標(biāo)注環(huán)節(jié)的存在,始終無法進一步跨越規(guī)模瓶頸。而端到端的任務(wù)下,期待的是更廉價和高效的數(shù)據(jù)獲取,更弱的監(jiān)督,更大規(guī)模的模型,scale up 來實現(xiàn)“智能涌現(xiàn)”。從這個角度看,傳統(tǒng)意義上的數(shù)據(jù)閉環(huán),數(shù)據(jù)積累,不一定有跨越性的優(yōu)勢。
- 先問是不是,“數(shù)據(jù)是不是端到端任務(wù)的枷鎖”?我認(rèn)為目前而言,端到端任務(wù)的設(shè)計可能還不夠清晰,正如王乃巖博士(聊一聊端到端)的那篇文章提到 “我認(rèn)為端到端的本質(zhì)應(yīng)當(dāng)是感知信息的無損傳遞。” 因此,我認(rèn)為端到端在方法上尚未到達(dá)終局。
而我們是否需要合成數(shù)據(jù)來實現(xiàn)端到端,我傾向于認(rèn)為這是一個成本收益問題,當(dāng)任務(wù)設(shè)計清晰明確后,在未來,哪種數(shù)據(jù)獲取方式更簡單更廉價,哪種就會被應(yīng)用。
- 端到端的技術(shù)路線會是什么方向?從感知,軌控 獨立模型演進到端到端,是否比 從0直接上端到端模型 有技術(shù)優(yōu)勢和壁壘?
先上一下乃巖大佬的文章引用:
“我們還應(yīng)該從本質(zhì)上思考一下,端到端的本質(zhì)是什么?我認(rèn)為端到端的本質(zhì)應(yīng)當(dāng)是感知信息的無損傳遞。我們先回想一下在非端到端系統(tǒng)中,感知和PnC模塊的接口是什么樣子的。一般我們會有針對白名單物體(車,人,etc)的檢測/屬性分析/預(yù)測,會有對靜態(tài)環(huán)境的理解(道路結(jié)構(gòu)/限速/紅綠燈,etc),如果做的更細(xì)致一些的話,還會做通用障礙物的一些檢測工作。從宏觀的角度來講,感知輸出的這些信息,都是對復(fù)雜駕駛場景的一種抽象,而且是人工定義的顯式抽象。然而,對于一些非常見場景中,現(xiàn)在的顯式抽象難以充分表達(dá)場景中會影響駕駛行為的因素,亦或是我們需要定義的任務(wù)過多過瑣碎,也難以枚舉盡所有需要的任務(wù)。所以端到端系統(tǒng),提供了一種(也許是隱式)全面表示,希望能夠自動地?zé)o損地將這樣的信息作用于PnC。我認(rèn)為,所有能滿足這樣的系統(tǒng),都可以叫做廣義端到端?!?/p>
模塊化的任務(wù)設(shè)計方式更像是一種妥協(xié),用人類容易理解和保證安全性的方式來解決自動駕駛問題,當(dāng)然,我們遇到了一些瓶頸。而這些瓶頸是否可以被端到端解決?這很難講。
我更傾向于認(rèn)為,這可能是兩種并行的技術(shù)路線。在未來長期一段時間內(nèi)可能會同時存在。
我相信很多自動駕駛公司盡管談端到端,但仍然會有模塊化的設(shè)計在背后兜底。
從這個角度講,我認(rèn)為從傳統(tǒng)模塊化再到端到端,比從 0 直接到端到端的廠家更有優(yōu)勢。他們對自動駕駛?cè)蝿?wù),系統(tǒng)設(shè)計難點,相對有更清晰的認(rèn)識。
數(shù)據(jù)閉環(huán)方向資深工程師 神秘網(wǎng)友小邱
- 我們不需要做端到端落地,所以可能有失偏頗,望拋磚引玉,個人認(rèn)為e2e的最大問題是可解釋性問題,從sensor直接到plan中間空間太大了,不知道問題出在哪里,而且每一次版本迭代可能都要做復(fù)雜的測試,需要保證測試數(shù)據(jù)的多樣性和覆蓋性,還要保證不會過擬合,仍然擁有良好的泛化能力,第二是難做閉環(huán),駕駛可能存在多種合理的駕駛選擇,而且駕駛場景存在博弈,雖然有waymax這樣的multi-agent simulator工具或gaia-1這樣的工作,但是仍然有局限性
- wayve數(shù)據(jù)說不上多,但也不是很少,gaia-1的時候就有4,700小時的數(shù)據(jù),他們能夠通過gaia-1合成數(shù)據(jù)或驗證e2e的能力,同時他們做了很多Self-Supervised的工作,這樣對"已標(biāo)注數(shù)據(jù)"的需求量就更少了
- 個人認(rèn)為合成數(shù)據(jù)最大的使用場景在找到bad case / corner case和失衡數(shù)據(jù),通過仿真環(huán)境去生成補集,幫助模型更魯棒,但是合成數(shù)據(jù)也有局限性,我認(rèn)為顧險峰老師對Sora的評價用在這個問題也合適:模型忽略了物理過程中最為關(guān)鍵的臨界(災(zāi)變)態(tài),一方面因為臨界態(tài)樣本的稀缺,另一方面因為擴散模型將穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界模糊化,消弭了臨界態(tài)的存在,生成的視頻出現(xiàn)了不同穩(wěn)恒態(tài)之間的跳躍。而基于幾何方法的最優(yōu)傳輸理論框架,可以精確檢測到穩(wěn)恒態(tài)數(shù)據(jù)流形的邊界,從而強調(diào)了臨界態(tài)事件的生成,避免了不同穩(wěn)恒態(tài)之間的橫跳,更加接近物理的真實。
Gao
- 難點除了可解釋性,似乎E2E也比較考驗公司的工程能力和數(shù)據(jù)閉環(huán)能力。目前很多模型還是基于模仿學(xué)習(xí)的,一些重要但不常見的場景,很難采集,而且數(shù)據(jù)均衡也不好搞。
- wayve好像是引入了一些強化學(xué)習(xí)的策略,似乎有效果,這個是前幾天聽分享聽到的,具體的還沒看。
- 從之前做感知的經(jīng)驗,會有幫助,但是真實數(shù)據(jù)還是不能丟,但是生成數(shù)據(jù)的占比可能會逐漸提升比例。此外,基于真實數(shù)據(jù)采集的離線標(biāo)注,也可以大幅度降低標(biāo)注成本。
- 有數(shù)據(jù)、各模塊技術(shù)儲備充足的公司、團隊,可以直接搞,但是其他團隊可能還是分段搞積累數(shù)據(jù)和經(jīng)驗,以及驗證數(shù)據(jù)閉環(huán)能力和工程能力之后搞更靠譜些。
再補充一點,就是閉環(huán)指標(biāo),也需要在模塊化階段摸索。目前的公開指標(biāo)可能還是太學(xué)術(shù)了,難以評價所謂的駕駛水平,需要開發(fā)和磨合額外的指標(biāo)
NeRF/3DGS重建 專家
- 難點在數(shù)據(jù)。
- Wayve 的 gaia 解決了數(shù)據(jù),而且可以按需產(chǎn)生稀缺的corner cases 數(shù)據(jù)。
- 取決于怎么串聯(lián)端到端模型。
- UniAD based 的端到端更靠譜,更適合工業(yè)界
仿真專家 JamesZhang
對于問題3:我的感覺是,現(xiàn)在這類技術(shù)還仍然處于“似是而非”的狀態(tài),數(shù)據(jù)的確定性也許還不夠高吧
端到端論文帶讀群學(xué)員討論
CH:
- 難點在于可解釋性-因果關(guān)系,噪音處理和控制安全。
- 針對問題3:有可能,但目前來看有限。仿真能補充數(shù)據(jù),但總歸和實際有偏差,標(biāo)注數(shù)據(jù)不可替代。
- 針對問題4:分段模型逐步可控可驗證,直接端到端,即便像 driverAdapter 這樣的分層監(jiān)督也需要包一層rule based安全層。