深度剖析Tesla自動駕駛技術方案
01 感知:構建實時的4D自動駕駛場景
1.特斯拉攝像頭布局

特斯拉的攝像頭視野可以覆蓋車身周圍360°,在前向有120°魚眼、長焦鏡頭用于加強觀測,布局如上圖。
2.特斯拉圖像數據預處理

特斯拉采用的是36Hz的1280*960-12bit的圖像原始數據,這相對于只有8-bit的ISP后處理數據多了4位信息,動態(tài)方位擴大了16倍。特斯拉這樣處理的原因有2個:
1) ISP基于rule-base的算法對原始信號做了自動對焦(AF)、自動曝光(AE)、自動白平衡(AWB)、壞點校正(DNS)、高動態(tài)范圍成像(HDR)、顏色校正(CCM)等,這些滿足于人眼可視化需求,但不一定是自動駕駛的需要。相對于rule-base的ISP,神經網絡的處理能力更為強大,能夠更好的利用圖像的原始信息,同時避免ISP帶來的數據損失。
2) ISP的存在不利于數據的高速傳輸,影響圖像的幀率。而將對原始信號的處理放在網絡運算中,速度要快很多。
這種方式跨過了傳統(tǒng)類似ISP的專業(yè)知識,直接從后端需求驅動網絡學習更強的ISP能力,可以強化系統(tǒng)在低光照、低可見度條件下超越人眼的感知能力?;谶@個原理Lidar、radar的原始數據用于網絡擬合應該也是更好的方式。
3.backbone網絡:Designing Network Design Spaces

RegNet
特斯拉采用的是RegNet,相比于ResNet進行了更高一層的抽象,解決了NAS搜索設計空間(將卷積、池化等模塊:連接組合/訓練評估/選最優(yōu))固定、無法創(chuàng)建新模塊的弊端,可以創(chuàng)建新穎的設計空間范式,能夠發(fā)掘更多的場景適配新的"ResNet",從而避免專門去研究設計神經網絡架構。如果出來更好的BackBone可以替換這部分。
4. neckwork : EfficientDet: Scalable and Efficient Object Detection

BiFPN
- PANet比FPN更準是因:在FPN自頂向下的單一路徑流的基礎上又額外增加了自底向上的路徑流,也因此帶入更高的參數與計算;
- BiFPN移除了只有一個輸入的節(jié)點(最上層和最下層),因為網絡的目的是融合特征,所以沒有融合能力的節(jié)點直接連接就可以。
- BiFPN將輸入直接連接到輸出節(jié)點,在不增加計算的情況下,融合了更多特征。
- BiFPN將基礎結構進行了多層堆疊,能夠融合出更高緯度的特征。

FPN->BiFPN
5.BEV Fusion:FSD感知的空間理解能力

2D感知
在BEV出現之前,自動駕駛感知主流方案都是基于相機的2D Image Space,但是感知的下游應用方-決策和路徑規(guī)劃都是在車輛所在的2D BEV Space進行的,感知與規(guī)控之間的壁壘阻礙了FSD的發(fā)展。為了消除這個壁壘,就需要將感知從2D圖像空間后置到2D的自車參考系空間,即BEV空間。
基于傳統(tǒng)技術:
會采用IPM(Inverse Perspective Mapping)假設地面為平面利用相機-自車外參將2D Image Space轉換為2D的自車空間,即BEV鳥瞰空間。這里有個很明顯的缺陷:平面假設在面對道路起伏和上下坡時便不在成立。

多相機接邊拼接問題
由于每個攝像頭的FOV有限,所以即使借助IPM將2D Image Space轉換到2D BEV空間還需要解決多個相機圖像的BEV空間拼接。這其實需要高精度的多相機標定算法,而且需要在線的實時校正算法??偨Y來說,需要實現的就是將多相機2D圖像空間特征映射到BEV空間,同時解決由于標定和非平面假設引起的變換重疊問題。
Tesla基于Transformer的BEV Layer的實現方案:

BEV_FUSION
首先在各個相機分別通過CNN主干網絡和BiFPN提取多尺度特征圖層,多尺度特征圖層一方面通過MLP層生成Transformer的方法中所需的Key和Value,另一方面對多尺度Feature Map進行Global Pooling操作得到一個全局描述向量(即圖中的Context Summary),同時通過對目標輸出BEV空間進行柵格化,再對每個BEV柵格進行位置編碼,將這些位置編碼與全局描述向量進行拼接(Concatenate)后再通過一層MLP層得到Transformer所需的Query。
在Cross Attention操作中,Query的尺度決定最終BEV層之后的輸出尺度(即BEV柵格的尺度),而Key和Value分別處于2D圖像坐標空間下,按照Transformer的原理,通過Query和Key建立每個BEV柵格收到2D圖像平面像素的影響權重,從而建立從BEV到輸入圖像之間的關聯,再利用這些權重加權由圖像平面下的特征得到的Value,最終得到BEV坐標系下的Feature Map,完成BEV坐標轉換層的使命,后面就可以基于BEV下的Feature Map利用已經成熟的各個感知功能頭來直接在BEV空間下進行感知了。BEV空間下的感知結果與決策規(guī)劃所在的坐標系是統(tǒng)一的,因此感知與后續(xù)模塊就通過BEV變換緊密地聯系到了一起。

Calibration
通過這種方法,實際上相機外參以及地面幾何形狀的變化都在訓練過程中被神經網絡模型內化在參數里邊。這里存在的一個問題就是使用同一套模型參數的不同車子的相機外參存在微小的差異,Karparthy在AI Day上補充了一個Tesla應對外參差異的方法:他們利用標定出來的外參將每輛車采集到的圖像通過去畸變,旋轉,恢復畸變的辦法統(tǒng)一轉換到同樣一套虛擬標準相機的布設位置,從而消除了不同車相機外參的微小差別。

BEV的方法是一個非常有效的多相機融合框架,通過BEV的方案,原本很難進行正確關聯的跨多個相機的近處的大目標的尺寸估計和追蹤都變得更加準確、穩(wěn)定,同時這種方案也使得算法對于某一個或幾個相機短時間的遮擋,丟失有了更強的魯棒性。簡而言之,BEV解決了多攝像頭的圖像融合拼接,增加了魯棒性。

解決了多相機的車道線和邊界融合

障礙物變的更穩(wěn)定
(從PPT來看,特斯拉初始的方案應該是主要應用了前向相機來做感知和車道線預測的。)
6.Video Neural Net Architecture:時空序列Feature構建


BEV的使用將感知從多相機分散的2D Image Space提升到2D的BEV 空間,但是自動駕駛實際的環(huán)境是一個4D的空間的問題,即便不考慮高程,也仍然缺少的一個維度是時間。Tesla通過使用具有時序信息的視頻片段替代圖像對神經網絡進行訓練,從而使感知模型具有短時間的記憶的能力,實現這個功能的方法是分別引入時間維度和空間維度上的特征隊列進入神經網絡模型。規(guī)則:每隔27毫秒push queue或每走過每隔1米遠就會連同運動信息緩存在視頻序列。

對于如何融合時序信息,Tesla嘗試了三種主流的方案:3D卷積,Transformer以及RNN。這三種方法都需要把自車運動信息與單幀感知結合起來,Karparthy表示自車運動信息只使用了包括速度和加速度的四維信息,這些運動信息可以從IMU中獲取,然后與BEV空間下的Feature Map(20x80x256)還有Positional Encoding相結合(Concatenate),形成20x80x300x12維的特征向量隊列,這里第三維由256維視覺特征 + 4維運動學特征(vx, vy, ax, ay)以及40維位置編碼(Positional Encoding)構成,因此300 = 256 + 4 + 40,最后一維是降采樣過后的12幀時間/空間維度。

3D Conv, Transformer,RNN都能處理序列信息,三者在不同任務上各有長短,但大部分時間采用哪個方案其實區(qū)別不大,然而AI Day上Karparthy另外分享了一個簡單有效,而且效果十分有趣可解釋的方案叫做Spatial RNN。與上面三個方法有所不同,Spatial RNN由于RNN原本就是串行處理序列信息,幀間前后順序得以保留,因此無需將BEV視覺特征進行位置編碼就可以直接給進RNN網絡,因此可以看到這里輸入信息就只包括20x80x256的BEV視覺Feature Map和1x1x4的自車運動信息。

Spatial特征在CNN中常指圖像平面上的寬高維度上的特征,這里Spatial RNN中的Spatial則指的是類似以某時刻的BEV坐標為基準的一個局部坐標系里的兩個維度。這里為了進行說明使用了LSTM的RNN層,LSTM的優(yōu)勢在于其可解釋性強,這里作為例子進行理解再合適不過了。
LSTM特點在于Hidden State里面可以保留前面長度可變的N個時刻的狀態(tài)的編碼(也即短時記憶),然后當前時刻可以通過輸入和Hidden State決定哪一部分記憶的狀態(tài)需要被使用,哪一部分需要被遺忘等等。在Spatial RNN中,Hidden State是一個比BEV柵格空間更大的矩形柵格區(qū)域,尺寸為(WxHxC)(見上圖,WxH大于20x80的BEV尺寸),自車運動學信息決定前后BEV特征分別影響的是Hidden State的哪一部分柵格,這樣連續(xù)的BEV數據就會不斷對Hidden State的大矩形區(qū)域進行更新,且每次更新的位置與自車運動相符合。經過連續(xù)的更新后,就形成了一個類似局部地圖一樣的Hidden State Feature Map如下圖所示。


時序隊列的使用賦予了神經網絡獲得幀間連續(xù)的感知結果的能力,與BEV結合后則使FSD獲得了應對視野盲區(qū)和遮擋,選擇性地對局部地圖進行讀寫的能力,正因為有了這樣的實時的局部地圖構建的能力,FSD才能不依賴高精地圖進行城市中的自動駕駛。這里具備不只是3D的地圖能力,其實是局部4D場景構建能力,可用于預測等。在Occupancy出來后,普遍認為基于Spatial RNN改為了上述中的transformer方案。

7.Occupancy Network:BEV從2D走向3D
BEV的2D鳥瞰圖很顯然與真實自動駕駛面臨的3D場景還有差距,所以必然存在某些場景下BEV2D感知失效的情況。在2021年特斯拉就具備了深度構建的能力,所以從2D走向3D只是時間問題,2022年就帶來了Occupancy Network,它是BEV網絡在高度方向進行了進一步的擴展,將BEV坐標系下2D柵格位置編碼生成的Query升級為3D柵格位置編碼生成的Query,用Occupancy Feature替代了BEV Feature。
在CVPR2022上,Ashork給出了使用Occupancy Feature而不使用基于圖像深度估計的原因:

1)深度估計近處是OK的,但是遠處深度就不一致,遠處越靠近地面的地方深度值點越少(這是受限于圖像的成像原理導致的,在20m外一個像素代表的縱向距離可能超過了30cm),而且數據難以被后續(xù)規(guī)劃流程所使用。
2)深度網絡基于回歸構建,很難通過遮擋來進行預測,所以邊界上難以進行預測,可能平滑的從車輛過渡到背景。
使用Occupancy的優(yōu)勢如下:

Occupancy優(yōu)點
1)在BEV空間生成了統(tǒng)一的體素,可以預測任意一個體素的占用概率
2)獲取了所有相機的視頻流,并且是統(tǒng)一的(沒有l(wèi)idar-camera融合的問題,信息的維度比lidar也要高)
3)能夠實時預測被遮擋物體的狀態(tài)(Occupancy的動態(tài)描述能力是從3D向4D過渡)
4)可以為每個體素生成對應的語義類別(圖像的識別能力是遠強于lidar)

即使不識別類別也能處理運動物體
5)可以為每個體素預測其運動狀態(tài),對隨機運動進行建模
6)各個位置的分別率是可以調整的(也就是具備BEV空間變焦能力)
7)得益于特斯拉的硬件,Occupancy具有高效的存儲和計算優(yōu)勢
8)10ms內可以完成計算,處理頻率可以很高(36Hz的圖像輸出能力已經強于10Hz的lidar頻率)
Occupancy的方案相比于bounding box的感知方案優(yōu)點在于:
可以描述不具有固定bounding box,可以隨意變換形態(tài),任意移動的未知類別物體,將障礙物的描述粒度從box提升到了voxel粒度,可以解決感知中很多的長尾問題。
來看下Occupancy整體方案:

Occupancy Network
1)Image Input:輸入原始圖像信息,擴大了數據維度和動態(tài)范圍
2)Image Featurers:RegNet+BiFPN提取多尺度的圖像特征
3)Spatial Atention:通過帶3D空間位置的spatial query對2D圖像特征進行基于attention的多相機融合
實現方案1:根據每個相機的內外參將3D spatial query投影到2D特征圖上,提取對應位置的特征。
實現方案2:利用positional embedding來進行隱式的映射,即將2D特征圖的每個位置加上合理的positional embedding,如相機內外參、像素坐標等,然后讓模型自己學習2D到3D特征的對應關系
4)Temporal Alignment:利用軌跡信息對每個frame的3D Occupancy Features按照時序進行空間上Channel維度的拼接,隨著時間遠近有一個權重的衰減,組合特征會進入Deconvolutions的模塊來提高分辨率
5)Volume Outputs:輸出固定大小柵格的占用率和占用流
6)Queryable Outputs:設計了一個隱式queryable MLP decoder,輸入任意坐標值(x,y,z),用于獲取更高分辨率的連續(xù)體素語義、占用率、占用流信息,打破了模型分辨率的限制
7)生成具有三維幾何和語義的可行駛區(qū)域路面,有利于坡度、彎曲道路上的控制。

地面與Occupancy是一致的
8)NeRF state:nerf構建的是場景的幾何結構,可以生成任意視角的圖像,可以恢復高分辨率的真實場景。
如果能夠用Nerf進行升級或替換,那么將具備還原真實場景的能力,而且這個場景還原能力將是過去-現在-未來的。對于特斯拉技術方案追求的4D場景自動駕駛應該是極大的補充和完善。
8.FSD Lanes Neural Network:預測車道的拓撲連接關系
只分割、識別出車道線是不夠的,還需要推理獲取車道之間的拓撲連接關系,這樣才能用于軌跡規(guī)劃。

FSD車道線拓撲關系感知
1)Lane Guidance Module:使用了導航圖中的道路的幾何&拓撲關系,車道等級、數量、寬度、屬性信息,將這些信息與Occupancy特征整合起來進行編碼生成Dense World Tensor給到拓撲關系建立的模塊,將視頻流稠密的特征通序列生成范式解析出 稀疏的道路拓撲信息(車道節(jié)點lane segment和連接關系adjacent)。
2)Language Component:把車道相關信息包括車道節(jié)點位置、屬性(起點,中間點,終點等)、分叉點、匯合點,以及車道樣條曲線幾何參數進行編碼,做成類似語言模型中單詞token的編碼,然后利用時序處理辦法進行處理。具體流程如下:

language of lanes 流程

language of lanes
最終language of lanes表征的就是圖中的拓撲連接關系。
9. Object Perception:感知預測其他交通參與者

障礙物感知與預測
FSD的Object Perception是一個2-Step的方法,第1階段先從Occupancy中識別出障礙物在3D空間中的位置,第2階段將這些3D物體的張量concat一些運動學信息的編碼(如自車運動,目標行駛車道線,交通燈交通信號等)然后在接入軌跡預測、物體建模、行人位姿預測等head。將復雜的感知Heads聚焦于有限的ROI區(qū)域,減少了處理延遲。從上圖可以看到存在2步video module,分別服務于自車和它車的預測。
這里留下個疑問:上圖中的2次video module有什么區(qū)別?效率上會不會有問題?
02 決策規(guī)劃
1.復雜場景:與高頻、多樣交通參與者的交互規(guī)劃

路口無保護左轉的決策規(guī)劃場景
上述這個場景決策規(guī)劃的難點在于:
自車執(zhí)行無保護左轉通過路口場景過程中需要與行人、正常直行車輛交互,理解多方的相互關系。
與前者的交互決策,直接影響與后者的交互策略。這里最后選擇的方案是:盡量不干擾其他交通參與者的運動。
2. 傳統(tǒng)優(yōu)化方法:【聯合多物體軌跡規(guī)劃】:多物體MPC
- 8維度狀態(tài)表征軌跡(位置,Heading,s速度,橫縱向加速度,橫縱向jerk)
- 優(yōu)化cost: 找到自車ego和他車Obj各自的軌跡,使得所有物體都能盡可能的抵達goal,同時橫縱向jerk盡可能?。ㄊ孢m度)
- 約束條件:
- 物體各自的軌跡最近距離大于安全距離
- 兩兩物體的軌跡早到、遲到約束
- 缺點:實時性太差(每一種組合耗時10ms是Tesla能做到的極限),存在組合爆炸。目標是整體規(guī)劃耗時50ms(20hz)。?

3. 交互樹搜索:并行的路徑規(guī)劃和評估修剪

決策規(guī)劃的流程
Tesla實現這個目標采用的是“交互搜索”,對一系列可能的運動軌跡進行并行搜索,對應的狀態(tài)空間包含了自車、障礙物、可行駛區(qū)域、車道、交通信號燈等。解空間采用的是一組目標運動候選軌跡,在與其他交通參與互動決策后產生分支,進而遞進決策規(guī)劃下去,最后選出最優(yōu)的軌跡,流程如上圖所示:
1) 根據道路拓撲或人駕數據先驗得到goal點或其概率分布(大數據軌跡)
2)根據goal點生成候選軌跡(優(yōu)化算法+神經網絡)
3)沿著候選軌跡rollout并交互決策,重新規(guī)劃路徑,評估各個路徑的風險和得分,優(yōu)先搜索最佳路徑知道goal點
整個決策規(guī)劃的優(yōu)化表達式:

決策規(guī)劃優(yōu)化表達式

輕量級的規(guī)劃軌跡查詢網絡
特斯拉采用遞增的方式不斷加入新的決策約束,用較少約束下最優(yōu)方案作為初值繼續(xù)求解更加復雜的優(yōu)化問題,最終得到最優(yōu)解。但由于存在眾多的可能分支,就要整個決策規(guī)劃過程要十分的高效,采用基于傳統(tǒng)優(yōu)化算法的planner每次決策規(guī)劃需要耗時1~5ms,當存在高密度交通參與者時顯然是不夠安全的。特斯拉采用的Neural Planner是一個輕量級的網絡,查詢的規(guī)劃軌跡使用Tesla車隊中人類駕駛員駕駛數據和在無時間約束的離線條件下規(guī)劃的全局最優(yōu)路徑最為真值進行訓練出來的,每次決策規(guī)劃只有100us。

規(guī)劃決策評估
每次決策后查詢到的多個候選軌跡都需要進行評估,評估依據的規(guī)范有碰撞檢查、舒適性分析、接管可能性、與人的相似程度等,有助于修剪搜素分支,避免整個決策樹過于龐大,同時也能夠將算力集中到最有可能的分支上。Tesla強調該方案同樣適用于遮擋場景,在規(guī)劃過程會考慮被遮擋的物體的運動狀態(tài),通過添加“鬼影”進行規(guī)劃。

ghost遮擋場景
在CVPR還分享了碰撞規(guī)避的網絡流程和對應的規(guī)劃過程,不細述。

碰撞規(guī)避網絡


特斯拉強大的感知能力需要強大的標注能力作為支撐,從2018至今,特斯拉的標注經歷了4個階段:

特斯拉的標注迭代
第1階段(2018):只有純人工的2維的圖像標注,效率非常低
第2階段(2019):開始有3D label,但是是單趟的人工的
第3階段(2020):采用BEV空間進行標注,重投影的精度明顯降低
第4階段(2021):采用多趟重建去進行標注,精度、效率、拓撲關系都達到了極高的水準
特斯拉的這套自動標注系統(tǒng)可以取代500萬小時的人工作業(yè)量,人工只需要檢查、補漏極小的部分(<0.1hrs).
這套多趟軌跡重建方案過程如下:(類似于一套離線的語義slam系統(tǒng))

自動標注系統(tǒng)
第1步:VIO生成高精軌跡。將視頻流、IMU、里程計給到神經網絡,推理提取點、線、地面、分割特征,然后在BEV空間用multi-camera VIO進行tracking和optimization,輸出100Hz的6dof的軌跡和3dof的結構和道路,同時還可以輸出camera的標定值。重建軌跡的精度是1.3cm/m、0.45弧度/m,不算很高。所有的FSD都可以運行這套流程獲取某趟預處理的軌跡和結構信息。(看視頻感覺vio只顯式用了點特征,可能隱式使用了用線、面特征。)

多趟軌跡重建
第2步:多趟軌跡重建。將多趟來自不同車輛的重建數據進行軌跡分組粗對齊->特征匹配->聯合優(yōu)化->路面精修,然后人工參與進來最終核實確認標注結果。這里聯合優(yōu)化后還進行了一個路面優(yōu)化,猜測是視覺重建的誤差比較大,全局優(yōu)化后在局部道路存在分層重疊問題,為了消除這部分全局優(yōu)化錯誤分配的誤差,增加了路面優(yōu)化。從算法邏輯上來講,全局優(yōu)化后接局部優(yōu)化是一個必須項,因為自動駕駛的要求是處處能可行駛。整個過程在集群上并行的。

粗對齊
第3步:自動標注新軌跡數據。在預先構建的地圖上,對新行駛軌跡數據執(zhí)行多趟軌跡重建一樣的重建流程,這樣對齊后的新軌跡數據就可以自動的從預構建地圖上獲取語義標注。這其實就是一個重定位獲取語義標簽的過程。這個自動標注其實是只能自動標注靜態(tài)的物體,比如:車道線、道路邊界等。通過感知模型,其實已經能夠獲取到車道線等的語義類別,但是在惡劣場景下會存在完整性和誤識別問題,通過這個自動標注可以解決這些問題。但缺陷在于對于動態(tài)障礙物可能就不太適用了,比如:行駛中的車輛、行人等。下面是使用場景:

自動標注使用場景
特斯拉所展示的很多圖像都有一個特點:存在模糊或污漬遮擋,但是不嚴重影響其感知結果。在正常的使用中,車輛的相機鏡頭很容易被弄臟,但是有了這個自動標注,特斯拉的感知魯棒性會非常強,也降低了相機的維護成本。

自動標注不適用于動態(tài)車輛
回顧2021年的ai day可知上述重建構建的是static world,而是不只是車道線車道線,還有車輛和建筑。

3D重建

重建靜態(tài)世界并標注

4D空間標注
在BEV空間標注完后,會將標注再映射會多個相機的圖像中,從而實現4D空間一次標注可以2D多幀應用。
關于場景重建,當前的重建能力和精度可能還是沒有達到特斯拉工程師的期望,他們最終的目標是真實還原重建出所有特斯拉汽車行駛過的場景,而且可以真實的改變這些場景的條件生成新的真實場景,這才是終局目標。

還原真實世界

重建真實世界
04 場景仿真:基于真實道路信息,創(chuàng)造自動駕駛場景

場景仿真

仿真可以獲取絕對正確的label
基于重建去構建的真實場景受限于數據、算法等,當前還難以大規(guī)模實現,而且耗時還比較長,例如:上圖一個真實路口的仿真需要花費2周時間。但是自動駕駛的落地又依賴于在不同場景中的訓練和測試,所以特斯拉就構建了一套仿真系統(tǒng),用于模擬自動駕駛場景。這套系統(tǒng)并不能真實模擬現實場景,但好處是比上述真實常見重建方案快1000倍,可以提供現實中難以獲得或難以標記的數據,對于自動駕駛的訓練仍然非常有意義。

仿真構建的架構
這套仿真器的架構如上圖,在場景創(chuàng)建過程中需要經過以下步驟:
第1步:在仿真世界中鋪開道路,利用邊界label生成實體路面mesh,用道路拓撲關系重新關聯.
第2步:將路面上的車道線和幾何描述要素投影到車道路段上,構建車道細節(jié)
第3步:在道路中間邊界區(qū)域內生成中心分道區(qū),隨機生成植物、交通標識填補;道路邊界外采用隨機啟發(fā)的方式生成一系列的建筑、樹木、交通標識物等
第4步:從地圖中獲取紅綠燈或停止標志的位置,還可以獲取車道數、道路名稱等
第5步:使用車道地圖獲取車道的拓撲關系,生成行駛方向(左右轉標線)和輔助標記
第6步:利用車道地圖本身確定車道相鄰關系和其他有用的信息
第7步:根據車道關系生成隨機車流組合
在上述過程中,基于一套車道導航地圖真值可以修改仿真參數生成變化,產生多種組合場景。而且甚至可以根據訓練的需要,修改真值的某些屬性,創(chuàng)造新的場景,從而實現訓練目的。

數據劃分為Tile存儲

基于Tile粒度構建的世界
上述構建的仿真是基于真實的道路信息,所以很多現實性的問題就可以借助仿真來解決。例如:可以在仿真的洛杉磯道路環(huán)境中測試自動駕駛功能。(上述的存儲方式就是在仿真建圖、存儲、加載使用)

仿真場景下的自動駕駛
感受:對于自動駕駛來說什么樣的地圖信息是不可被取代的可以從這個仿真構建過程中找到一些答案。
05 數據引擎:挖掘corner case數據

數據閉環(huán)流程
數據引擎從影子模式中挖掘模型誤判的數據,將之召回并采用自動標注工具進行標簽修正,然后加入到訓練和測試集中,可以不斷的優(yōu)化網絡。這個過程是數據閉環(huán)的關鍵節(jié)點,會持續(xù)生成corner case樣本數據。

彎道停車的數據挖掘
上圖是彎道停車數據挖掘對模型提升的案例,隨著數據源源不斷的加入到訓練中,準確率指標持續(xù)提升。






























