大語言模型會成為自動駕駛的靈丹妙藥嗎?也談模塊化方法和端到端方案~
寫在前面 & 筆者的個人理解
人工智能(AI)在自動駕駛(AD)研究中起著至關(guān)重要的作用,推動其向智能化和高效化發(fā)展。目前AD技術(shù)的發(fā)展主要遵循兩條技術(shù)路徑:模塊化和端到端。模塊化將駕駛?cè)蝿?wù)分解為感知、預(yù)測、規(guī)劃和控制等模塊,并分別進行訓(xùn)練。由于模塊之間的訓(xùn)練目標不一致,綜合效果存在偏差。端到端試圖通過利用一個直接從傳感器數(shù)據(jù)映射到控制信號的單一模型來解決這個問題。這條路徑在一系列功能方面的學(xué)習(xí)能力有限,難以處理不可預(yù)測的長尾事件和復(fù)雜的城市交通場景。面對這兩條路徑中遇到的挑戰(zhàn),許多研究人員認為,具有強大推理能力和廣泛知識理解的大型語言模型(LLM)可能是解決方案,期望LLM為AD系統(tǒng)提供更深入的理解和決策能力。鑒于這兩條路徑都面臨的挑戰(zhàn),許多研究人員認為,LLM憑借其強大的推理能力和廣泛的知識,可以提供一種解決方案。為了了解LLM是否可以增強AD,本文對LLM在AD系統(tǒng)中的潛在應(yīng)用進行了深入分析,包括探索其在模塊化和端到端方法中的優(yōu)化策略,特別關(guān)注LLM如何解決當前解決方案中存在的問題和挑戰(zhàn)。此外,我們還討論了一個重要問題:基于LLM的通用人工智能(AGI)能否成為實現(xiàn)高水平AD的關(guān)鍵?我們進一步分析了LLM在促進AD技術(shù)發(fā)展方面可能遇到的潛在局限性和挑戰(zhàn)。這項調(diào)查可以為相關(guān)領(lǐng)域的跨學(xué)科研究人員提供基礎(chǔ)參考,并指導(dǎo)未來的研究方向。
簡介
自動駕駛(AD)已成為現(xiàn)代交通領(lǐng)域的一個關(guān)鍵研究領(lǐng)域,其最近的發(fā)展在很大程度上依賴于人工智能(AI)。人工智能的發(fā)展一直是AD發(fā)展的催化劑,即使是最簡單的高級駕駛輔助系統(tǒng)(ADAS)也需要人工智能來實現(xiàn)。因此,可以通過AI設(shè)計的視角全面了解AD解決方案的發(fā)展。
設(shè)計AI的兩種不同方式,即模塊化和端到端解決方案,形成了AD的兩種常見解決方案,如圖1所示。第一種解決方案,即模塊化解決方案,是人工智能系統(tǒng)設(shè)計之前的遺留問題。這些解決方案將AD分解為幾個獨立的任務(wù),通常包括感知、預(yù)測、計劃和控制。雖然這種模塊化簡化了單個任務(wù)的實現(xiàn),但它往往難以實現(xiàn)系統(tǒng)集成。不同的模型,每個模型都針對獨立的目標,可能會導(dǎo)致系統(tǒng)內(nèi)不可避免的差距和沖突,從而導(dǎo)致次優(yōu)性能。因此,通過執(zhí)行加強一致性可能是一項艱巨的挑戰(zhàn)。

第二種解決方案,即端到端解決方案,試圖通過模仿人類行為的過程來解決這些問題。端到端解決方案利用大規(guī)模神經(jīng)網(wǎng)絡(luò),直接根據(jù)傳感器輸入控制車輛。已經(jīng)提出了不同的實現(xiàn)方式,包括模仿人類駕駛或基于控制結(jié)果的直接訓(xùn)練。然而,沿著這條路徑的所有這些方法都有一個共同的缺點,即信息通道過長和網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,導(dǎo)致在訓(xùn)練和引入專家知識時難以收斂。此外,端到端算法訓(xùn)練中涉及的數(shù)據(jù)主要與駕駛有關(guān),而人類駕駛員在駕駛過程中利用常識和其他信息。這些挑戰(zhàn)限制了端到端算法的進一步改進。
除了這些具體問題外,這兩種解決方案在現(xiàn)實世界的應(yīng)用中都面臨著一些挑戰(zhàn),包括確保魯棒性、驗證性、可解釋性和高效的人機交互。因此,應(yīng)對這些挑戰(zhàn)已成為AD研究的主要重點,強調(diào)了有效解決方案的必要性。
2022年底ChatGPT問世以來,人工智能領(lǐng)域掀起了一場新的革命。由于其龐大的規(guī)模、大量的數(shù)據(jù)和訓(xùn)練所涉及的技術(shù)(例如,從人類反饋中學(xué)習(xí)),大型語言模型(LLM)已經(jīng)具備了推理、數(shù)據(jù)生成和理解人類意圖等能力。這些能力使LLM能夠在各種自然語言處理(NLP)任務(wù)中超越以前的模型。LLM在智能交通系統(tǒng)等各個領(lǐng)域的應(yīng)用正在上升。具體而言,LLM的能力為AD研究中的上述挑戰(zhàn)提供了創(chuàng)新的解決方案。例如,推理能力可以幫助理解和適當?shù)貞?yīng)對看不見的角落情況,提高魯棒性。生成能力可用于測試用例生成。增強對人類意圖的理解有助于解決可解釋性問題,改善人機交互。
最近,LLM開創(chuàng)了AD研究的一個新領(lǐng)域。研究人員越來越相信,LLM可以為傳統(tǒng)AD解決方案提供新的視角。此外,有一種觀點認為,LLM進一步為實現(xiàn)通用人工智能(AGI)鋪平了道路,這讓我們回到了關(guān)于實現(xiàn)完全AD的辯論。一些專家認為,大規(guī)模、通用、強大的智能是必要的,而另一些專家則認為,規(guī)模較小的特定智能體就足以完成AD任務(wù)。站在這個十字路口,本文從AD系統(tǒng)實施的角度系統(tǒng)地概述了采用LLM的最新AD進展,重點討論了以下問題:
- AD研究目前面臨的挑戰(zhàn)是什么?具體來說,這是一組與AD實施中的不同任務(wù)相對應(yīng)的具體挑戰(zhàn)(即正文中的挑戰(zhàn)i至X)。
- LLM能否為這些挑戰(zhàn)提供卓越的解決方案,以及如何提供?
- AD的最終解決方案是什么?AD算法優(yōu)化的目標應(yīng)該是什么?
Autonomous Driving Solutions
模塊化
模塊化解決方案將AD系統(tǒng)分解為不同的模塊。通常,這些模塊包括感知、預(yù)測、計劃和控制。
感知
感知涉及環(huán)境信息的收集、有用知識的提取以及理解環(huán)境的判斷的形成。感知的準確性和全面性對于自動駕駛汽車(AV)有效地應(yīng)對復(fù)雜的交通場景至關(guān)重要。感知任務(wù)最初僅限于“如何看?”的問題。這指的是對周圍物體的識別和跟蹤,包括靜態(tài)物體(如車道、交通信號燈和其他交通基礎(chǔ)設(shè)施)和動態(tài)物體(如車輛和道路使用者)。隨著過去二十年來傳感技術(shù)的進步和機器學(xué)習(xí)(ML)的發(fā)展,這些基本任務(wù)不再構(gòu)成挑戰(zhàn)。車道檢測或交通信號識別等基本應(yīng)用現(xiàn)在可以在大多數(shù)情況下正確執(zhí)行,為推廣低級高級駕駛員輔助系統(tǒng)(ADAS)鋪平了道路。
更先進的傳感器和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也為感知算法提供了新的視角,感知算法已經(jīng)從對象級發(fā)展到場景級。鳥瞰圖(BEV)和基于Transformer的方法的出現(xiàn)使識別綜合場景成為可能。BEV將車輛周圍的多模態(tài)3D數(shù)據(jù)投影到2D地圖上,確保數(shù)據(jù)表示的一致性。Transformers最初是為NLP設(shè)計的,由于其強大的注意力機制,已經(jīng)證明了它們在建模多源異構(gòu)數(shù)據(jù)方面的有效性。這使得BEV表示能夠熟練地捕獲全面的空間信息。遵循這一范式的方法,如BEVForme,在各種感知任務(wù)中表現(xiàn)出了卓越的性能,成為主要的感知解決方案。然而,BEV在高度信息方面的不足限制了其表示3D體積的效率。占用網(wǎng)絡(luò)通過直接學(xué)習(xí)體素中的3D信息、將3D表面描繪為神經(jīng)網(wǎng)絡(luò)決策邊界以及消除對LiDAR點云的需求來支持BEV。它們?nèi)诤狭藥缀魏驼Z義來精確地描繪場景,提高了感知效率和準確性。
隨著情景信息的獲取不再具有挑戰(zhàn)性,目前的研究重點已轉(zhuǎn)向通過可靠和詳細的表示來全面了解環(huán)境的最終目標,即“What to see?”的問題。這要求感知系統(tǒng)非特定地識別周圍的物體,識別它們的屬性和相互作用,并徹底理解場景。從歷史上看,AD感知算法經(jīng)常將時間和3D空間數(shù)據(jù)合并到2D對象檢測框架中(例如YOLO、CenterNet),合并來自LiDAR、相機的輸入,并利用PointNet等不同的深度學(xué)習(xí)模型進行信息處理。然而,在不同尺度(如時間、空間、任務(wù)相關(guān))上整合特征帶來了挑戰(zhàn)。
盡管取得了長足的進步,但現(xiàn)有的感知解決方案仍然面臨著幾個挑戰(zhàn)。第一:
- CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?
當前基于學(xué)習(xí)的方法嚴重依賴于訓(xùn)練數(shù)據(jù),當遇到現(xiàn)實世界數(shù)據(jù)長尾分布中存在的角點情況時,它們的性能會顯著下降。第二:
- CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?
當前的場景理解方法更像是簡單地整合所有數(shù)據(jù)和模態(tài),而不是理解場景。最后:
- CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?
這些挑戰(zhàn)凸顯了AD的復(fù)雜性以及在該領(lǐng)域進行持續(xù)研究和創(chuàng)新的必要性。
預(yù)測
預(yù)測是AD過程中的一個關(guān)鍵組成部分,其目標是根據(jù)物體過去的運動軌跡預(yù)測物體(主要是行人和車輛)即將到來的運動軌跡。該模塊最初不是AD工作流的一部分。隨著過去二十年AD解決方案的演變,預(yù)測作為一個獨立的部分逐漸引起了人們的關(guān)注,彌合了感知和規(guī)劃之間的差距。從功能上講,它直接利用感知作為輸入,而其輸出則是后續(xù)規(guī)劃和控制任務(wù)的重要參考。從時間的角度來看,預(yù)測代表了從過去到現(xiàn)在和未來的過渡,這是端到端工作流不可或缺的過渡。傳統(tǒng)的預(yù)測方法主要是基于模型的。這些包括物理模型、意圖模型和交互模型。這種方法在處理軌跡的不確定性方面存在局限性,特別是在較長的時間范圍內(nèi)。
在過去的十年中,基于學(xué)習(xí)的方法逐漸主導(dǎo)了預(yù)測任務(wù)的解決方案。例如,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其衍生網(wǎng)絡(luò)架構(gòu),如長短期記憶(LSTM)網(wǎng)絡(luò),在基于深度學(xué)習(xí)的預(yù)測范式中得到了廣泛應(yīng)用。其他使用的網(wǎng)絡(luò)架構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和圖形注意力轉(zhuǎn)換器。這些基于學(xué)習(xí)的方法顯著提高了更廣泛時期內(nèi)預(yù)測的可靠性和準確性,而BEV等感知技術(shù)的進步實現(xiàn)了多目標協(xié)同預(yù)測。這標志著預(yù)測建模領(lǐng)域的發(fā)展,強調(diào)了協(xié)作預(yù)測策略在實現(xiàn)卓越預(yù)測結(jié)果方面的重要性。根據(jù)目標的不同,最新的預(yù)測方法能夠提供持續(xù)幾秒甚至十多秒的軌跡準確預(yù)測。在大多數(shù)情況下,這對于后端AD任務(wù)來說是足夠的。
目前對預(yù)測任務(wù)的研究旨在提高動態(tài)環(huán)境中的準確性,以提高AD的安全性和效率,這需要關(guān)注的不僅僅是軌跡,還有情況。車輛必須了解并適當應(yīng)對社會動態(tài)或不同的環(huán)境,這可以歸結(jié)為另一個具體的挑戰(zhàn):
- CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?
應(yīng)對這一挑戰(zhàn)將是朝著更準確和更先進的預(yù)測方法邁出的又一步。
規(guī)劃
規(guī)劃是指自動駕駛汽車根據(jù)給定的交通環(huán)境和車輛的情況設(shè)置未來駕駛路線或軌跡的過程。根據(jù)具體的功能和規(guī)劃范圍(空間和時間),規(guī)劃通??煞譃槁肪€規(guī)劃、行為規(guī)劃和軌跡規(guī)劃(也稱為運動規(guī)劃)。具體而言,路線規(guī)劃概述了車輛的道路網(wǎng)絡(luò)級路徑,通常稱為“導(dǎo)航”。行為規(guī)劃在規(guī)劃路線上的重要航路點提供決策。軌跡規(guī)劃生成了一個精確的時空軌跡,連接車輛要遵循的路點。
盡管有各種目標和限制,但不同的規(guī)劃任務(wù)可以以類似的方式制定,因此共享類似的方法。例如,原始規(guī)劃方法起源于傳統(tǒng)的搜索方法,包括A*、快速探索隨機樹等。這些被稱為基于搜索的規(guī)劃方法?;趦?yōu)化的方法利用優(yōu)化理論來搜索最優(yōu)軌跡。與基于搜索的方法相比,這些方法在復(fù)雜場景中更省時。
基于學(xué)習(xí)的方法也出現(xiàn)在規(guī)劃中。例如,強化學(xué)習(xí)(RL)在規(guī)劃任務(wù)中得到了廣泛的應(yīng)用,規(guī)劃任務(wù)通常被表述為馬爾可夫決策過程。模仿學(xué)習(xí)(IL)為基于學(xué)習(xí)的計劃提供了一種不同的范式。其他方法將神經(jīng)網(wǎng)絡(luò)與現(xiàn)有的規(guī)劃方法相結(jié)合,或使用神經(jīng)網(wǎng)絡(luò)直接生成計劃軌跡,為規(guī)劃任務(wù)提供實時在線解決方案。
目前規(guī)劃方法的研究差距主要在于兩個方面。第一:
- CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?
這要求系統(tǒng)更好地整合來自前端模塊的信息,同時處理繼承的不確定性。第二:
- CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?
這將有利于規(guī)劃過程的穩(wěn)健性和更好的性能。
控制
傳統(tǒng)模塊化的最后一步是控制,它涉及車輛沿著預(yù)設(shè)的計劃軌跡行駛(軌跡跟蹤)。這種過程的基本目標是使目標軌跡和真實車輛軌跡之間的誤差最小化。其他控制目標包括提高穩(wěn)定性或乘坐舒適性。
已經(jīng)為控制過程開發(fā)了各種控制器和方法?;究刂品椒?,如純追蹤[24],主要考慮了車輛的運動學(xué)約束。相比之下,其他方法結(jié)合了車輛的動態(tài)特性來實現(xiàn)更精確的控制??刂破?,如模型預(yù)測控制(MPC),擅長管理更復(fù)雜的場景。鑒于車輛相對于外部環(huán)境的固有穩(wěn)定性和控制問題的性質(zhì),基于學(xué)習(xí)的方法在控制任務(wù)中的使用頻率較低。然而,混合控制器的出現(xiàn)值得注意,例如基于學(xué)習(xí)的MPC,它融合了傳統(tǒng)控制器和基于學(xué)習(xí)的控制器。
車輛控制的主要挑戰(zhàn)在于一個問題。
- CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?
現(xiàn)實世界的場景包括從車輛達到穩(wěn)定性閾值的極端操作條件到個性化控制要求。適應(yīng)各種場景需要控制器具有更好的魯棒性和精確調(diào)整的空間??刂颇K還需要與AD解決方案中的前端模塊協(xié)調(diào),以實現(xiàn)更好的性能。
端到端
與模塊化解決方案相比,端到端AD采用了不同的路線圖。從狹義上講,端到端AD試圖模仿人類駕駛車輛的方式,其中使用一個大規(guī)模神經(jīng)網(wǎng)絡(luò)將原始傳感器輸入直接映射到車輛的軌跡點或控制命令。端到端AD的第一次嘗試,即神經(jīng)網(wǎng)絡(luò)中的自主陸地車輛,可以追溯到20世紀80年代。它試圖將相機和Lidar的輸入直接映射到車輛的轉(zhuǎn)向控制。
隨著機器學(xué)習(xí)方法的進步,端到端AD在過去十年中蓬勃發(fā)展。端到端AD中應(yīng)用最廣泛的學(xué)習(xí)技術(shù)是IL。IL是一種監(jiān)督學(xué)習(xí)方法,可進一步分為行為克隆和逆最優(yōu)控制。端到端AD中涉及的另一種學(xué)習(xí)方法是RL,并且應(yīng)用了包括策略蒸餾在內(nèi)的技術(shù)來提高算法的性能。此外,數(shù)據(jù)集的不斷積累、日益完善的測試環(huán)境和評估指標進一步加速了端到端AD的實際應(yīng)用。使用端到端方法訓(xùn)練的Tesla FSD系統(tǒng)等AD系統(tǒng)已經(jīng)應(yīng)用于開放環(huán)境。
隨著對端到端解決方案的研究不斷深入,重點正轉(zhuǎn)向這些解決方案背后的核心思想,而不是其形式。端到端方案的集成方法為傳輸各種類型的信息和數(shù)據(jù)提供了一個統(tǒng)一的渠道。這最大限度地減少了信息在不同模塊或子任務(wù)之間傳輸過程中的丟失和壓縮,這被認為是端到端解決方案的優(yōu)點之一。應(yīng)用這一理念,許多模塊子任務(wù)的廣義“端到端”應(yīng)用正在出現(xiàn),特別是被劃分為多個分層子任務(wù)的感知和規(guī)劃模塊。例如,“端到端”感知模塊將傳感器的數(shù)據(jù)作為輸入,同時提供集成和完整的場景感知輸出。這些通用的端到端模塊使子任務(wù)的訓(xùn)練和執(zhí)行更加順暢和高效。
與此同時,端到端AD系統(tǒng)的形式也在不斷發(fā)展。例如,最新的統(tǒng)一端到端自動駕駛(UniAD)解決方案,被稱為“模塊化端到端AD”,集成了AD的三個主要任務(wù)和六個次要任務(wù)。每個模塊在網(wǎng)絡(luò)結(jié)構(gòu)方面保持相對獨立。在訓(xùn)練過程中,每個模塊在整個系統(tǒng)訓(xùn)練之前都經(jīng)過預(yù)訓(xùn)練,以確保訓(xùn)練目標的一致性。這種方法在閉環(huán)仿真驗證中表現(xiàn)出了出色的性能,證明端到端解決方案的本質(zhì)不一定是用單個網(wǎng)絡(luò)完成所有任務(wù)。
盡管端到端解決方案正在迅速發(fā)展,并解決了模塊化AD系統(tǒng)中的一些現(xiàn)有問題,但還存在一些其他挑戰(zhàn)。與模塊化AD相比,端到端系統(tǒng)在更大范圍內(nèi)利用神經(jīng)網(wǎng)絡(luò),幾乎完全依賴于訓(xùn)練數(shù)據(jù),這兩者都增加了訓(xùn)練過程中的挑戰(zhàn)。例如:
- CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
- CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
- CHALLENGE X: how to improve the interpretability of end-to-end solutions?
大語言模型的發(fā)展
現(xiàn)代語言處理模型起源于兩種范式:基于規(guī)則和統(tǒng)計?;谝?guī)則的語言模型依賴于手動定義的語法、語義和語用規(guī)則,使用一組手動規(guī)則生成自然語言。這種方法的局限性在于需要大量手動設(shè)置的規(guī)則,這使得在真實的語言語料庫中覆蓋所有場景變得具有挑戰(zhàn)性。另一方面,統(tǒng)計語言模型依賴于大型語料庫中的詞匯統(tǒng)計分布,例如在上下文中使用n個單詞預(yù)測文本的n元語法模型。這些模型標志著語言處理中理性主義方法的開始。
隨著深度學(xué)習(xí)的進步,研究人員開始使用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)自然語言的復(fù)雜結(jié)構(gòu)和語義信息。RNN成為處理自然語言和其他時間序列問題的經(jīng)典模型框架。通過引入跨時間步長共享的循環(huán)結(jié)構(gòu)和權(quán)重參數(shù),RNN可以處理不同長度的自然語言文本序列并捕獲隱藏特征。LSTM網(wǎng)絡(luò)是對傳統(tǒng)RNN的改進,引入了存儲單元,有選擇地保留或忘記信息,以有效解決梯度消失或爆炸等問題。在此基礎(chǔ)上進行的一些工程包括門控循環(huán)單元(GRU)。2017年,Transformer憑借其強大的上下文處理能力,逐漸開始應(yīng)用于NLP任務(wù)。與之前的統(tǒng)計模型相比,這些基于神經(jīng)網(wǎng)絡(luò)的模型在處理語言中的表示和特征方面具有更好的方法,從而在特定的NLP任務(wù)中表現(xiàn)出更好的性能。
隨著網(wǎng)絡(luò)結(jié)構(gòu)的進步,一種新的語言模型訓(xùn)練方法——預(yù)訓(xùn)練,也有助于語言模型的進一步發(fā)展。2018年,谷歌推出了BERT(變壓器的雙向編碼器表示),這是一種基于注意力機制的預(yù)訓(xùn)練語言模型。它采用兩階段策略,首先在大規(guī)模語料庫上進行無監(jiān)督預(yù)訓(xùn)練,然后對特定任務(wù)進行監(jiān)督學(xué)習(xí)微調(diào),以適應(yīng)下游任務(wù)。第一個生成預(yù)訓(xùn)練模型GPT-1也于2018年由OpenAI發(fā)布。GPT-1利用基于Transformer架構(gòu)的網(wǎng)絡(luò)模型,特別是僅使用解碼器的結(jié)構(gòu),通過生成式預(yù)訓(xùn)練和判別式微調(diào),在特定任務(wù)上實現(xiàn)了卓越的性能。GPT-2是2019年發(fā)布的高級版本,也采用了只有堆疊編碼器的結(jié)構(gòu)。與GPT-1不同,它使用無監(jiān)督學(xué)習(xí)模式,僅基于輸入和任務(wù)概率模型預(yù)測輸出。這些模型可以稱為“預(yù)先訓(xùn)練的語言模型”,它們對零樣本學(xué)習(xí)和遷移學(xué)習(xí)具有重要意義,為LLM的發(fā)展鋪平了道路。
LLM的參數(shù)達到一定規(guī)模(例如數(shù)十億或數(shù)千億),在過去三年中作為一種新興的人工智能技術(shù)引起了廣泛關(guān)注。它們繼承了預(yù)訓(xùn)練語言模型的結(jié)構(gòu)和訓(xùn)練范式,并受益于其規(guī)模增加所提供的可擴展性和涌現(xiàn)效應(yīng)。LLM不僅在語言相關(guān)任務(wù)中實現(xiàn)了顯著的性能提升,而且還展示了上下文學(xué)習(xí)等能力,可以應(yīng)用于其他不同的場景。2020年,在GPT-2的單向語言模型訓(xùn)練之后,引入了GPT-3,但使用了更大的模型和數(shù)據(jù)集。實驗結(jié)果表明,GPT-3在小樣本學(xué)習(xí)場景中取得了優(yōu)異的性能。2023年3月,OpenAI發(fā)布了GPT-4,同年5月,GPT-4的技術(shù)報告發(fā)布。與過去三個版本的GPT相比,GPT-4在小樣本學(xué)習(xí)、邏輯推理、多模式理解、安全性和對更長上下文的支持方面取得了重大進展。
類似的LLM還包括Genimi,它利用PaLM 2等高級語言模型在NLP和信息檢索方面表現(xiàn)出色;Claude強調(diào)安全性和可解釋性,在需要安全和對齊的人工智能系統(tǒng)的場景中尤其有價值;LLaMA,一種開源模型,通過提供一個可訪問的平臺來探索LLMs,對研究界產(chǎn)生了重大影響;Command R專注于檢索增強生成,以增強內(nèi)容創(chuàng)建和業(yè)務(wù)應(yīng)用。
大語言模型在自動駕駛中的應(yīng)用
模塊化方法
感知
在AD感知任務(wù)中,LLMs促進了傳統(tǒng)感知任務(wù)解決方案的改進,開辟了新的研究方向。目前,LLMs在感知任務(wù)中的應(yīng)用主要集中在以下幾個方面:
首先,LLM可以直接用于傳統(tǒng)的感知任務(wù)。盡管該語言很難直接用于獲取或描述周圍環(huán)境,但它可以作為模態(tài)之間的緩沖區(qū),并與視覺和激光雷達等模態(tài)結(jié)合,進行簡單的推理。這提高了感知任務(wù)的效率,并優(yōu)化了不同場景下的性能。例如,[48]使用LLM來分析行人的語言線索,從而提高行人檢測的準確性。
此外,由于LLM能夠理解復(fù)雜的場景,LLM已被直接用于對復(fù)雜場景的全面感知,整合各種感知信息以理解復(fù)雜的交通環(huán)境和駕駛情況。LLM通過分類、識別和理解交通場景中動態(tài)和靜態(tài)元素之間的關(guān)系,提高了對AD系統(tǒng)內(nèi)復(fù)雜交互的理解。他們還對這些元素在時間和空間上的相互作用進行了推理,為挑戰(zhàn)II提供了解決方案。例如,[52]利用傳統(tǒng)的3D感知管道來增強VLM的感知能力。在GPT-4V(ision)的道路上,[53]展示了VLM在處理非分布場景和在實際駕駛環(huán)境中識別意圖方面的潛力。
LLM的綜合能力也揭示了角案例的問題,這是當前感知算法中一個值得關(guān)注的問題(挑戰(zhàn)I)。[56]分析了LLM理解AD場景的能力,確定了LLM實現(xiàn)類人表現(xiàn)的關(guān)鍵能力,指出LLM能夠通過理解情況來解決AD中的關(guān)鍵問題。
最后,LLMs還通過語言情態(tài)以各種形式增強現(xiàn)有的感知數(shù)據(jù)。這些應(yīng)用程序不僅促進了人與機器之間的透明可解釋性,還促進了LLM進一步進行規(guī)劃和控制,為挑戰(zhàn)III提供了一種可能的解決方案。例如,關(guān)于對象引用,[59]提出了一種統(tǒng)一的視覺語言模型,該模型可以引用人類指令中描述的對象并在圖片框中生成邊界框。[60]提出了一種基于GPT-4的上下文感知視覺接地框架。該框架可以響應(yīng)自然語言指令,引用提到的關(guān)鍵對象,并提供對人類當前情緒的分析?;贠penFlamingo VLM框架,使用扎根思維鏈指令訓(xùn)練了一個視覺語言模型,該模型旨在吸收類人能力作為對話式駕駛助手,以與AD任務(wù)保持一致。訓(xùn)練好的模型能夠提供對場景的理解。
預(yù)測
由于LLM的任務(wù)能力更強,預(yù)測任務(wù)以兩種方式發(fā)展。一方面,預(yù)測通常是使用LLM與感知或規(guī)劃相結(jié)合來實現(xiàn)的。這將提高系統(tǒng)的整體效率,并為預(yù)測部分提供更準確的信息。[67]嵌入自然語言描述和交通場景的光柵化圖像表示,以實現(xiàn)軌跡預(yù)測。[68]使用LLM從過去的軌跡中得出運動線索,并將其與傳統(tǒng)方法相結(jié)合,以更好地預(yù)測未來的軌跡。
另一方面,LLM利用其推理能力進行情景預(yù)測,為挑戰(zhàn)IV提供了部分解決方案。[71]提出了一種將高分辨率信息整合到多模態(tài)LLM中的方法。語言模式用于對低分辨率視頻進行推理,并為高分辨率視頻幀提供先驗和亮點。該框架還根據(jù)預(yù)測的風(fēng)險和情景為即將發(fā)生的行為提供了建議。
規(guī)劃
LLMs的推理能力和常識使他們能夠為車輛制定各種計劃,并擔(dān)任車輛駕駛員。通常,規(guī)劃任務(wù)包括路線規(guī)劃、行為規(guī)劃、軌跡規(guī)劃和混合規(guī)劃。
關(guān)于路線規(guī)劃,LLM可以使用地圖信息、交通規(guī)則和用戶意圖來規(guī)劃車輛的最佳路線??梢钥紤]交通擁堵、道路建設(shè)和天氣條件等因素來選擇最方便、最安全的路徑。[73]將LLM應(yīng)用于周圍環(huán)境的口頭描述、導(dǎo)航指令和其他相關(guān)信息,以提供城市環(huán)境中的元動作級導(dǎo)航序列。[74]使用LLM提取用戶的意圖,并相應(yīng)地以描述和地圖注釋的形式提供路線規(guī)劃。
在行為規(guī)劃方面,LLM可以決定車輛在不同情況下的行為,如加速、減速、變道和避開障礙物。這種元動作決策可以使用自然語言來理解和執(zhí)行,需要綜合考慮車輛動力學(xué)、周圍環(huán)境和其他車輛的行為。[76]提出了一個持續(xù)學(xué)習(xí)框架,以增強AD中多模態(tài)LLMs的行為決策。[77]利用LLMs根據(jù)特定情況提供元動作級行為。LLMs能夠?qū)W習(xí)專業(yè)司機的經(jīng)驗,逐步提高他們的駕駛技能。
關(guān)于軌跡規(guī)劃,除了定量元動作外,LLM還可以為車輛提供更精確的軌跡,例如包括轉(zhuǎn)彎、超車和停車在內(nèi)的軌跡。[80]利用LLM的閉環(huán)框架在復(fù)雜場景中提供定性運動規(guī)劃。副駕駛框架能夠以坐標點的形式為車輛提供詳細的軌跡[81]。
關(guān)于混合規(guī)劃,LLM的推理能力也使混合規(guī)劃(挑戰(zhàn)V)成為可能。這種混合管道整合了不同層次的規(guī)劃,甚至部分感知,形成了“端到端”的規(guī)劃解決方案。[52]提出了一種包含場景描述、場景分析和層次規(guī)劃的思維鏈(CoT),以形成車輛的軌跡計劃。[82]提出了一種“GPT驅(qū)動程序”,利用GPT作為AD任務(wù)的運動規(guī)劃器,通過“提示推理微調(diào)”過程實現(xiàn)。[83]在實際駕駛?cè)蝿?wù)中使用了LLM,其中LLM用于生成規(guī)劃車輛運動的代碼。下游控制器也被用來控制車輛。
除了在規(guī)劃中直接應(yīng)用LLM外,另一種常見的方法是將LLM與現(xiàn)有的規(guī)劃方法相結(jié)合。LLM通過推理或增強來提高傳統(tǒng)方法的性能。這可以稱為基于模型的規(guī)劃(解決挑戰(zhàn)VI)。[86]提出了一種利用LLM來提高感知、預(yù)測和規(guī)劃性能的框架。
控制
由于控制任務(wù)對快速響應(yīng)的要求,LLM目前很難直接替換現(xiàn)有的控制器。然而,由于LLM的理解和推理能力,他們可以在更高的層次上參與控制任務(wù),例如與規(guī)劃任務(wù)相結(jié)合,以提高效率和對不同場景的適應(yīng)性(解決挑戰(zhàn)VII)。[88]將LLM與MPC相結(jié)合,在AD場景中精確控制車輛。LLM在此過程中提供高級決策,并使用相應(yīng)的矩陣對MPC控制器進行微調(diào)。該框架也被認為適用于多車輛控制場景。
還多次嘗試將LLM直接應(yīng)用于AD車輛的控制。它們中的大多數(shù)將計劃和控制相結(jié)合,根據(jù)元動作提供更精確的控制器信息。[81]提出了一種使用ChatGPT作為控制器選擇器的Co-Pilot框架,該框架可以完成所需的任務(wù)并調(diào)整其輸出以正確滿足人類意圖。
端到端方法
作為一種更系統(tǒng)的解決方案,LLM參與了端到端AD解決方案實施過程中的不同步驟,總結(jié)如下。
數(shù)據(jù)基礎(chǔ)
基于學(xué)習(xí)的AD算法,特別是端到端解決方案,在很大程度上依賴于海量數(shù)據(jù)。因此,作為解決方案的一部分,提出了許多用于訓(xùn)練基于LLM的端到端算法的新數(shù)據(jù)集。這些數(shù)據(jù)集大多包含自然語言注釋,因此提供了一個全面的渠道,通過這個渠道,語言可以在訓(xùn)練和實現(xiàn)過程中應(yīng)用。這種注釋也可以作為一種提煉的知識,從而提高訓(xùn)練效率。[92]使用基于Graph VQA的工作流來實現(xiàn)端到端AD,提供了一個包括數(shù)據(jù)集、任務(wù)、基線和指標的整體解決方案。[65]集成視頻幀和文本作為輸入,模型的輸出包括響應(yīng)和預(yù)測控制信號。訓(xùn)練過程包含兩個階段,預(yù)訓(xùn)練和混合微調(diào),后一階段使用ChatGPT注釋數(shù)據(jù)。
表1列出了更具代表性的LLM相關(guān)數(shù)據(jù)集。值得注意的是,這些數(shù)據(jù)集的貢獻不僅限于端到端的解決方案,因為它們?yōu)樗蠥D任務(wù)的開發(fā)和驗證提供了重要的參考。這些數(shù)據(jù)集中自然語言的比例增加,從簡單的標簽過渡到自然語言描述或問答格式,也導(dǎo)致了與感知相關(guān)的挑戰(zhàn)II和III。例如,[50]提出了一個基于NuScene數(shù)據(jù)集的數(shù)據(jù)集,其中包含3D駕駛場景中物體的自然語言注釋。

除了基于真實場景的數(shù)據(jù)集外,在LLM生成能力的幫助下,場景生成也成為AD數(shù)據(jù)集的一個重要方面。這種能力有助于解決數(shù)據(jù)分布的長尾問題,提高訓(xùn)練效率。[95]提出了一個框架,即LCTGen,用于基于描述和地圖數(shù)據(jù)生成動態(tài)交通場景進行模擬。LLM用于將場景的自然語言描述轉(zhuǎn)換為場景的結(jié)構(gòu)化表示。SimCopilot利用LLM將對象交互的自然語言描述轉(zhuǎn)換為虛擬道路場景的編程代碼,大大簡化了AD系統(tǒng)交互數(shù)據(jù)的創(chuàng)建。WEDGE數(shù)據(jù)集直接使用DALLE大模型生成場景圖像,模擬各種天氣條件下的二維道路和交通場景,這是構(gòu)建AD數(shù)據(jù)集的一種新嘗試。
作為端到端代理的大語言模型
LLM本身可以充當代理,同時完成所有駕駛?cè)蝿?wù)。Agent Driver利用LLM作為車輛的智能代理。該代理旨在通過函數(shù)調(diào)用訪問駕駛信息,并充當人類。[110]提出了一種架構(gòu),該架構(gòu)將場景信息編碼為數(shù)字向量,并應(yīng)用預(yù)訓(xùn)練的LLM來理解場景并提供運動水平控制。它還能夠提供其行為的原因,提高解決方案的可解釋性。[111]提出了一種開創(chuàng)性的AD通用世界模型,該模型集成了多模態(tài)LLM和擴散技術(shù),使其能夠直接預(yù)測控制信號,并根據(jù)歷史視覺動作對生成未來幀,從而模擬無限的駕駛體驗。Graph VQA實現(xiàn)了基于VLM的端到端AD流水線。在這種方法中,視覺問題引導(dǎo)推理過程通過不同的階段,在復(fù)雜的場景中取得了顯著的性能。
訓(xùn)練和思考
正如挑戰(zhàn)IX所述,端到端AD解決方案的訓(xùn)練一直是一個重要的話題。法學(xué)碩士主要通過更好的推理和反思提高了這一過程的效率。[113]提出了一種新的端到端AD數(shù)據(jù)集和基準,其中包括傳感器數(shù)據(jù)、控制決策和CoT標簽,以指示推理過程。它還提出了一個基線模型DriveCoTAgent,在該數(shù)據(jù)集上進行訓(xùn)練,以生成CoT預(yù)測和最終決策,在開環(huán)和閉環(huán)評估中表現(xiàn)出強大的性能,并提高了端到端驅(qū)動系統(tǒng)的可解釋性和可控性。DriveGPT4能夠在模擬環(huán)境中執(zhí)行零樣本泛化,顯示出提高訓(xùn)練效率的潛力。
其他方面
除了直接實現(xiàn)AD任務(wù)外,LLM還廣泛應(yīng)用于支持AD的應(yīng)用,包括人機交互、安全、道德和公平問題。關(guān)于人機交互,[114]提出了一個框架,可以通過評估和迭代優(yōu)化使用LLM執(zhí)行AD任務(wù)的代碼。[115]提出了一個以人為中心的框架,將LLM整合到AD的規(guī)劃中,在復(fù)雜的駕駛?cè)蝿?wù)中提供有用的幫助,并通過推理回應(yīng)不同的查詢。AccidentGPT可以響應(yīng)駕駛員的查詢,或自動提供具體建議(例如減速)和駕駛安全通知。
大語言模型會成為自動駕駛的靈丹妙藥嗎?
在第4節(jié)中,我們系統(tǒng)地展示了LLM在AD中的應(yīng)用越來越多。這些應(yīng)用涵蓋了AD的整個領(lǐng)域,許多應(yīng)用展示了LLMs超越現(xiàn)有AD算法并應(yīng)對前面討論的挑戰(zhàn)的潛力。根據(jù)我們的調(diào)查和分析,我們試圖通過基于LLM的AD解決方案的進展,提供對這些現(xiàn)有挑戰(zhàn)已經(jīng)或預(yù)計將如何解決的見解。因此,我們將這些見解分為以下三個層次,并在表2中描述了挑戰(zhàn)。
- 解決方案洞察A:LLM在解決相應(yīng)挑戰(zhàn)方面表現(xiàn)出了顯著的能力,可以期待基于LLM的全面解決方案。
- 解決方案洞察B:LLM已經(jīng)證明有能力解決相應(yīng)的挑戰(zhàn),但鑒于LLM目前的缺點,挑戰(zhàn)可能無法完全解決。
- 解決方案洞察C:LLM可以提高相關(guān)任務(wù)的性能,但可能無法解決挑戰(zhàn)中的關(guān)鍵問題。

如表2所示,我們可以得出結(jié)論,LLM在為現(xiàn)有AD算法中的當前挑戰(zhàn)提供有效解決方案方面表現(xiàn)出了巨大的潛力。具體而言,我們認為LLMs在AD任務(wù)中的表現(xiàn)主要源于以下幾個方面。
- 常識。常識是每個成年人都應(yīng)該具備的實際判斷或基本事實知識的基本水平。它是人類基于積累的經(jīng)驗和知識而提煉出來的理解。常識在日常生活中起著至關(guān)重要的作用。人類通過模仿快速獲得特定技能的能力與此密切相關(guān)。例如,一個成年人需要大約20個小時的訓(xùn)練才能通過駕駛考試。這是因為訓(xùn)練主要側(cè)重于駕駛的操作技能。許多其他與駕駛相關(guān)的技能,如識別交通信號或標志,都是直觀理解的,不需要大量學(xué)習(xí)。然而,對于AD模型,每個元素都必須單獨設(shè)計和訓(xùn)練。法學(xué)碩士從廣泛的語料庫中積累了一種“常識”。這可以被視為高維空間中特定語義指標的表示。例如,與“紅燈”和“停車”概念相對應(yīng)的表示向量可能在表示AD行為的維度上具有緊密投影。這使得LLM能夠以最少的預(yù)先指令執(zhí)行復(fù)雜的AD任務(wù),并使很少的射擊學(xué)習(xí)成為可能。
- 推理能力。與以前的語言模型相比,LLM能夠理解文本輸入中的因果關(guān)系和邏輯關(guān)系。因此,一些研究人員認為LLMs能夠像人類一樣進行推理。這種推理能力增強了LLM對交通場景的理解,這對于需要預(yù)測未來情況并做出相應(yīng)決策的AD任務(wù)至關(guān)重要。此外,LLM的推理能力為AD中遇到的“長尾”問題提供了一種潛在的解決方案。即使在極端情況下,這些模型也可以根據(jù)其推理做出準確的決策。
- 溝通能力。LLM的另一個重要能力是它們可以與人類流利地交流。重新審視人類的駕駛行為,我們可以注意到語言主要用于導(dǎo)航和路線描述。LLM可以理解人類的意圖,并通過推理提供適當?shù)妮敵?,因此可以直接參與駕駛過程。除了駕駛?cè)蝿?wù)本身,與人類溝通的能力也有利于LLM在訓(xùn)練和調(diào)整過程中。人類和LLM之間的相互理解和互動在一定程度上解決了神經(jīng)網(wǎng)絡(luò)作為黑盒模型的問題。
我們注意到,LLM的這些優(yōu)勢部分解決了數(shù)據(jù)驅(qū)動學(xué)習(xí)算法遺留下來的幾個長期缺陷。這些算法在AD實現(xiàn)中得到了廣泛的應(yīng)用,給AD任務(wù)帶來了特定的挑戰(zhàn)。因此,LLM能夠為他們提供解決方案。此外,我們可以得出結(jié)論,這意味著從以數(shù)據(jù)為中心的模型向利用數(shù)據(jù)和知識的混合模型的轉(zhuǎn)變。這種雙重驅(qū)動的方法結(jié)合了兩種范式的優(yōu)點。從執(zhí)行駕駛?cè)蝿?wù)的角度來看,這種轉(zhuǎn)變也使實施過程更類似于人類決策,這可能是AD的最終目標。我們預(yù)計未來數(shù)據(jù)和知識將在相當長的一段時間內(nèi)共存,可能以LLM的形式體現(xiàn)出來,知識在AD解決方案中的作用逐漸凸顯。未來的研究應(yīng)側(cè)重于如何更好地整合數(shù)據(jù)驅(qū)動和基于知識的方法,以提高AD解決方案的訓(xùn)練和實施效率。
存在的限制
盡管取得了各種進步,但我們必須指出,LLM在AD中的進一步應(yīng)用面臨著許多局限性和挑戰(zhàn)。作為一種安全關(guān)鍵場景,這些局限性需要在未來的研究中得到更多的關(guān)注。其中一些局限性主要是由于當前LLM性能的缺點,這些缺點繼承了它們的模型結(jié)構(gòu)、訓(xùn)練方法或?qū)崿F(xiàn)。
- LLMs的“幻覺”問題。“幻覺”是指LLM在沒有充分依據(jù)的情況下給出的結(jié)果與事實或用戶要求不符的情況。這種現(xiàn)象在LLM中很常見,作為一個具有高安全要求的系統(tǒng),在AD過程中對這些問題的容忍度非常低。因此,必須采取措施防止幻覺問題。現(xiàn)有研究表明,LLM的幻覺主要來自數(shù)據(jù)、訓(xùn)練和推理過程。為了解決這些原因,可以使用檢索增強生成(RAG)、改進預(yù)訓(xùn)練和調(diào)優(yōu)過程以及設(shè)計CoT等方法來改進。此外,為了防止可能的錯誤結(jié)果影響車輛的實際運行,還可以設(shè)計保險機制,并使用其他規(guī)則來判斷LLM輸出的合理性。
- 模型響應(yīng)時間。實時性能差是目前LLM的缺點之一。無論模型是在線還是離線,LLM的巨大數(shù)量都使其響應(yīng)延遲難以忽視。這在AD的背景下可能會產(chǎn)生嚴重的后果,特別是對響應(yīng)時間高度敏感的任務(wù)(如控制)。一方面可以通過提高計算能力來解決這個問題,另一方面,在實時性能得到解決之前,LLM可能更適合具有更高延遲容限的任務(wù)。
- 對物理世界缺乏了解。雖然LLM在處理和生成文本方面很強大,但在理解物理世界方面卻有一個明顯的缺點。他們?nèi)狈εc環(huán)境互動并從中學(xué)習(xí)的能力,這意味著他們對重力、動量或物體紋理等物理概念沒有直接的理解。他們無法像人類甚至一些機器人那樣體驗世界。他們的知識完全基于他們接受訓(xùn)練的文本,他們很難根據(jù)現(xiàn)實世界的經(jīng)驗或感官輸入來更新這些知識。這限制了他們準確建?;蝾A(yù)測物理現(xiàn)象的能力,并可能導(dǎo)致在物理世界中產(chǎn)生無意義或不正確的輸出。當將這些模型應(yīng)用于需要深入了解物理世界(如駕駛車輛)的任務(wù)時,這是一個重大限制。進一步提高LLM有效捕獲和理解現(xiàn)實世界信息的能力非常重要。
其他挑戰(zhàn)來自LLM和AD任務(wù)的結(jié)合。
- 隱私和安全考慮。自動駕駛汽車使用的數(shù)據(jù)通常非常敏感,包括特定位置、駕駛習(xí)慣等細節(jié)。這些數(shù)據(jù)對于微調(diào)AD任務(wù)的LLM至關(guān)重要。這引發(fā)了嚴重的數(shù)據(jù)隱私和安全問題。例如,如果法學(xué)碩士在無意中包含個人信息的公開數(shù)據(jù)上接受培訓(xùn),它可能會學(xué)習(xí)和復(fù)制這些信息,從而導(dǎo)致隱私泄露。確保這些數(shù)據(jù)得到安全處理,并且模型不會無意中泄露這些信息,這是一個關(guān)鍵的挑戰(zhàn)。
- 語言造成的偏見。我們注意到,現(xiàn)在幾乎所有的法學(xué)碩士都使用英語作為對話語言,涉及其他語言的實驗和研究很少。由于語言具有更強的區(qū)域性,我們認為這可能會成為一種潛在的偏見,即使用不同語言時模型的性能無法保持一致。這種偏見可能比基于視覺和其他模式的算法更明顯,也可能帶來潛在的倫理和道德風(fēng)險。此外,訓(xùn)練數(shù)據(jù)隱私和數(shù)據(jù)集安全等問題也值得關(guān)注。我們認為可以進行進一步的研究來解決這些問題。
在LLM應(yīng)用于現(xiàn)實世界的AD應(yīng)用之前,需要解決這些挑戰(zhàn),但我們相信,LLM和相關(guān)AD解決方案的快速發(fā)展將不斷為這些挑戰(zhàn)提供新的見解。
Perspectives
自AD概念提出以來,研究人員一直在探索實現(xiàn)這一目標的不同途徑。針對不同的技術(shù)路徑,已經(jīng)進行了許多討論。因此,我們想回顧一下其中的一些討論,并就AD的最終解決方案提出一些看法。
端到端 or 模塊法自動機愛誰
模塊化和端到端方法一直是AD技術(shù)討論的前沿。本文的引言部分總結(jié)了這兩種路徑的一些優(yōu)缺點。然而,LLMs為這場討論帶來了新的亮點。一方面,LLM的出現(xiàn)模糊了模塊化和端到端方法之間的界限。LLM的多功能性使其能夠同時完成多項任務(wù),從而打破了傳統(tǒng)的模塊化界限。例如,LLM執(zhí)行的許多規(guī)劃任務(wù)直接基于原始傳感器輸入。從功能上講,這種實現(xiàn)涵蓋了從感知到規(guī)劃的所有方面,在形式上,它們可以被視為接近端到端的實現(xiàn)。我們認為,隨著模型泛化能力的增強,這種模糊可能會成為一種趨勢。
另一方面,研究人員已經(jīng)開始更加關(guān)注端到端方法的核心,而不是形式本身。端到端解決方案的優(yōu)點可以概括為提供統(tǒng)一的信道,減少不同模塊之間的信息傳輸損失。換言之,只要確保信息的完整傳遞,形式上的差異就不再重要。這也是UniAD“模塊化端到端”的起源。這種端到端方法形式的轉(zhuǎn)變也可能為端到端算法的測試和驗證等現(xiàn)有問題提供解決方案。
因此,我們可以相信,端到端和模塊化在形式上的區(qū)別將繼續(xù)減弱,但考慮到系統(tǒng)的安全性和魯棒性,一些成熟的模塊(如ADAS)將在實際應(yīng)用中長期保留。
通用人工智能與駕駛智能
最后,我們得出了AD領(lǐng)域長期存在的一個爭論:高度先進的AGI對于實現(xiàn)最佳AD是否不可或缺?一方面,正如我們之前提到的,LLMs所擁有的常識和其他知識在執(zhí)行AD任務(wù)中發(fā)揮了重要作用。雖然我們還不能確定LLM是否是AGI的重要途徑點,但它們在一定程度上滿足了人們對AGI的期望。應(yīng)用自然語言的能力使他們能夠有效地從龐大的人類語言語料庫中學(xué)習(xí),并以易于理解的方式與人類互動。另一方面,人類的駕駛技能相對獨立。例如,一位經(jīng)驗豐富的卡車司機可能沒有受過高等教育,而AD研究人員可能沒有駕照。這意味著通用人工智能不一定是最佳AD的唯一解決方案。
從理想主義的角度來看,構(gòu)建一個駕駛智能實體似乎更容易。我們距離AGI還有很長的路要走,而隨著大模型、世界模型等的成熟,駕駛智能更容易實現(xiàn)。如果我們能夠開發(fā)專門用于駕駛智能的算法,我們可能能夠解決更多與大型模型相關(guān)的問題。然而,實現(xiàn)這一目標也帶來了許多挑戰(zhàn)。首先,最優(yōu)AD的定義仍然有些模糊。什么樣的駕駛策略可以被稱為最優(yōu),仍然是一個值得進一步研究和討論的話題。此外,理想化最優(yōu)駕駛模型本身的實施也存在一些挑戰(zhàn)。例如,由于人類認知的局限性,精確定義最佳駕駛所需的知識是具有挑戰(zhàn)性的。圖2從知識的角度說明了這一點。最佳駕駛所需的一些知識可能還沒有一種方法可以總結(jié),例如經(jīng)驗豐富的駕駛員在關(guān)鍵情況下做出的直觀判斷。
另一方面,我們相信LLMs在不久的將來仍將是AGI類藥物的最佳形式之一。因此,LLM驅(qū)動的AD仍將是一個值得注意的研究前沿。為了進一步優(yōu)化LLM在AD任務(wù)中的應(yīng)用,我們認為可以在以下領(lǐng)域進行研究。首先,優(yōu)化LLM本身的結(jié)構(gòu),設(shè)計更有效的培訓(xùn)方法。與現(xiàn)有模型相比,這些改進可以增強模型在推理、常識等方面的能力。此外,設(shè)計更好的結(jié)構(gòu)可以幫助減少微調(diào)和本地部署期間的計算功耗。這有助于在智能車輛中部署LLM,改善響應(yīng)時間長的問題,并降低應(yīng)用LLM的成本。此外,在AD和LLM的集成中可以進行各種優(yōu)化。例如,在預(yù)訓(xùn)練階段引入更多與AD相關(guān)的數(shù)據(jù)。現(xiàn)有智能車輛的軟件和硬件結(jié)構(gòu)也可以進行優(yōu)化,以支持LLM的系統(tǒng)級集成應(yīng)用。
總的來說,這個問題可能在很大程度上取決于人工智能技術(shù)的后續(xù)發(fā)展:通用人工智能的發(fā)展能否實現(xiàn)快速突破,或者駕駛智能模型能否更快地實現(xiàn)。我們認為,在相當長的一段時間內(nèi),這兩種方法都有其優(yōu)勢,將共存或相互備份,就像模塊化和端到端解決方案一樣。




























