馬作的盧飛快!上海AI Lab發(fā)布首個(gè)模仿人類學(xué)習(xí)范式的自動(dòng)駕駛決策框架DiLu
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
DiLu(的盧)是首個(gè)基于AI Agent范式的知識(shí)驅(qū)動(dòng)自動(dòng)駕駛框架,其結(jié)合了常識(shí)知識(shí)和大語(yǔ)言模型,通過記憶模塊以實(shí)現(xiàn)閉環(huán)自動(dòng)駕駛決策制定并擁有持續(xù)進(jìn)化的能力。通過不斷對(duì)環(huán)境的交互積累經(jīng)驗(yàn),自我反思糾正錯(cuò)誤的決策,從而實(shí)現(xiàn)Life-long Learning。DiLu現(xiàn)已在GitHub上開源,歡迎大家體驗(yàn)。
論文信息

- 論文題目:DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models ( ICLR 2024 接收)
 - 論文發(fā)表單位:上海人工智能實(shí)驗(yàn)室,華東師范大學(xué),香港中文大學(xué)
 - 論文地址:https://arxiv.org/abs/2309.16292
 - 代碼地址:https://github.com/PJLab-ADG/DiLu
 
研究動(dòng)機(jī)
自動(dòng)駕駛技術(shù)近年來發(fā)展迅速,但目前仍然面臨著諸多挑戰(zhàn)。最主要的挑戰(zhàn)之一是數(shù)據(jù)集偏差和過擬合問題,當(dāng)前的系統(tǒng)大多基于數(shù)據(jù)驅(qū)動(dòng)(Data-driven)的深度學(xué)習(xí)方法,它們?cè)跇?biāo)準(zhǔn)化和簡(jiǎn)單的駕駛場(chǎng)景下表現(xiàn)良好,但在復(fù)雜多變的真實(shí)世界環(huán)境中卻經(jīng)常遇到困難。同時(shí),當(dāng)前的自動(dòng)駕駛系統(tǒng)在理解復(fù)雜的交通環(huán)境、預(yù)測(cè)其他車輛和行人的行為等方面還存在不足。
正如Yann LeCun 所指出的 [1]:為什么一個(gè)從未開過車的少年可以在20 小時(shí)內(nèi)學(xué)會(huì)駕駛,而當(dāng)今最好的自動(dòng)駕駛系統(tǒng)則需要數(shù)十億的訓(xùn)練數(shù)據(jù)和數(shù)百萬次在虛擬環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)試驗(yàn)?
這些問題的根源在于現(xiàn)有系統(tǒng)缺乏對(duì)環(huán)境深層次理解和適應(yīng)性,在面對(duì)未知或復(fù)雜場(chǎng)景時(shí)的表現(xiàn)遠(yuǎn)遠(yuǎn)不及人類駕駛員。人類駕駛員能夠利用其豐富的駕駛經(jīng)驗(yàn)和常識(shí)性知識(shí),靈活地應(yīng)對(duì)各種駕駛情境。這種能力源自于人類的知識(shí)驅(qū)動(dòng)行為,即基于對(duì)環(huán)境的理解、經(jīng)驗(yàn)的積累和邏輯推理來做出決策。這引發(fā)了我們的思考,如何將人類的這種知識(shí)驅(qū)動(dòng)方式應(yīng)用于自動(dòng)駕駛系統(tǒng),以使其能夠不斷積累經(jīng)驗(yàn),提升其在面對(duì)復(fù)雜環(huán)境時(shí)的表現(xiàn)。
知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛范式
基于上述動(dòng)機(jī),我們提出了知識(shí)驅(qū)動(dòng)(Knowledge-driven)的自動(dòng)駕駛范式。這一范式的靈感正是來源于人類的駕駛行為。當(dāng)面臨新的駕駛情境時(shí),人類駕駛員依靠積累的經(jīng)驗(yàn)和常識(shí)做出決策。例如,遇到前車可能掉落貨物的情況時(shí),人類會(huì)基于常識(shí)保持安全距離。這種基于知識(shí)的決策過程與數(shù)據(jù)驅(qū)動(dòng)方法截然不同,后者依賴大量相似數(shù)據(jù)來擬合特定場(chǎng)景,但缺乏對(duì)環(huán)境的深入理解。

在上圖中,我們展示了這一范式的理念。圖中的駕駛智能體(Driver Agent)具有三個(gè)關(guān)鍵能力:回憶(Recall)、反思(Reflect)和推理(Reason)。這些能力使得智能體不僅能夠從記憶模塊(Memory)中提取過往經(jīng)驗(yàn),進(jìn)行場(chǎng)景分析和決策;還能通過與環(huán)境(Environment)的不斷交互和記憶的更新,實(shí)現(xiàn)持續(xù)的進(jìn)化。與傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)方法相比,知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛范式更加注重對(duì)環(huán)境的理解推理和自我持續(xù)學(xué)習(xí)的能力。
關(guān)于知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛更細(xì)致的介紹,請(qǐng)參考我們團(tuán)隊(duì)的綜述:Towards Knowledge-driven Autonomous Driving (https://arxiv.org/abs/2312.04316). [2]
DiLu框架介紹
基于上述知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛新范式,我們嘗試并實(shí)現(xiàn)了一個(gè)全新的自動(dòng)駕駛框架:DiLu(的盧)。該框架通過整合利用大語(yǔ)言模型(LLM),實(shí)現(xiàn)基于常識(shí)的決策和持續(xù)的駕駛經(jīng)驗(yàn)累積。該框架由四個(gè)核心模塊組成:環(huán)境(Environment)、推理(Reasoning)、反思(Reflection)和記憶(Memory)。下圖詳細(xì)展示了DiLu框架的工作流程和各模塊之間的交互方式,包括環(huán)境感知、推理決策生成、決策的反思評(píng)估,以及記憶的更新和累積。

推理模塊是DiLu框架中的關(guān)鍵組成部分,它利用LLM的常識(shí)知識(shí)和存儲(chǔ)在記憶模塊中的經(jīng)驗(yàn)來進(jìn)行Few-shot決策制定。具體來說,推理模塊首先從環(huán)境中獲得場(chǎng)景描述,然后結(jié)合記憶模塊中的相似經(jīng)驗(yàn)生成決策所需Prompt。接著,這些提示被輸入到LLM中,LLM基于這些信息生成當(dāng)前幀的駕駛決策,并輸入環(huán)境實(shí)現(xiàn)決策閉環(huán)。下圖展示了推理模塊的工作流程,包括場(chǎng)景描述的生成、記憶模塊的調(diào)用、提示的生成以及LLM的決策解碼過程。

反思模塊是DiLu框架中的另一個(gè)核心部分,它負(fù)責(zé)評(píng)估并修正推理模塊產(chǎn)生的決策。這一模塊通過分析記錄的決策序列來識(shí)別不安全或不準(zhǔn)確的決策,并利用LLM的智能對(duì)這些錯(cuò)誤決策進(jìn)行修正。修正后的決策會(huì)被更新回記憶模塊,從而實(shí)現(xiàn)系統(tǒng)的持續(xù)學(xué)習(xí)和進(jìn)化。下圖展示了反思模塊的工作流程,包括決策的評(píng)估、關(guān)鍵決策幀的采樣、錯(cuò)誤修正和經(jīng)驗(yàn)的更新過程。

實(shí)驗(yàn)結(jié)果
DiLu使用Highway-env仿真環(huán)境進(jìn)行閉環(huán)實(shí)驗(yàn)測(cè)試。Highway-env [3] 是一個(gè)基于OpenAI Gym開發(fā)的Python環(huán)境,專為開發(fā)和測(cè)試自動(dòng)駕駛系統(tǒng)的決策算法而設(shè)計(jì),提供了一個(gè)充滿挑戰(zhàn)的多車交互路況環(huán)境。下面這個(gè)視頻展示了一次閉環(huán)實(shí)驗(yàn)中,DiLu框架如何在復(fù)雜的交通情境中作出決策。視頻中,綠色的自車不僅成功地進(jìn)行了變道以提升車速,還像經(jīng)驗(yàn)豐富的司機(jī)一樣與前車保持了安全距離,沒有采取任何冒險(xiǎn)的駕駛策略。同時(shí),DiLu在每個(gè)決策節(jié)點(diǎn)不僅能做出準(zhǔn)確的駕駛決策,還能展示其完整的推理過程,這一點(diǎn)體現(xiàn)了我們框架優(yōu)異的可解釋性。
此外,我們還進(jìn)行了一系列精心設(shè)計(jì)的量化實(shí)驗(yàn),來驗(yàn)證DiLu框架在自動(dòng)駕駛閉環(huán)決策中的表現(xiàn)。我們將DiLu與Highway-env下現(xiàn)有的強(qiáng)化學(xué)習(xí)方法GRAD [4] 進(jìn)行了比較。我們發(fā)現(xiàn),DiLu 僅使用記憶模塊中的 40 條經(jīng)驗(yàn)就超過了強(qiáng)化學(xué)習(xí)方法在 600,000 個(gè)episodes訓(xùn)練后的閉環(huán)表現(xiàn)。同時(shí),DiLu在泛化能力方面也表現(xiàn)出顯著的優(yōu)勢(shì),特別是在高密度交通環(huán)境下,DiLu展示了其出色的閉環(huán)成功率?;跀?shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法相比,DiLu不僅更加聰明,而且具有更強(qiáng)的泛化能力。此外,我們的實(shí)驗(yàn)也證實(shí)了DiLu框架能夠有效利用其記憶模塊中的經(jīng)驗(yàn),不斷地提升決策質(zhì)量和系統(tǒng)的整體性能。

總結(jié)
DiLu是首個(gè)基于AI Agent范式的知識(shí)驅(qū)動(dòng)自動(dòng)駕駛框架,可能也是第一個(gè)將LLM和自動(dòng)駕駛決策相結(jié)合的工作。具體來說:DiLu結(jié)合了常識(shí)知識(shí)和大語(yǔ)言模型技術(shù),通過記憶模塊以實(shí)現(xiàn)駕駛決策制定并擁有持續(xù)進(jìn)化的能力。DiLu可以通過不斷對(duì)環(huán)境的交互積累經(jīng)驗(yàn),并通過自我反思糾正錯(cuò)誤的決策,從而實(shí)現(xiàn)Life-long Learning。通過大量實(shí)驗(yàn),我們證明了DiLu框架在經(jīng)驗(yàn)積累和泛化能力方面具有顯著優(yōu)勢(shì),并可以隨著LLM的發(fā)展同步提升性能。此外,DiLu還能夠直接從真實(shí)世界數(shù)據(jù)集中獲取經(jīng)驗(yàn),這為其在實(shí)際自動(dòng)駕駛系統(tǒng)中的應(yīng)用提供了潛力。

原文鏈接:https://mp.weixin.qq.com/s/2sKGP7HfxVQgEMqqez-dNA















 
 
 













 
 
 
 