完美發(fā)揮LLM和規(guī)則的雙重魔力!UCLA提出全新可解釋決策規(guī)劃框架
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面 && 筆者理解
對(duì)于自動(dòng)駕駛車輛要無縫融入為人類設(shè)計(jì)的交通系統(tǒng),它們首先要“安全”,也就是作者常說的"Safty first!",但是同時(shí)也還會(huì)有一個(gè)關(guān)鍵要求就是“遵守交通規(guī)則(交通法規(guī)、法律和社會(huì)規(guī)范)”。但是交通規(guī)則是多樣且復(fù)雜的,涵蓋了來自不同地區(qū)法律、駕駛規(guī)范的數(shù)千條法規(guī)。在這些交通規(guī)則中,自車必須考慮各種因素,比如其他道路參與者的行為、當(dāng)前道路狀況和環(huán)境背景,來識(shí)別與特定場(chǎng)景相關(guān)的規(guī)則。這些因素的任何變化可能需要不同的規(guī)則或重新優(yōu)先考慮現(xiàn)有規(guī)則。
- 論文鏈接:https://arxiv.org/pdf/2410.04759
之前的一些工作集中在選擇關(guān)鍵規(guī)則和人工寫的決策規(guī)則上,然而,這種手動(dòng)編碼方法難以處理大量交通規(guī)則,并且不能輕易適應(yīng)不同地區(qū)的法規(guī)。另外,交通規(guī)則的語義復(fù)雜性和上下文依賴性也是做決策的另一個(gè)難點(diǎn)。交通規(guī)則從標(biāo)準(zhǔn)解釋到特定駕駛行為都有涵蓋,需要以不同的方式整合到?jīng)Q策過程中。例如,法律的約束是嚴(yán)格的,而當(dāng)?shù)匾?guī)范和安全條款可能需要根據(jù)場(chǎng)景靈活應(yīng)用。因此,智能地理解和將人工寫的的規(guī)則納入決策系統(tǒng)對(duì)于自動(dòng)駕駛車輛無縫融入人類交通系統(tǒng)至關(guān)重要。
對(duì)于為特定任務(wù)訓(xùn)練的傳統(tǒng)AI系統(tǒng)來說,這是一個(gè)挑戰(zhàn),但具有強(qiáng)大理解和推理能力的大型語言模型(LLMs),可以做到!本文介紹了一個(gè)新的可解釋的遵守交通規(guī)則的決策者,它結(jié)合了一個(gè)基于檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)構(gòu)建的交通規(guī)則檢索智能體和使用LLM(GPT-4o)的推理模塊。推理模塊會(huì)從兩個(gè)層面上來評(píng)估行動(dòng):
- 行動(dòng)是否合規(guī),即它是否遵循所有強(qiáng)制性交通規(guī)則;
- 行動(dòng)是否被認(rèn)為是安全行為,即它是否既遵守強(qiáng)制性交通規(guī)則又遵循安全指南。
這種雙重層面的評(píng)估確保了對(duì)合法合規(guī)和遵守安全駕駛實(shí)踐的全面評(píng)估和決策。此外,為了增強(qiáng)可解釋性,中間推理信息,如推理過程中使用交通規(guī)則,也會(huì)被輸出,提供了評(píng)估者決策過程的透明度。
相關(guān)工作
自動(dòng)駕駛中的交通規(guī)則
為了將交通規(guī)則集成到自動(dòng)駕駛系統(tǒng)中,已經(jīng)有過很多的方法。早期的方法包括基于規(guī)則的系統(tǒng)和有限狀態(tài)機(jī),這些系統(tǒng)通過顯式的if-then規(guī)則或狀態(tài)轉(zhuǎn)換來編碼交通法律。為了處理復(fù)雜場(chǎng)景,出現(xiàn)了更復(fù)雜的方法:行為樹創(chuàng)建了能夠表示和執(zhí)行交通規(guī)則的分層決策結(jié)構(gòu),以及使用LTL或MTL等時(shí)間邏輯的形式方法為指定和驗(yàn)證遵守交通法律提供了嚴(yán)格的框架。然而,這些方法通常難以應(yīng)對(duì)現(xiàn)實(shí)世界交通規(guī)則的模糊性和地域差異,導(dǎo)致在創(chuàng)建能夠適應(yīng)不同監(jiān)管環(huán)境的自動(dòng)駕駛車輛時(shí)面臨挑戰(zhàn)。最近,大型語言模型(LLMs)在理解自然語言和解釋復(fù)雜場(chǎng)景方面展現(xiàn)出了顯著的能力。利用這些能力,LLMs可以以更靈活和上下文感知的方式處理和整合交通規(guī)則,無需基于規(guī)則的編碼。例如,LLaDA利用LLMs從當(dāng)?shù)厥謨?cè)中解釋交通規(guī)則,使自動(dòng)駕駛車輛能夠相應(yīng)地調(diào)整任務(wù)和運(yùn)動(dòng)計(jì)劃。同樣,AgentDriver將交通規(guī)則納入基于LLM的認(rèn)知框架中,在規(guī)劃期間存儲(chǔ)和參考這些規(guī)則。然而,確保LLMs準(zhǔn)確應(yīng)用相關(guān)交通規(guī)則而不產(chǎn)生幻覺或誤解仍然是一個(gè)關(guān)鍵挑戰(zhàn)。
檢索增強(qiáng)生成
檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)通過結(jié)合神經(jīng)檢索和sequence-tosequence生成器,解決LLM幻覺問題并提高信息檢索的準(zhǔn)確性,最近的一些研究已經(jīng)證明了RAG在提高LLM在當(dāng)前事件、語言建模和開放領(lǐng)域問答等領(lǐng)域的準(zhǔn)確性和事實(shí)正確性方面的有效性。這些發(fā)現(xiàn)引發(fā)了RAG在提高基于LLM的自動(dòng)駕駛系統(tǒng)的交通規(guī)則合規(guī)性方面的潛力。其動(dòng)態(tài)檢索能力使實(shí)時(shí)訪問特定地區(qū)的交通規(guī)則成為可能,解決了適應(yīng)不同監(jiān)管環(huán)境的挑戰(zhàn)。RAG提供的事實(shí)增強(qiáng)可以減少LLM中的幻覺,降低編造或誤用交通規(guī)則的風(fēng)險(xiǎn)。RAG處理復(fù)雜和上下文信息的能力也非常適合解釋具有多個(gè)條件或例外的微妙交通規(guī)則。此外,RAG的檢索過程中固有的透明度可以提高自動(dòng)駕駛系統(tǒng)中決策的可解釋性,這是法規(guī)合規(guī)性和公眾信任的一個(gè)關(guān)鍵因素。
自動(dòng)駕駛的決策
自動(dòng)駕駛的決策方法已經(jīng)從基于規(guī)則的發(fā)展到基于學(xué)習(xí)的方法?;趯W(xué)習(xí)的方法在動(dòng)態(tài)駕駛環(huán)境中比前者表現(xiàn)出更大的適應(yīng)性,使自動(dòng)駕駛車輛擺脫了復(fù)雜手工規(guī)則的約束。兩種典型的學(xué)習(xí)方法是模仿學(xué)習(xí)(imitation learning, IL)和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)。IL專注于模仿專家的決策,但面臨在線部署中的不同分布問題。相反,RL在在線交互中探索和學(xué)習(xí),但這種試錯(cuò)方法效率低下。此外,另一篇論文GPT-Driver引入了GPT到自動(dòng)駕駛車輛中,將規(guī)劃重新構(gòu)想為語言建模問題。然而,在由交通規(guī)則構(gòu)建的人類駕駛環(huán)境中,自動(dòng)駕駛車輛不僅需要確保安全,還需要在駕駛過程中遵循這些規(guī)則,同時(shí)與人類駕駛的車輛一起駕駛。使用統(tǒng)一模型將不同的語義交通規(guī)則整合到?jīng)Q策中仍然是一個(gè)未充分探索的領(lǐng)域。
提出的方法
作者提出的方法,如圖1所示,包含兩個(gè)主要組件:
- 一個(gè)交通規(guī)則檢索智能體(Traffic Rules Retrieval Agent),它使用檢索查詢從法規(guī)文檔中檢索相關(guān)交通規(guī)則;
- 一個(gè)推理智能體(Reasoning Agent),它基于環(huán)境信息、自車的狀態(tài)和檢索到的交通規(guī)則來評(píng)估行動(dòng)集(action set)中每個(gè)行動(dòng)的交通規(guī)則依從性。
作者首先做環(huán)境分析,為交通規(guī)則檢索智能體生成檢索查詢,并為推理智能體提供環(huán)境信息輸入。為了提取超出常見感知輸出的更多法規(guī)相關(guān)特征,作者使用視覺語言模型(Vision Language Model,VLM)GPT-4o,基于自車的攝像頭圖像分析環(huán)境。分析遵循精心設(shè)計(jì)的“思考鏈”(Chain-of-Thought,CoT)流程:VLM首先進(jìn)行廣泛的環(huán)境概覽并檢查一般道路信息,然后進(jìn)行詳細(xì)分析,重點(diǎn)關(guān)注關(guān)鍵要素,如其他道路使用者、交通元素和車道標(biāo)記,特別是與車輛全局規(guī)劃輸出相關(guān)的元素(例如,“右”、“左”或“向前”)。然后VLM生成一個(gè)簡(jiǎn)潔的檢索查詢,總結(jié)當(dāng)前場(chǎng)景的情況,供交通規(guī)則檢索智能體使用。
圖3展示了環(huán)境分析的一個(gè)示例輸出。作者從基于全局規(guī)劃輸出的行動(dòng)空間(Action Space)中提取一個(gè)行動(dòng)集,該行動(dòng)集包含所有可能的行動(dòng)。為了簡(jiǎn)單起見,作者將行動(dòng)空間僅包含一組預(yù)定義的行動(dòng):右轉(zhuǎn)、左轉(zhuǎn)、向前行駛(以當(dāng)前速度、加速或減速)、向左變道和向右變道。提取過程選擇與全局規(guī)劃輸出一致的行動(dòng)。例如,如果全局規(guī)劃輸出是“左”,行動(dòng)集將包括以當(dāng)前速度、加速或減速左轉(zhuǎn)。
交通法規(guī)的檢索增強(qiáng)生成
為了增強(qiáng)模型對(duì)本地交通規(guī)則和規(guī)范的理解,并充分考慮所有可用來源的相關(guān)規(guī)則,作者開發(fā)了交通規(guī)則檢索(Traffic Regulation Retrieval, TRR)智能體,如圖2所示。
由于不同地區(qū)有不同的交通規(guī)則來源,作者以美國(guó)為例來展示TRR智能體如何充分考慮可用來源。由于憲法原因,美國(guó)的交通規(guī)則由各州而不是聯(lián)邦政府制定。城市還建立了本地規(guī)則以管理交通并確保安全。為確保全面覆蓋,TRR包括州和地方法規(guī)。此外,為美國(guó)司法系統(tǒng)提供參考的案例法和提供額外安全指南的駕駛手冊(cè)也被視為重要來源,并被納入TRR。因此,作者設(shè)計(jì)的TRR包含以下綜合法規(guī)文檔集合:
- 州級(jí)交通法律:由州立法機(jī)構(gòu)制定并在整個(gè)州執(zhí)行的,規(guī)范車輛運(yùn)營(yíng)并確保道路安全的法律。
- 州級(jí)駕駛手冊(cè):由各州DMV出版,詳細(xì)說明州交通法律和安全駕駛實(shí)踐。它包括以文本和插圖形式呈現(xiàn)的駕駛安全指南。
- 市級(jí)交通規(guī)則:由地方政府制定,用于解決特定需求(如停車、速度限制和車道使用)的規(guī)則,以管理本地交通并確保安全。
- 州級(jí)法院案例:對(duì)交通相關(guān)案例的司法裁決澄清法律并影響執(zhí)法。
- 交通規(guī)范:被廣泛認(rèn)可的駕駛員遵循的行為,以確保順暢和安全的道路互動(dòng)。這些規(guī)范對(duì)于自動(dòng)駕駛車輛與人類駕駛行為和社會(huì)期望保持一致至關(guān)重要。本文不專注于為這些規(guī)范建立記錄庫(kù),但作者將使用示例來說明作者的框架仍然適用。
在評(píng)估了基于傳統(tǒng)倒排索引的檢索方法(依賴于關(guān)鍵詞輸入,如BM25和Taily)的檢索性能后,作者發(fā)現(xiàn)基于嵌入的算法(利用信息豐富的長(zhǎng)查詢并根據(jù)段落相似性檢索)在完整性和效率方面顯著優(yōu)于前者。集成到TRR智能體中,基于嵌入的方法更有效地處理駕駛場(chǎng)景的復(fù)雜性。
每個(gè)文檔或記錄都被重新格式化為帶有層次標(biāo)題的markdown,以提高清晰度,使隨后的推理智能體更好地解釋。除了文本內(nèi)容,尤其是在州級(jí)手冊(cè)中廣泛使用,用視覺示例澄清法規(guī)的圖表,也被集成到TRR智能體中。這種集成特別重要,因?yàn)橛行┓ㄒ?guī)細(xì)節(jié)嵌入在圖像中,但并未在相應(yīng)的文本中明確描述。所以,圖表被轉(zhuǎn)換為文本標(biāo)簽,并附在相關(guān)段落的末尾,并在檢索過程結(jié)束時(shí)適當(dāng)恢復(fù)。
在檢索過程中,作者首先為法規(guī)文檔和先前生成的交通規(guī)則檢索查詢生成向量嵌入,然后應(yīng)用FAISS相似性搜索來確定它們之間的相關(guān)性。從段落級(jí)到句子級(jí)的級(jí)聯(lián)檢索pipeline有助于確保結(jié)果既全面又簡(jiǎn)潔。在對(duì)整個(gè)數(shù)據(jù)源進(jìn)行段落級(jí)嵌入后,應(yīng)用top-k選擇來選擇最相關(guān)的段落,形成一個(gè)新穎的細(xì)分?jǐn)?shù)據(jù)庫(kù)。為解決由于大型標(biāo)記化交通手冊(cè)的規(guī)模而可能影響搜索準(zhǔn)確性的稀疏性問題,作者對(duì)選定的段落進(jìn)行了句子級(jí)重新嵌入。這第二級(jí)嵌入通過專注于最相關(guān)的部分,提供了更好的索引和搜索能力。這種方法允許動(dòng)態(tài)適應(yīng),通過優(yōu)先考慮可用法規(guī)的相關(guān)性。最終,TRR智能體匯總了從交通法規(guī)和州級(jí)法律中選定的句子、城市法規(guī)的規(guī)則以及法院案例,以及屬性圖像,以產(chǎn)生一個(gè)全面的結(jié)果,提供給推理智能體。
推理智能體
推理智能體利用帶有CoT提示方法的LLM(GPT-4o),來負(fù)責(zé)確定行動(dòng)集中的每個(gè)行動(dòng)是否符合交通規(guī)則。推理智能體接收三個(gè)關(guān)鍵輸入:
- 來自環(huán)境分析的當(dāng)前環(huán)境信息
- 自車的行動(dòng)集
- 從TRR智能體檢索到的一組交通規(guī)則。
在推理過程中,智能體首先過濾檢索到的交通規(guī)則,以識(shí)別最適用于當(dāng)前情況和自車預(yù)期行動(dòng)的規(guī)則。然后,這些規(guī)則被歸類為強(qiáng)制性規(guī)則(必須遵循以確保合法合規(guī))或安全指南(代表最佳實(shí)踐,雖然不具有法律要求,但建議采取以實(shí)現(xiàn)最佳駕駛行為)。推理智能體接著檢查是否符合強(qiáng)制性規(guī)則。如果當(dāng)前行動(dòng)違反任何強(qiáng)制性規(guī)則,智能體得出行動(dòng)不合規(guī)的結(jié)論;否則,它被標(biāo)記為合規(guī)。然后模型通過檢查強(qiáng)制性規(guī)則和安全指南(如果有檢索到)來評(píng)估安全性,如果行動(dòng)同時(shí)符合兩者,它被標(biāo)記為安全;否則,被標(biāo)記為不安全。推理智能體為行動(dòng)集中的每個(gè)行動(dòng)輸出一個(gè)二元合規(guī)性和安全性決策,并清晰地引用每個(gè)適用規(guī)則,詳細(xì)說明行動(dòng)為何合規(guī)或不合規(guī),以提高推理過程的可解釋性。然后框架選擇被標(biāo)記為既合規(guī)又安全的行動(dòng)作為決策的最終輸出。圖3最右側(cè)則展示了推理智能體的一個(gè)示例輸出。
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證提出的方法以及其在利用法規(guī)進(jìn)行決策制定方面的有效性,作者開發(fā)了一個(gè)全面的基準(zhǔn),其中包含了假設(shè)的和現(xiàn)實(shí)世界場(chǎng)景,如圖3所示。假設(shè)場(chǎng)景提供了更大的多樣性,而現(xiàn)實(shí)世界數(shù)據(jù)實(shí)驗(yàn)展示了框架在真實(shí)駕駛條件下的實(shí)際性能。作者主要在波士頓地區(qū)評(píng)估了這些場(chǎng)景。
交通規(guī)則檢索(TRR)智能體和RAG
作者在TRR智能體中使用的文檔集合遵循圖2所示的架構(gòu),包括以下內(nèi)容:
作者使用了OpenAI的“text-embedding-ada-002”模型進(jìn)行段落級(jí)檢索,閾值設(shè)定為0.28,以及SentenceTransformers的“paraphrase-MiniLM-L6-v2”進(jìn)行句子級(jí)檢索,并收集了top-5檢索到的句子。
假設(shè)場(chǎng)景
假設(shè)場(chǎng)景以文本格式描述,包括30種情況,涵蓋了從轉(zhuǎn)彎或通過交叉口等常見場(chǎng)景,到在分隔道路上超過停止的學(xué)校巴士或讓從后方接近的緊急車輛等罕見案例,這些通常不被真實(shí)世界數(shù)據(jù)集所涵蓋。這些場(chǎng)景由研究人員通過審查波士頓的法規(guī)代碼和駕駛手冊(cè)手動(dòng)識(shí)別,因?yàn)樗鼈儗?duì)人類或自動(dòng)駕駛駕駛員來說可能具有挑戰(zhàn)性。作者評(píng)估了框架在30個(gè)假設(shè)場(chǎng)景中的性能,包括使用和不使用TRR智能體的數(shù)據(jù),如圖4所示。
在缺乏特定本地法規(guī)或依賴交通規(guī)范的場(chǎng)景中,LLM有效地使用其廣泛的預(yù)訓(xùn)練知識(shí)做出正確的決策。然而,在需要遵守詳細(xì)的市級(jí)或州級(jí)法規(guī)或司法先例的場(chǎng)景中,僅LLM不足以確保安全。整合了包括本地法規(guī)和司法決定的TRR智能體,將場(chǎng)景-行動(dòng)推理精度從82%提高到100%,決策制定精度從76%提高到100%。這突出了將全面的法律和司法信息整合到LLM框架中,以有效應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界駕駛情況的重要性。
現(xiàn)實(shí)世界場(chǎng)景
為了評(píng)估框架在現(xiàn)實(shí)世界數(shù)據(jù)上的性能,作者在nuScenes數(shù)據(jù)集上對(duì)其進(jìn)行了測(cè)試。由于它不是為與交通規(guī)則相關(guān)的任務(wù)設(shè)計(jì)的,因此不包含交通規(guī)則注釋。為此,作者手動(dòng)審查了攝像頭圖像,并選擇了與交通規(guī)則強(qiáng)相關(guān)的樣本,其中行動(dòng)更多地受到交通規(guī)則的約束或影響。對(duì)于每個(gè)樣本,作者為行動(dòng)集中的行動(dòng)標(biāo)注了合規(guī)性和安全性標(biāo)簽,確定合規(guī)和安全的行動(dòng)作為決策輸出的基準(zhǔn)真實(shí)值。為確保有意義的評(píng)估并避免由于重復(fù)或過于相似的場(chǎng)景導(dǎo)致的不平衡,作者仔細(xì)選擇了適用不同交通規(guī)則的樣本,或者由于與法規(guī)直接相關(guān)的場(chǎng)景特定因素導(dǎo)致相同規(guī)則的應(yīng)用存在變化。因此,作者從驗(yàn)證集中識(shí)別出了17個(gè)多樣化的樣本進(jìn)行評(píng)估,作者的模型為其中的15個(gè)樣本產(chǎn)生了正確的輸出和準(zhǔn)確的推理。
在圖5(a)和(b)中,作者展示了兩個(gè)場(chǎng)景:一個(gè)是沒有行人的斑馬線,一個(gè)是有行人的斑馬線。對(duì)于沒有行人的斑馬線,模型在自車加速向前時(shí)輸出“合規(guī)但不安全”,這符合常識(shí)。在有行人的場(chǎng)景中,加速向前不符合交通規(guī)則,作者的框架正確地識(shí)別了這一點(diǎn),輸出了正確的合規(guī)判斷。這兩個(gè)例子展示了模型根據(jù)環(huán)境因素的變化,準(zhǔn)確地調(diào)整其評(píng)估的能力。在(c)中,作者進(jìn)一步展示了一個(gè)需要同時(shí)考慮多個(gè)交通元素和規(guī)則的案例。在這個(gè)場(chǎng)景中,車輛在沒有“禁止紅燈右轉(zhuǎn)”標(biāo)志的紅燈處右轉(zhuǎn),這使得右轉(zhuǎn)在法律上是允許的。然而,有一個(gè)行人正在車輛前方的斑馬線上過馬路,要求車輛讓行。因此,不禮讓的右轉(zhuǎn)是不遵守交通規(guī)則的。如最終輸出所示,作者的模型成功識(shí)別了這一點(diǎn),并輸出了“不合規(guī)”。在(d)中,作者展示了一個(gè)自車接近施工區(qū)域并應(yīng)減速的案例,作者的模型成功識(shí)別了這一點(diǎn),輸出了行動(dòng)“以減速向前行駛”。這是以前基于規(guī)則的方法難以處理的場(chǎng)景,因?yàn)樗鼈兺ǔS捎谛枰止ぶ贫ㄒ?guī)則,通常只選擇關(guān)鍵規(guī)則,經(jīng)常省略特定案例,如施工區(qū)域的法規(guī)。
在圖6中,作者展示了新加坡的一個(gè)案例,以展示作者的模型可以輕松適應(yīng)不同地區(qū)。在這個(gè)場(chǎng)景中,自車試圖在紅燈處右轉(zhuǎn)。雖然在波士頓右轉(zhuǎn)是合法的,但在新加坡是非法的。如圖所示,作者的模型正確地輸出了“不合規(guī)”,符合新加坡的交通規(guī)則。與以前需要為每個(gè)新地區(qū)重新制定規(guī)則的基于規(guī)則的方法不同,作者的模型只需簡(jiǎn)單地將交通規(guī)則文件從波士頓的切換到新加坡的,就可以無縫地適應(yīng)新場(chǎng)景。
寫在最后
本文介紹了一個(gè)可解釋的、由LLM驅(qū)動(dòng)的、重視交通規(guī)則的決策框架,該框架集成了交通規(guī)則檢索(TRR)智能體和推理智能體。在假設(shè)的和現(xiàn)實(shí)世界場(chǎng)景上進(jìn)行的實(shí)驗(yàn)證實(shí)了作者方法的強(qiáng)大性能及其對(duì)不同地區(qū)的無縫適應(yīng)性。作者相信,該框架將顯著提高自動(dòng)駕駛系統(tǒng)的安全性和可靠性,增強(qiáng)監(jiān)管機(jī)構(gòu)和公眾的信任。未來的工作將擴(kuò)展框架的測(cè)試到更多地區(qū),并多樣化作者的測(cè)試場(chǎng)景。此外,開發(fā)一個(gè)全面的現(xiàn)實(shí)世界數(shù)據(jù)集,用于與交通規(guī)則相關(guān)的任務(wù),對(duì)于該領(lǐng)域的未來研究和進(jìn)步至關(guān)重要。