完美發(fā)揮LLM和規(guī)則的雙重魔力!UCLA提出全新可解釋決策規(guī)劃框架
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面 && 筆者理解
對于自動駕駛車輛要無縫融入為人類設(shè)計的交通系統(tǒng),它們首先要“安全”,也就是作者常說的"Safty first!",但是同時也還會有一個關(guān)鍵要求就是“遵守交通規(guī)則(交通法規(guī)、法律和社會規(guī)范)”。但是交通規(guī)則是多樣且復(fù)雜的,涵蓋了來自不同地區(qū)法律、駕駛規(guī)范的數(shù)千條法規(guī)。在這些交通規(guī)則中,自車必須考慮各種因素,比如其他道路參與者的行為、當(dāng)前道路狀況和環(huán)境背景,來識別與特定場景相關(guān)的規(guī)則。這些因素的任何變化可能需要不同的規(guī)則或重新優(yōu)先考慮現(xiàn)有規(guī)則。
- 論文鏈接:https://arxiv.org/pdf/2410.04759
 
之前的一些工作集中在選擇關(guān)鍵規(guī)則和人工寫的決策規(guī)則上,然而,這種手動編碼方法難以處理大量交通規(guī)則,并且不能輕易適應(yīng)不同地區(qū)的法規(guī)。另外,交通規(guī)則的語義復(fù)雜性和上下文依賴性也是做決策的另一個難點。交通規(guī)則從標準解釋到特定駕駛行為都有涵蓋,需要以不同的方式整合到?jīng)Q策過程中。例如,法律的約束是嚴格的,而當(dāng)?shù)匾?guī)范和安全條款可能需要根據(jù)場景靈活應(yīng)用。因此,智能地理解和將人工寫的的規(guī)則納入決策系統(tǒng)對于自動駕駛車輛無縫融入人類交通系統(tǒng)至關(guān)重要。
對于為特定任務(wù)訓(xùn)練的傳統(tǒng)AI系統(tǒng)來說,這是一個挑戰(zhàn),但具有強大理解和推理能力的大型語言模型(LLMs),可以做到!本文介紹了一個新的可解釋的遵守交通規(guī)則的決策者,它結(jié)合了一個基于檢索增強生成(Retrieval-Augmented Generation,RAG)構(gòu)建的交通規(guī)則檢索智能體和使用LLM(GPT-4o)的推理模塊。推理模塊會從兩個層面上來評估行動:
- 行動是否合規(guī),即它是否遵循所有強制性交通規(guī)則;
 - 行動是否被認為是安全行為,即它是否既遵守強制性交通規(guī)則又遵循安全指南。
 
這種雙重層面的評估確保了對合法合規(guī)和遵守安全駕駛實踐的全面評估和決策。此外,為了增強可解釋性,中間推理信息,如推理過程中使用交通規(guī)則,也會被輸出,提供了評估者決策過程的透明度。
相關(guān)工作
自動駕駛中的交通規(guī)則
為了將交通規(guī)則集成到自動駕駛系統(tǒng)中,已經(jīng)有過很多的方法。早期的方法包括基于規(guī)則的系統(tǒng)和有限狀態(tài)機,這些系統(tǒng)通過顯式的if-then規(guī)則或狀態(tài)轉(zhuǎn)換來編碼交通法律。為了處理復(fù)雜場景,出現(xiàn)了更復(fù)雜的方法:行為樹創(chuàng)建了能夠表示和執(zhí)行交通規(guī)則的分層決策結(jié)構(gòu),以及使用LTL或MTL等時間邏輯的形式方法為指定和驗證遵守交通法律提供了嚴格的框架。然而,這些方法通常難以應(yīng)對現(xiàn)實世界交通規(guī)則的模糊性和地域差異,導(dǎo)致在創(chuàng)建能夠適應(yīng)不同監(jiān)管環(huán)境的自動駕駛車輛時面臨挑戰(zhàn)。最近,大型語言模型(LLMs)在理解自然語言和解釋復(fù)雜場景方面展現(xiàn)出了顯著的能力。利用這些能力,LLMs可以以更靈活和上下文感知的方式處理和整合交通規(guī)則,無需基于規(guī)則的編碼。例如,LLaDA利用LLMs從當(dāng)?shù)厥謨灾薪忉尳煌ㄒ?guī)則,使自動駕駛車輛能夠相應(yīng)地調(diào)整任務(wù)和運動計劃。同樣,AgentDriver將交通規(guī)則納入基于LLM的認知框架中,在規(guī)劃期間存儲和參考這些規(guī)則。然而,確保LLMs準確應(yīng)用相關(guān)交通規(guī)則而不產(chǎn)生幻覺或誤解仍然是一個關(guān)鍵挑戰(zhàn)。
檢索增強生成
檢索增強生成(Retrieval-Augmented Generation,RAG)通過結(jié)合神經(jīng)檢索和sequence-tosequence生成器,解決LLM幻覺問題并提高信息檢索的準確性,最近的一些研究已經(jīng)證明了RAG在提高LLM在當(dāng)前事件、語言建模和開放領(lǐng)域問答等領(lǐng)域的準確性和事實正確性方面的有效性。這些發(fā)現(xiàn)引發(fā)了RAG在提高基于LLM的自動駕駛系統(tǒng)的交通規(guī)則合規(guī)性方面的潛力。其動態(tài)檢索能力使實時訪問特定地區(qū)的交通規(guī)則成為可能,解決了適應(yīng)不同監(jiān)管環(huán)境的挑戰(zhàn)。RAG提供的事實增強可以減少LLM中的幻覺,降低編造或誤用交通規(guī)則的風(fēng)險。RAG處理復(fù)雜和上下文信息的能力也非常適合解釋具有多個條件或例外的微妙交通規(guī)則。此外,RAG的檢索過程中固有的透明度可以提高自動駕駛系統(tǒng)中決策的可解釋性,這是法規(guī)合規(guī)性和公眾信任的一個關(guān)鍵因素。
自動駕駛的決策
自動駕駛的決策方法已經(jīng)從基于規(guī)則的發(fā)展到基于學(xué)習(xí)的方法。基于學(xué)習(xí)的方法在動態(tài)駕駛環(huán)境中比前者表現(xiàn)出更大的適應(yīng)性,使自動駕駛車輛擺脫了復(fù)雜手工規(guī)則的約束。兩種典型的學(xué)習(xí)方法是模仿學(xué)習(xí)(imitation learning, IL)和強化學(xué)習(xí)(reinforcement learning, RL)。IL專注于模仿專家的決策,但面臨在線部署中的不同分布問題。相反,RL在在線交互中探索和學(xué)習(xí),但這種試錯方法效率低下。此外,另一篇論文GPT-Driver引入了GPT到自動駕駛車輛中,將規(guī)劃重新構(gòu)想為語言建模問題。然而,在由交通規(guī)則構(gòu)建的人類駕駛環(huán)境中,自動駕駛車輛不僅需要確保安全,還需要在駕駛過程中遵循這些規(guī)則,同時與人類駕駛的車輛一起駕駛。使用統(tǒng)一模型將不同的語義交通規(guī)則整合到?jīng)Q策中仍然是一個未充分探索的領(lǐng)域。
提出的方法
作者提出的方法,如圖1所示,包含兩個主要組件:
- 一個交通規(guī)則檢索智能體(Traffic Rules Retrieval Agent),它使用檢索查詢從法規(guī)文檔中檢索相關(guān)交通規(guī)則;
 - 一個推理智能體(Reasoning Agent),它基于環(huán)境信息、自車的狀態(tài)和檢索到的交通規(guī)則來評估行動集(action set)中每個行動的交通規(guī)則依從性。
 

作者首先做環(huán)境分析,為交通規(guī)則檢索智能體生成檢索查詢,并為推理智能體提供環(huán)境信息輸入。為了提取超出常見感知輸出的更多法規(guī)相關(guān)特征,作者使用視覺語言模型(Vision Language Model,VLM)GPT-4o,基于自車的攝像頭圖像分析環(huán)境。分析遵循精心設(shè)計的“思考鏈”(Chain-of-Thought,CoT)流程:VLM首先進行廣泛的環(huán)境概覽并檢查一般道路信息,然后進行詳細分析,重點關(guān)注關(guān)鍵要素,如其他道路使用者、交通元素和車道標記,特別是與車輛全局規(guī)劃輸出相關(guān)的元素(例如,“右”、“左”或“向前”)。然后VLM生成一個簡潔的檢索查詢,總結(jié)當(dāng)前場景的情況,供交通規(guī)則檢索智能體使用。

圖3展示了環(huán)境分析的一個示例輸出。作者從基于全局規(guī)劃輸出的行動空間(Action Space)中提取一個行動集,該行動集包含所有可能的行動。為了簡單起見,作者將行動空間僅包含一組預(yù)定義的行動:右轉(zhuǎn)、左轉(zhuǎn)、向前行駛(以當(dāng)前速度、加速或減速)、向左變道和向右變道。提取過程選擇與全局規(guī)劃輸出一致的行動。例如,如果全局規(guī)劃輸出是“左”,行動集將包括以當(dāng)前速度、加速或減速左轉(zhuǎn)。
交通法規(guī)的檢索增強生成
為了增強模型對本地交通規(guī)則和規(guī)范的理解,并充分考慮所有可用來源的相關(guān)規(guī)則,作者開發(fā)了交通規(guī)則檢索(Traffic Regulation Retrieval, TRR)智能體,如圖2所示。

由于不同地區(qū)有不同的交通規(guī)則來源,作者以美國為例來展示TRR智能體如何充分考慮可用來源。由于憲法原因,美國的交通規(guī)則由各州而不是聯(lián)邦政府制定。城市還建立了本地規(guī)則以管理交通并確保安全。為確保全面覆蓋,TRR包括州和地方法規(guī)。此外,為美國司法系統(tǒng)提供參考的案例法和提供額外安全指南的駕駛手冊也被視為重要來源,并被納入TRR。因此,作者設(shè)計的TRR包含以下綜合法規(guī)文檔集合:
- 州級交通法律:由州立法機構(gòu)制定并在整個州執(zhí)行的,規(guī)范車輛運營并確保道路安全的法律。
 - 州級駕駛手冊:由各州DMV出版,詳細說明州交通法律和安全駕駛實踐。它包括以文本和插圖形式呈現(xiàn)的駕駛安全指南。
 - 市級交通規(guī)則:由地方政府制定,用于解決特定需求(如停車、速度限制和車道使用)的規(guī)則,以管理本地交通并確保安全。
 - 州級法院案例:對交通相關(guān)案例的司法裁決澄清法律并影響執(zhí)法。
 - 交通規(guī)范:被廣泛認可的駕駛員遵循的行為,以確保順暢和安全的道路互動。這些規(guī)范對于自動駕駛車輛與人類駕駛行為和社會期望保持一致至關(guān)重要。本文不專注于為這些規(guī)范建立記錄庫,但作者將使用示例來說明作者的框架仍然適用。
 
在評估了基于傳統(tǒng)倒排索引的檢索方法(依賴于關(guān)鍵詞輸入,如BM25和Taily)的檢索性能后,作者發(fā)現(xiàn)基于嵌入的算法(利用信息豐富的長查詢并根據(jù)段落相似性檢索)在完整性和效率方面顯著優(yōu)于前者。集成到TRR智能體中,基于嵌入的方法更有效地處理駕駛場景的復(fù)雜性。
每個文檔或記錄都被重新格式化為帶有層次標題的markdown,以提高清晰度,使隨后的推理智能體更好地解釋。除了文本內(nèi)容,尤其是在州級手冊中廣泛使用,用視覺示例澄清法規(guī)的圖表,也被集成到TRR智能體中。這種集成特別重要,因為有些法規(guī)細節(jié)嵌入在圖像中,但并未在相應(yīng)的文本中明確描述。所以,圖表被轉(zhuǎn)換為文本標簽,并附在相關(guān)段落的末尾,并在檢索過程結(jié)束時適當(dāng)恢復(fù)。
在檢索過程中,作者首先為法規(guī)文檔和先前生成的交通規(guī)則檢索查詢生成向量嵌入,然后應(yīng)用FAISS相似性搜索來確定它們之間的相關(guān)性。從段落級到句子級的級聯(lián)檢索pipeline有助于確保結(jié)果既全面又簡潔。在對整個數(shù)據(jù)源進行段落級嵌入后,應(yīng)用top-k選擇來選擇最相關(guān)的段落,形成一個新穎的細分數(shù)據(jù)庫。為解決由于大型標記化交通手冊的規(guī)模而可能影響搜索準確性的稀疏性問題,作者對選定的段落進行了句子級重新嵌入。這第二級嵌入通過專注于最相關(guān)的部分,提供了更好的索引和搜索能力。這種方法允許動態(tài)適應(yīng),通過優(yōu)先考慮可用法規(guī)的相關(guān)性。最終,TRR智能體匯總了從交通法規(guī)和州級法律中選定的句子、城市法規(guī)的規(guī)則以及法院案例,以及屬性圖像,以產(chǎn)生一個全面的結(jié)果,提供給推理智能體。
推理智能體
推理智能體利用帶有CoT提示方法的LLM(GPT-4o),來負責(zé)確定行動集中的每個行動是否符合交通規(guī)則。推理智能體接收三個關(guān)鍵輸入:
- 來自環(huán)境分析的當(dāng)前環(huán)境信息
 - 自車的行動集
 - 從TRR智能體檢索到的一組交通規(guī)則。
 
在推理過程中,智能體首先過濾檢索到的交通規(guī)則,以識別最適用于當(dāng)前情況和自車預(yù)期行動的規(guī)則。然后,這些規(guī)則被歸類為強制性規(guī)則(必須遵循以確保合法合規(guī))或安全指南(代表最佳實踐,雖然不具有法律要求,但建議采取以實現(xiàn)最佳駕駛行為)。推理智能體接著檢查是否符合強制性規(guī)則。如果當(dāng)前行動違反任何強制性規(guī)則,智能體得出行動不合規(guī)的結(jié)論;否則,它被標記為合規(guī)。然后模型通過檢查強制性規(guī)則和安全指南(如果有檢索到)來評估安全性,如果行動同時符合兩者,它被標記為安全;否則,被標記為不安全。推理智能體為行動集中的每個行動輸出一個二元合規(guī)性和安全性決策,并清晰地引用每個適用規(guī)則,詳細說明行動為何合規(guī)或不合規(guī),以提高推理過程的可解釋性。然后框架選擇被標記為既合規(guī)又安全的行動作為決策的最終輸出。圖3最右側(cè)則展示了推理智能體的一個示例輸出。
實驗結(jié)果
為了驗證提出的方法以及其在利用法規(guī)進行決策制定方面的有效性,作者開發(fā)了一個全面的基準,其中包含了假設(shè)的和現(xiàn)實世界場景,如圖3所示。假設(shè)場景提供了更大的多樣性,而現(xiàn)實世界數(shù)據(jù)實驗展示了框架在真實駕駛條件下的實際性能。作者主要在波士頓地區(qū)評估了這些場景。
交通規(guī)則檢索(TRR)智能體和RAG
作者在TRR智能體中使用的文檔集合遵循圖2所示的架構(gòu),包括以下內(nèi)容:

作者使用了OpenAI的“text-embedding-ada-002”模型進行段落級檢索,閾值設(shè)定為0.28,以及SentenceTransformers的“paraphrase-MiniLM-L6-v2”進行句子級檢索,并收集了top-5檢索到的句子。
假設(shè)場景
假設(shè)場景以文本格式描述,包括30種情況,涵蓋了從轉(zhuǎn)彎或通過交叉口等常見場景,到在分隔道路上超過停止的學(xué)校巴士或讓從后方接近的緊急車輛等罕見案例,這些通常不被真實世界數(shù)據(jù)集所涵蓋。這些場景由研究人員通過審查波士頓的法規(guī)代碼和駕駛手冊手動識別,因為它們對人類或自動駕駛駕駛員來說可能具有挑戰(zhàn)性。作者評估了框架在30個假設(shè)場景中的性能,包括使用和不使用TRR智能體的數(shù)據(jù),如圖4所示。

在缺乏特定本地法規(guī)或依賴交通規(guī)范的場景中,LLM有效地使用其廣泛的預(yù)訓(xùn)練知識做出正確的決策。然而,在需要遵守詳細的市級或州級法規(guī)或司法先例的場景中,僅LLM不足以確保安全。整合了包括本地法規(guī)和司法決定的TRR智能體,將場景-行動推理精度從82%提高到100%,決策制定精度從76%提高到100%。這突出了將全面的法律和司法信息整合到LLM框架中,以有效應(yīng)對復(fù)雜的現(xiàn)實世界駕駛情況的重要性。
現(xiàn)實世界場景
為了評估框架在現(xiàn)實世界數(shù)據(jù)上的性能,作者在nuScenes數(shù)據(jù)集上對其進行了測試。由于它不是為與交通規(guī)則相關(guān)的任務(wù)設(shè)計的,因此不包含交通規(guī)則注釋。為此,作者手動審查了攝像頭圖像,并選擇了與交通規(guī)則強相關(guān)的樣本,其中行動更多地受到交通規(guī)則的約束或影響。對于每個樣本,作者為行動集中的行動標注了合規(guī)性和安全性標簽,確定合規(guī)和安全的行動作為決策輸出的基準真實值。為確保有意義的評估并避免由于重復(fù)或過于相似的場景導(dǎo)致的不平衡,作者仔細選擇了適用不同交通規(guī)則的樣本,或者由于與法規(guī)直接相關(guān)的場景特定因素導(dǎo)致相同規(guī)則的應(yīng)用存在變化。因此,作者從驗證集中識別出了17個多樣化的樣本進行評估,作者的模型為其中的15個樣本產(chǎn)生了正確的輸出和準確的推理。

在圖5(a)和(b)中,作者展示了兩個場景:一個是沒有行人的斑馬線,一個是有行人的斑馬線。對于沒有行人的斑馬線,模型在自車加速向前時輸出“合規(guī)但不安全”,這符合常識。在有行人的場景中,加速向前不符合交通規(guī)則,作者的框架正確地識別了這一點,輸出了正確的合規(guī)判斷。這兩個例子展示了模型根據(jù)環(huán)境因素的變化,準確地調(diào)整其評估的能力。在(c)中,作者進一步展示了一個需要同時考慮多個交通元素和規(guī)則的案例。在這個場景中,車輛在沒有“禁止紅燈右轉(zhuǎn)”標志的紅燈處右轉(zhuǎn),這使得右轉(zhuǎn)在法律上是允許的。然而,有一個行人正在車輛前方的斑馬線上過馬路,要求車輛讓行。因此,不禮讓的右轉(zhuǎn)是不遵守交通規(guī)則的。如最終輸出所示,作者的模型成功識別了這一點,并輸出了“不合規(guī)”。在(d)中,作者展示了一個自車接近施工區(qū)域并應(yīng)減速的案例,作者的模型成功識別了這一點,輸出了行動“以減速向前行駛”。這是以前基于規(guī)則的方法難以處理的場景,因為它們通常由于需要手工制定規(guī)則,通常只選擇關(guān)鍵規(guī)則,經(jīng)常省略特定案例,如施工區(qū)域的法規(guī)。

在圖6中,作者展示了新加坡的一個案例,以展示作者的模型可以輕松適應(yīng)不同地區(qū)。在這個場景中,自車試圖在紅燈處右轉(zhuǎn)。雖然在波士頓右轉(zhuǎn)是合法的,但在新加坡是非法的。如圖所示,作者的模型正確地輸出了“不合規(guī)”,符合新加坡的交通規(guī)則。與以前需要為每個新地區(qū)重新制定規(guī)則的基于規(guī)則的方法不同,作者的模型只需簡單地將交通規(guī)則文件從波士頓的切換到新加坡的,就可以無縫地適應(yīng)新場景。
寫在最后
本文介紹了一個可解釋的、由LLM驅(qū)動的、重視交通規(guī)則的決策框架,該框架集成了交通規(guī)則檢索(TRR)智能體和推理智能體。在假設(shè)的和現(xiàn)實世界場景上進行的實驗證實了作者方法的強大性能及其對不同地區(qū)的無縫適應(yīng)性。作者相信,該框架將顯著提高自動駕駛系統(tǒng)的安全性和可靠性,增強監(jiān)管機構(gòu)和公眾的信任。未來的工作將擴展框架的測試到更多地區(qū),并多樣化作者的測試場景。此外,開發(fā)一個全面的現(xiàn)實世界數(shù)據(jù)集,用于與交通規(guī)則相關(guān)的任務(wù),對于該領(lǐng)域的未來研究和進步至關(guān)重要。















 
 
 

















 
 
 
 