完美發(fā)揮LLM和規(guī)則的雙重魔力！UCLA提出全新可解釋決策規(guī)劃框架

作者：Tianhui Cai等 2024-10-15 09:20:38

今天為大家分享UCLA最新的工作—可解釋的決策規(guī)劃框架！LLM和rule-based雙管齊下。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面 && 筆者理解

對(duì)于自動(dòng)駕駛車輛要無(wú)縫融入為人類設(shè)計(jì)的交通系統(tǒng)，它們首先要“安全”，也就是作者常說(shuō)的"Safty first!"，但是同時(shí)也還會(huì)有一個(gè)關(guān)鍵要求就是“遵守交通規(guī)則（交通法規(guī)、法律和社會(huì)規(guī)范）”。但是交通規(guī)則是多樣且復(fù)雜的，涵蓋了來(lái)自不同地區(qū)法律、駕駛規(guī)范的數(shù)千條法規(guī)。在這些交通規(guī)則中，自車必須考慮各種因素，比如其他道路參與者的行為、當(dāng)前道路狀況和環(huán)境背景，來(lái)識(shí)別與特定場(chǎng)景相關(guān)的規(guī)則。這些因素的任何變化可能需要不同的規(guī)則或重新優(yōu)先考慮現(xiàn)有規(guī)則。

論文鏈接：https://arxiv.org/pdf/2410.04759

之前的一些工作集中在選擇關(guān)鍵規(guī)則和人工寫的決策規(guī)則上，然而，這種手動(dòng)編碼方法難以處理大量交通規(guī)則，并且不能輕易適應(yīng)不同地區(qū)的法規(guī)。另外，交通規(guī)則的語(yǔ)義復(fù)雜性和上下文依賴性也是做決策的另一個(gè)難點(diǎn)。交通規(guī)則從標(biāo)準(zhǔn)解釋到特定駕駛行為都有涵蓋，需要以不同的方式整合到?jīng)Q策過(guò)程中。例如，法律的約束是嚴(yán)格的，而當(dāng)?shù)匾?guī)范和安全條款可能需要根據(jù)場(chǎng)景靈活應(yīng)用。因此，智能地理解和將人工寫的的規(guī)則納入決策系統(tǒng)對(duì)于自動(dòng)駕駛車輛無(wú)縫融入人類交通系統(tǒng)至關(guān)重要。

對(duì)于為特定任務(wù)訓(xùn)練的傳統(tǒng)AI系統(tǒng)來(lái)說(shuō)，這是一個(gè)挑戰(zhàn)，但具有強(qiáng)大理解和推理能力的大型語(yǔ)言模型（LLMs），可以做到！本文介紹了一個(gè)新的可解釋的遵守交通規(guī)則的決策者，它結(jié)合了一個(gè)基于檢索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）構(gòu)建的交通規(guī)則檢索智能體和使用LLM（GPT-4o）的推理模塊。推理模塊會(huì)從兩個(gè)層面上來(lái)評(píng)估行動(dòng)：

行動(dòng)是否合規(guī)，即它是否遵循所有強(qiáng)制性交通規(guī)則；
行動(dòng)是否被認(rèn)為是安全行為，即它是否既遵守強(qiáng)制性交通規(guī)則又遵循安全指南。

這種雙重層面的評(píng)估確保了對(duì)合法合規(guī)和遵守安全駕駛實(shí)踐的全面評(píng)估和決策。此外，為了增強(qiáng)可解釋性，中間推理信息，如推理過(guò)程中使用交通規(guī)則，也會(huì)被輸出，提供了評(píng)估者決策過(guò)程的透明度。

提出的方法

作者提出的方法，如圖1所示，包含兩個(gè)主要組件：

一個(gè)交通規(guī)則檢索智能體（Traffic Rules Retrieval Agent），它使用檢索查詢從法規(guī)文檔中檢索相關(guān)交通規(guī)則；
一個(gè)推理智能體（Reasoning Agent），它基于環(huán)境信息、自車的狀態(tài)和檢索到的交通規(guī)則來(lái)評(píng)估行動(dòng)集（action set）中每個(gè)行動(dòng)的交通規(guī)則依從性。

作者首先做環(huán)境分析，為交通規(guī)則檢索智能體生成檢索查詢，并為推理智能體提供環(huán)境信息輸入。為了提取超出常見(jiàn)感知輸出的更多法規(guī)相關(guān)特征，作者使用視覺(jué)語(yǔ)言模型（Vision Language Model，VLM）GPT-4o，基于自車的攝像頭圖像分析環(huán)境。分析遵循精心設(shè)計(jì)的“思考鏈”（Chain-of-Thought，CoT）流程：VLM首先進(jìn)行廣泛的環(huán)境概覽并檢查一般道路信息，然后進(jìn)行詳細(xì)分析，重點(diǎn)關(guān)注關(guān)鍵要素，如其他道路使用者、交通元素和車道標(biāo)記，特別是與車輛全局規(guī)劃輸出相關(guān)的元素（例如，“右”、“左”或“向前”）。然后VLM生成一個(gè)簡(jiǎn)潔的檢索查詢，總結(jié)當(dāng)前場(chǎng)景的情況，供交通規(guī)則檢索智能體使用。

圖3展示了環(huán)境分析的一個(gè)示例輸出。作者從基于全局規(guī)劃輸出的行動(dòng)空間（Action Space）中提取一個(gè)行動(dòng)集，該行動(dòng)集包含所有可能的行動(dòng)。為了簡(jiǎn)單起見(jiàn)，作者將行動(dòng)空間僅包含一組預(yù)定義的行動(dòng)：右轉(zhuǎn)、左轉(zhuǎn)、向前行駛（以當(dāng)前速度、加速或減速）、向左變道和向右變道。提取過(guò)程選擇與全局規(guī)劃輸出一致的行動(dòng)。例如，如果全局規(guī)劃輸出是“左”，行動(dòng)集將包括以當(dāng)前速度、加速或減速左轉(zhuǎn)。

交通法規(guī)的檢索增強(qiáng)生成

為了增強(qiáng)模型對(duì)本地交通規(guī)則和規(guī)范的理解，并充分考慮所有可用來(lái)源的相關(guān)規(guī)則，作者開(kāi)發(fā)了交通規(guī)則檢索（Traffic Regulation Retrieval, TRR）智能體，如圖2所示。

由于不同地區(qū)有不同的交通規(guī)則來(lái)源，作者以美國(guó)為例來(lái)展示TRR智能體如何充分考慮可用來(lái)源。由于憲法原因，美國(guó)的交通規(guī)則由各州而不是聯(lián)邦政府制定。城市還建立了本地規(guī)則以管理交通并確保安全。為確保全面覆蓋，TRR包括州和地方法規(guī)。此外，為美國(guó)司法系統(tǒng)提供參考的案例法和提供額外安全指南的駕駛手冊(cè)也被視為重要來(lái)源，并被納入TRR。因此，作者設(shè)計(jì)的TRR包含以下綜合法規(guī)文檔集合：

州級(jí)交通法律：由州立法機(jī)構(gòu)制定并在整個(gè)州執(zhí)行的，規(guī)范車輛運(yùn)營(yíng)并確保道路安全的法律。
州級(jí)駕駛手冊(cè)：由各州DMV出版，詳細(xì)說(shuō)明州交通法律和安全駕駛實(shí)踐。它包括以文本和插圖形式呈現(xiàn)的駕駛安全指南。
市級(jí)交通規(guī)則：由地方政府制定，用于解決特定需求（如停車、速度限制和車道使用）的規(guī)則，以管理本地交通并確保安全。
州級(jí)法院案例：對(duì)交通相關(guān)案例的司法裁決澄清法律并影響執(zhí)法。
交通規(guī)范：被廣泛認(rèn)可的駕駛員遵循的行為，以確保順暢和安全的道路互動(dòng)。這些規(guī)范對(duì)于自動(dòng)駕駛車輛與人類駕駛行為和社會(huì)期望保持一致至關(guān)重要。本文不專注于為這些規(guī)范建立記錄庫(kù)，但作者將使用示例來(lái)說(shuō)明作者的框架仍然適用。

在評(píng)估了基于傳統(tǒng)倒排索引的檢索方法（依賴于關(guān)鍵詞輸入，如BM25和Taily）的檢索性能后，作者發(fā)現(xiàn)基于嵌入的算法（利用信息豐富的長(zhǎng)查詢并根據(jù)段落相似性檢索）在完整性和效率方面顯著優(yōu)于前者。集成到TRR智能體中，基于嵌入的方法更有效地處理駕駛場(chǎng)景的復(fù)雜性。

每個(gè)文檔或記錄都被重新格式化為帶有層次標(biāo)題的markdown，以提高清晰度，使隨后的推理智能體更好地解釋。除了文本內(nèi)容，尤其是在州級(jí)手冊(cè)中廣泛使用，用視覺(jué)示例澄清法規(guī)的圖表，也被集成到TRR智能體中。這種集成特別重要，因?yàn)橛行┓ㄒ?guī)細(xì)節(jié)嵌入在圖像中，但并未在相應(yīng)的文本中明確描述。所以，圖表被轉(zhuǎn)換為文本標(biāo)簽，并附在相關(guān)段落的末尾，并在檢索過(guò)程結(jié)束時(shí)適當(dāng)恢復(fù)。

在檢索過(guò)程中，作者首先為法規(guī)文檔和先前生成的交通規(guī)則檢索查詢生成向量嵌入，然后應(yīng)用FAISS相似性搜索來(lái)確定它們之間的相關(guān)性。從段落級(jí)到句子級(jí)的級(jí)聯(lián)檢索pipeline有助于確保結(jié)果既全面又簡(jiǎn)潔。在對(duì)整個(gè)數(shù)據(jù)源進(jìn)行段落級(jí)嵌入后，應(yīng)用top-k選擇來(lái)選擇最相關(guān)的段落，形成一個(gè)新穎的細(xì)分?jǐn)?shù)據(jù)庫(kù)。為解決由于大型標(biāo)記化交通手冊(cè)的規(guī)模而可能影響搜索準(zhǔn)確性的稀疏性問(wèn)題，作者對(duì)選定的段落進(jìn)行了句子級(jí)重新嵌入。這第二級(jí)嵌入通過(guò)專注于最相關(guān)的部分，提供了更好的索引和搜索能力。這種方法允許動(dòng)態(tài)適應(yīng)，通過(guò)優(yōu)先考慮可用法規(guī)的相關(guān)性。最終，TRR智能體匯總了從交通法規(guī)和州級(jí)法律中選定的句子、城市法規(guī)的規(guī)則以及法院案例，以及屬性圖像，以產(chǎn)生一個(gè)全面的結(jié)果，提供給推理智能體。

推理智能體

推理智能體利用帶有CoT提示方法的LLM（GPT-4o），來(lái)負(fù)責(zé)確定行動(dòng)集中的每個(gè)行動(dòng)是否符合交通規(guī)則。推理智能體接收三個(gè)關(guān)鍵輸入：

來(lái)自環(huán)境分析的當(dāng)前環(huán)境信息
自車的行動(dòng)集
從TRR智能體檢索到的一組交通規(guī)則。

在推理過(guò)程中，智能體首先過(guò)濾檢索到的交通規(guī)則，以識(shí)別最適用于當(dāng)前情況和自車預(yù)期行動(dòng)的規(guī)則。然后，這些規(guī)則被歸類為強(qiáng)制性規(guī)則（必須遵循以確保合法合規(guī)）或安全指南（代表最佳實(shí)踐，雖然不具有法律要求，但建議采取以實(shí)現(xiàn)最佳駕駛行為）。推理智能體接著檢查是否符合強(qiáng)制性規(guī)則。如果當(dāng)前行動(dòng)違反任何強(qiáng)制性規(guī)則，智能體得出行動(dòng)不合規(guī)的結(jié)論；否則，它被標(biāo)記為合規(guī)。然后模型通過(guò)檢查強(qiáng)制性規(guī)則和安全指南（如果有檢索到）來(lái)評(píng)估安全性，如果行動(dòng)同時(shí)符合兩者，它被標(biāo)記為安全；否則，被標(biāo)記為不安全。推理智能體為行動(dòng)集中的每個(gè)行動(dòng)輸出一個(gè)二元合規(guī)性和安全性決策，并清晰地引用每個(gè)適用規(guī)則，詳細(xì)說(shuō)明行動(dòng)為何合規(guī)或不合規(guī)，以提高推理過(guò)程的可解釋性。然后框架選擇被標(biāo)記為既合規(guī)又安全的行動(dòng)作為決策的最終輸出。圖3最右側(cè)則展示了推理智能體的一個(gè)示例輸出。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證提出的方法以及其在利用法規(guī)進(jìn)行決策制定方面的有效性，作者開(kāi)發(fā)了一個(gè)全面的基準(zhǔn)，其中包含了假設(shè)的和現(xiàn)實(shí)世界場(chǎng)景，如圖3所示。假設(shè)場(chǎng)景提供了更大的多樣性，而現(xiàn)實(shí)世界數(shù)據(jù)實(shí)驗(yàn)展示了框架在真實(shí)駕駛條件下的實(shí)際性能。作者主要在波士頓地區(qū)評(píng)估了這些場(chǎng)景。

交通規(guī)則檢索（TRR）智能體和RAG

作者在TRR智能體中使用的文檔集合遵循圖2所示的架構(gòu)，包括以下內(nèi)容：

作者使用了OpenAI的“text-embedding-ada-002”模型進(jìn)行段落級(jí)檢索，閾值設(shè)定為0.28，以及SentenceTransformers的“paraphrase-MiniLM-L6-v2”進(jìn)行句子級(jí)檢索，并收集了top-5檢索到的句子。

假設(shè)場(chǎng)景

假設(shè)場(chǎng)景以文本格式描述，包括30種情況，涵蓋了從轉(zhuǎn)彎或通過(guò)交叉口等常見(jiàn)場(chǎng)景，到在分隔道路上超過(guò)停止的學(xué)校巴士或讓從后方接近的緊急車輛等罕見(jiàn)案例，這些通常不被真實(shí)世界數(shù)據(jù)集所涵蓋。這些場(chǎng)景由研究人員通過(guò)審查波士頓的法規(guī)代碼和駕駛手冊(cè)手動(dòng)識(shí)別，因?yàn)樗鼈儗?duì)人類或自動(dòng)駕駛駕駛員來(lái)說(shuō)可能具有挑戰(zhàn)性。作者評(píng)估了框架在30個(gè)假設(shè)場(chǎng)景中的性能，包括使用和不使用TRR智能體的數(shù)據(jù)，如圖4所示。

在缺乏特定本地法規(guī)或依賴交通規(guī)范的場(chǎng)景中，LLM有效地使用其廣泛的預(yù)訓(xùn)練知識(shí)做出正確的決策。然而，在需要遵守詳細(xì)的市級(jí)或州級(jí)法規(guī)或司法先例的場(chǎng)景中，僅LLM不足以確保安全。整合了包括本地法規(guī)和司法決定的TRR智能體，將場(chǎng)景-行動(dòng)推理精度從82%提高到100%，決策制定精度從76%提高到100%。這突出了將全面的法律和司法信息整合到LLM框架中，以有效應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界駕駛情況的重要性。

現(xiàn)實(shí)世界場(chǎng)景

為了評(píng)估框架在現(xiàn)實(shí)世界數(shù)據(jù)上的性能，作者在nuScenes數(shù)據(jù)集上對(duì)其進(jìn)行了測(cè)試。由于它不是為與交通規(guī)則相關(guān)的任務(wù)設(shè)計(jì)的，因此不包含交通規(guī)則注釋。為此，作者手動(dòng)審查了攝像頭圖像，并選擇了與交通規(guī)則強(qiáng)相關(guān)的樣本，其中行動(dòng)更多地受到交通規(guī)則的約束或影響。對(duì)于每個(gè)樣本，作者為行動(dòng)集中的行動(dòng)標(biāo)注了合規(guī)性和安全性標(biāo)簽，確定合規(guī)和安全的行動(dòng)作為決策輸出的基準(zhǔn)真實(shí)值。為確保有意義的評(píng)估并避免由于重復(fù)或過(guò)于相似的場(chǎng)景導(dǎo)致的不平衡，作者仔細(xì)選擇了適用不同交通規(guī)則的樣本，或者由于與法規(guī)直接相關(guān)的場(chǎng)景特定因素導(dǎo)致相同規(guī)則的應(yīng)用存在變化。因此，作者從驗(yàn)證集中識(shí)別出了17個(gè)多樣化的樣本進(jìn)行評(píng)估，作者的模型為其中的15個(gè)樣本產(chǎn)生了正確的輸出和準(zhǔn)確的推理。

在圖5（a）和（b）中，作者展示了兩個(gè)場(chǎng)景：一個(gè)是沒(méi)有行人的斑馬線，一個(gè)是有行人的斑馬線。對(duì)于沒(méi)有行人的斑馬線，模型在自車加速向前時(shí)輸出“合規(guī)但不安全”，這符合常識(shí)。在有行人的場(chǎng)景中，加速向前不符合交通規(guī)則，作者的框架正確地識(shí)別了這一點(diǎn)，輸出了正確的合規(guī)判斷。這兩個(gè)例子展示了模型根據(jù)環(huán)境因素的變化，準(zhǔn)確地調(diào)整其評(píng)估的能力。在（c）中，作者進(jìn)一步展示了一個(gè)需要同時(shí)考慮多個(gè)交通元素和規(guī)則的案例。在這個(gè)場(chǎng)景中，車輛在沒(méi)有“禁止紅燈右轉(zhuǎn)”標(biāo)志的紅燈處右轉(zhuǎn)，這使得右轉(zhuǎn)在法律上是允許的。然而，有一個(gè)行人正在車輛前方的斑馬線上過(guò)馬路，要求車輛讓行。因此，不禮讓的右轉(zhuǎn)是不遵守交通規(guī)則的。如最終輸出所示，作者的模型成功識(shí)別了這一點(diǎn)，并輸出了“不合規(guī)”。在（d）中，作者展示了一個(gè)自車接近施工區(qū)域并應(yīng)減速的案例，作者的模型成功識(shí)別了這一點(diǎn)，輸出了行動(dòng)“以減速向前行駛”。這是以前基于規(guī)則的方法難以處理的場(chǎng)景，因?yàn)樗鼈兺ǔＳ捎谛枰止ぶ贫ㄒ?guī)則，通常只選擇關(guān)鍵規(guī)則，經(jīng)常省略特定案例，如施工區(qū)域的法規(guī)。

在圖6中，作者展示了新加坡的一個(gè)案例，以展示作者的模型可以輕松適應(yīng)不同地區(qū)。在這個(gè)場(chǎng)景中，自車試圖在紅燈處右轉(zhuǎn)。雖然在波士頓右轉(zhuǎn)是合法的，但在新加坡是非法的。如圖所示，作者的模型正確地輸出了“不合規(guī)”，符合新加坡的交通規(guī)則。與以前需要為每個(gè)新地區(qū)重新制定規(guī)則的基于規(guī)則的方法不同，作者的模型只需簡(jiǎn)單地將交通規(guī)則文件從波士頓的切換到新加坡的，就可以無(wú)縫地適應(yīng)新場(chǎng)景。

寫在最后

本文介紹了一個(gè)可解釋的、由LLM驅(qū)動(dòng)的、重視交通規(guī)則的決策框架，該框架集成了交通規(guī)則檢索（TRR）智能體和推理智能體。在假設(shè)的和現(xiàn)實(shí)世界場(chǎng)景上進(jìn)行的實(shí)驗(yàn)證實(shí)了作者方法的強(qiáng)大性能及其對(duì)不同地區(qū)的無(wú)縫適應(yīng)性。作者相信，該框架將顯著提高自動(dòng)駕駛系統(tǒng)的安全性和可靠性，增強(qiáng)監(jiān)管機(jī)構(gòu)和公眾的信任。未來(lái)的工作將擴(kuò)展框架的測(cè)試到更多地區(qū)，并多樣化作者的測(cè)試場(chǎng)景。此外，開(kāi)發(fā)一個(gè)全面的現(xiàn)實(shí)世界數(shù)據(jù)集，用于與交通規(guī)則相關(guān)的任務(wù)，對(duì)于該領(lǐng)域的未來(lái)研究和進(jìn)步至關(guān)重要。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心