偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="jgubv"><fieldset id="jgubv"></fieldset></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

像人類(lèi)一樣開(kāi)車(chē)：大語(yǔ)言模型重新思考自動(dòng)駕駛

作者：黃浴 2023-09-22 11:56:57

人工智能新聞

本文探討用大型語(yǔ)言模型（LLM）以類(lèi)似人類(lèi)的方式理解駕駛環(huán)境的潛力，并分析其在面對(duì)復(fù)雜場(chǎng)景時(shí)的推理、解釋和記憶能力。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這是7月份采用大語(yǔ)言模型研究自動(dòng)駕駛的論文“Drive Like a Human: Rethinking Autonomous Driving with Large Language Models“，來(lái)自上海AI實(shí)驗(yàn)室和華東師范。

本文探討用大型語(yǔ)言模型（LLM）以類(lèi)似人類(lèi)的方式理解駕駛環(huán)境的潛力，并分析其在面對(duì)復(fù)雜場(chǎng)景時(shí)的推理、解釋和記憶能力。傳統(tǒng)的基于優(yōu)化和模塊化的自動(dòng)駕駛（AD）系統(tǒng)在處理長(zhǎng)尾極端情況時(shí)面臨固有的性能限制。為了解決這個(gè)問(wèn)題，作者思考一個(gè)理想的AD系統(tǒng)應(yīng)該像人一樣駕駛，通過(guò)連續(xù)駕駛積累經(jīng)驗(yàn)，用常識(shí)解決問(wèn)題。為了實(shí)現(xiàn)這一目標(biāo)，確定AD系統(tǒng)所需的三個(gè)關(guān)鍵能力：推理、解釋和記憶。通過(guò)構(gòu)建閉環(huán)系統(tǒng)來(lái)展示LLM在駕駛場(chǎng)景中使用LLM的可行性，展示其理解和環(huán)境交互能力。

如圖就是GPT-3.5 在高速環(huán)境中進(jìn)行閉環(huán)駕駛的示意圖：（a） GPT-3.5 用感知工具觀(guān)察高速環(huán)境并做出控制車(chē)輛的決策，形成閉環(huán)。（b） GPT-3.5 采用 ReAct 策略（來(lái)自論文“React: Synergizing reasoning and acting in language models”. arXiv 2210.03629）來(lái)規(guī)劃動(dòng)作和使用工具，同時(shí)通過(guò)思考、行動(dòng)和觀(guān)察的循環(huán)來(lái)感知周?chē)h(huán)境。

與人類(lèi)一樣，GPT-3.5 在駕駛時(shí)評(píng)估其行為的潛在后果，并權(quán)衡結(jié)果以做出最明智的決定。與廣泛使用的基于強(qiáng)化學(xué)習(xí) （RL）和基于搜索的方法不同，GPT-3.5 不僅可以解釋場(chǎng)景和操作，還可以利用常識(shí)來(lái)優(yōu)化其決策過(guò)程。

與基于 RL 的方法相比，GPT-3.5 在高速環(huán)境中實(shí)現(xiàn)了超過(guò) 60% 的零樣本通過(guò)率，無(wú)需任何微調(diào)。相比之下，基于 RL 的方法嚴(yán)重依賴(lài)多次迭代來(lái)實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能。例如，如圖（a）所示，由于碰撞受到嚴(yán)厲懲罰，基于RL的智體學(xué)習(xí)了一種策略，為了防止碰撞，在開(kāi)始時(shí)減速，為隨后的加速創(chuàng)造廣闊的空間。這表明基于RL的方法經(jīng)常產(chǎn)生這種意想不到的解決方案?；谒阉鞯姆椒ㄍㄟ^(guò)優(yōu)化目標(biāo)函數(shù)來(lái)做出決策，忽略函數(shù)中未提及的未定義部分。如圖（b）所示，基于搜索的智體可能會(huì)表現(xiàn)出激進(jìn)的變道行為以實(shí)現(xiàn)高駕駛效率，從而增加碰撞風(fēng)險(xiǎn)。此外，即使沒(méi)有其他車(chē)輛在前方，基于搜索的方法也可能進(jìn)行無(wú)意義的變道操作。這可能是因?yàn)椋瑢?duì)于基于搜索的智體來(lái)說(shuō)，在安全的前提下，變道和保持速度在目標(biāo)功能中具有同等的優(yōu)先級(jí)。因此，智體隨機(jī)選擇其中一個(gè)操作。

總之，基于RL和基于搜索的方法都不能真正像人類(lèi)一樣思考和駕駛，因?yàn)槿狈ΤＷR(shí)、解釋場(chǎng)景以及權(quán)衡利弊的能力。相比之下，GPT-3.5 可以解釋每個(gè)動(dòng)作的后果，通過(guò)提供提示，可以使 GPT-3.5 以?xún)r(jià)值為導(dǎo)向、并做出更像人類(lèi)的決策。

雖然人類(lèi)駕駛員和以前基于優(yōu)化的AD系統(tǒng)都擁有基本的駕駛技能，但根本區(qū)別在于人類(lèi)對(duì)世界有常識(shí)性的理解。常識(shí)是，從日常生活中積累的對(duì)周?chē)l(fā)生的事情做合理而實(shí)用的判斷[11]。有助于駕駛的常識(shí)可以從日常生活的各個(gè)方面得出。當(dāng)出現(xiàn)新的駕駛情況時(shí)，人類(lèi)駕駛員可以根據(jù)常識(shí)快速評(píng)估場(chǎng)景并做出合理的決定。相比之下，傳統(tǒng)的AD系統(tǒng)可能在駕駛領(lǐng)域有經(jīng)驗(yàn)，但缺乏常識(shí)，因此無(wú)法應(yīng)對(duì)這種情況。

像GPT-3.5這樣的LLM已經(jīng)接受了大量自然語(yǔ)言數(shù)據(jù)的訓(xùn)練，并且對(duì)常識(shí)了如指掌[2]。這標(biāo)志著與傳統(tǒng)AD方法的重大背離，使LLM能夠像人類(lèi)駕駛員一樣用常識(shí)推理復(fù)雜的駕駛場(chǎng)景。

如圖所示，兩張相似但不同的照片被輸入LLM。第一張照片描繪了一輛皮卡車(chē)在卡車(chē)車(chē)廂里攜帶幾個(gè)交通錐前往目的地。第二張照片還描繪了一輛皮卡的卡車(chē)車(chē)廂里有交通錐，但周?chē)孛嫔仙⒙渲渌煌ㄥF。由于 GPT-3.5 缺乏處理包括圖像在內(nèi)的多模態(tài)輸入的能力，文中用 LLaMA-Adapter v2 視覺(jué)指令模型（來(lái)自論文“Llama-adapter v2: Parameter-efficient visual instruction model“，arXiv 2304.15010）作為圖像處理前端。指示LLaMA Adapter盡可能詳細(xì)地描述照片。然后將此描述用作觀(guān)察，要求 GPT-3.5 評(píng)估該場(chǎng)景是否具有潛在危險(xiǎn)，并為假設(shè)跟隨卡車(chē)的自車(chē)做出決定。在圖（a）中描述的第一個(gè)案例中，LLaMA-Adapter識(shí)別出照片中的皮卡車(chē)攜帶多個(gè)交通錐，并推斷它可能正在將它們運(yùn)送到目的地。基于這些觀(guān)察結(jié)果，GPT-3.5 成功分析了駕駛場(chǎng)景。GPT-3.5 沒(méi)有被交通錐的存在所誤導(dǎo)，而是認(rèn)為這種情況是無(wú)害的，基于卡車(chē)將貨物運(yùn)送到目的地是很常見(jiàn)的。GPT-3.5 建議自車(chē)沒(méi)有必要減速，并警告說(shuō)不必要的減速可能對(duì)交通流量造成危險(xiǎn)。對(duì)于圖（b）中描述的第二個(gè)案例，交通錐不僅在卡車(chē)車(chē)廂內(nèi)，而且散落在地面上，用LLaMA-Adapter準(zhǔn)確表示這個(gè)內(nèi)容。盡管與第一個(gè)案例略有不同，但 GPT-3.5 的反應(yīng)截然相反。它認(rèn)為這種情況具有潛在的危險(xiǎn)，因?yàn)榭ㄜ?chē)周?chē)⒙涞慕煌ㄥF，并建議自車(chē)減速并保持一定距離，避免與這些交通錐發(fā)生任何碰撞。

以上的例子展示了LLM在駕駛場(chǎng)景中強(qiáng)大的零樣本理解和推理能力。利用常識(shí)知識(shí)，不僅讓LLM能夠更好地理解場(chǎng)景中的語(yǔ)義信息，還能讓其做出更理性的決策，更符合人類(lèi)的駕駛行為。因此，擁有常識(shí)知識(shí)可以提高自動(dòng)駕駛系統(tǒng)能力的上限，使其能夠處理未知的長(zhǎng)尾情況，真正接近人類(lèi)駕駛員的駕駛能力。

持續(xù)學(xué)習(xí)[28]是人類(lèi)駕駛的另一個(gè)關(guān)鍵方面。新手司機(jī)在遇到復(fù)雜的交通狀況時(shí)，由于經(jīng)驗(yàn)有限，通常會(huì)謹(jǐn)慎駕駛。隨著時(shí)間的推移，隨著駕駛經(jīng)驗(yàn)的積累，駕駛員會(huì)遇到新的交通場(chǎng)景，發(fā)展新的駕駛技能，并鞏固他們以前的經(jīng)驗(yàn)，最終成為經(jīng)驗(yàn)豐富的駕駛員?；趦?yōu)化的方法旨在通過(guò)獲取越來(lái)越多的失敗案例并重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)模仿持續(xù)學(xué)習(xí)的過(guò)程。然而，這種方法不僅乏味且昂貴，而且從根本上無(wú)法實(shí)現(xiàn)持續(xù)學(xué)習(xí)。常規(guī)駕駛和長(zhǎng)尾極端情況案例之間的分布差異對(duì)平衡兩者構(gòu)成了重大挑戰(zhàn)，最終導(dǎo)致“災(zāi)難性遺忘”。因此，需要一種更有效的方法來(lái)實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)中真正的持續(xù)學(xué)習(xí)。

下圖給出了記憶過(guò)程的示例。該場(chǎng)景涉及一輛藍(lán)色自車(chē)和一輛黃車(chē)在一條略寬于汽車(chē)兩倍的狹窄車(chē)道上在相反方向相遇。將場(chǎng)景轉(zhuǎn)換為結(jié)構(gòu)化文本輸入GPT-3.5后，模型很好地理解了場(chǎng)景，包括車(chē)輛的狀態(tài)、方向和目的地。然而，當(dāng)要求它對(duì)場(chǎng)景做出決定時(shí)，GPT-3.5 給出了一個(gè)安全但過(guò)于謹(jǐn)慎的建議，即自車(chē)應(yīng)該停下來(lái)等待另一輛車(chē)先通過(guò)。為了提高LLM的性能，專(zhuān)家就人類(lèi)駕駛員如何處理這種情況提供了實(shí)用的建議，其中包括保持汽車(chē)移動(dòng)并將其稍微向左輕推。LLM然后認(rèn)識(shí)到有足夠的空間讓兩輛車(chē)通過(guò)，減速可能會(huì)擾亂交通流量。它將情況總結(jié)為“同一車(chē)道上的兩輛車(chē)相互靠近”，并記錄記憶以及正確的決定。利用這些記憶，輸入了另一個(gè)場(chǎng)景，即兩輛車(chē)以不同的速度和位置在狹窄的小巷中相遇，并要求LLM做出決定。LLM成功地認(rèn)識(shí)到這只是“同一車(chē)道上的兩輛車(chē)相互靠近”決策場(chǎng)景的另一種變型，并建議自車(chē)?yán)^續(xù)行駛而不需減速等待，是一種安全的辦法。

記憶能力不斷收集駕駛案例以獲得經(jīng)驗(yàn)，并通過(guò)檢索現(xiàn)有記憶來(lái)輔助決策，賦予LLM在自動(dòng)駕駛領(lǐng)域的持續(xù)學(xué)習(xí)能力。此外，這大大降低了LLM在類(lèi)似情況下的決策成本，并提高了其實(shí)際性能。

原文鏈接：https://mp.weixin.qq.com/s/DQpGuGWAona7JHKlQuA3eQ

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="rfnbe"><bdo id="rfnbe"></bdo></menuitem>