偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型竟塞進(jìn)自動(dòng)駕駛,AI會(huì)解說(shuō)自己怎么開(kāi)車(chē)了!

人工智能 新聞
Wayve推出的LINGO-1,讓自動(dòng)駕駛長(zhǎng)嘴了!這車(chē)該怎么開(kāi),它自個(gè)給自個(gè)解說(shuō),大語(yǔ)言模型,再也不是黑盒了。

自發(fā)明以來(lái),自動(dòng)駕駛最讓人擔(dān)心之處,莫過(guò)于人類(lèi)無(wú)法知道它的腦子里到底在想些什么。

今天開(kāi)始,它居然可以把自己的想法「講出來(lái)」了?

最近,Wayve推出了基于視覺(jué)語(yǔ)言行動(dòng)的大模型(VLAMs)的自動(dòng)駕駛交互大模型LINGO-1,把大語(yǔ)言模型和自動(dòng)駕駛進(jìn)行了深度融合。

具體來(lái)說(shuō),LINGO-1訓(xùn)練了一個(gè)視頻語(yǔ)言模型,它可以說(shuō)是相當(dāng)有個(gè)性——可以對(duì)眼前正在進(jìn)行的場(chǎng)景發(fā)表評(píng)論!

-你在干嘛? 

-我在小心翼翼地穿越車(chē)流,因?yàn)槟壳奥访媲闆r很復(fù)雜。 

-下一步你打算要做什么? 

-我要準(zhǔn)備左轉(zhuǎn)了。 

-眼前的場(chǎng)景中有哪些潛在風(fēng)險(xiǎn)? 

-信號(hào)燈,騎自行車(chē)的人,過(guò)馬路的行人

你對(duì)智駕系統(tǒng)的疑惑,它統(tǒng)統(tǒng)給你解釋清楚。

問(wèn):為什么停下了?答:因?yàn)楝F(xiàn)在是紅燈。

在經(jīng)過(guò)各種視覺(jué)和語(yǔ)言數(shù)據(jù)的訓(xùn)練之后,LINGO-1不僅可以執(zhí)行視覺(jué)問(wèn)答(VQA)任務(wù),如感知、反事實(shí)、規(guī)劃、推理和注意力,而且還能對(duì)駕駛行為和推理進(jìn)行描述。

也就是說(shuō),我們可以通過(guò)對(duì)LINGO-1進(jìn)行提問(wèn),來(lái)了解影響駕駛決策的因素是什么。

網(wǎng)友感慨道:「端到端的黑盒,就這么被打開(kāi)了,簡(jiǎn)直是GPT時(shí)代的大力出奇跡。自動(dòng)駕駛系統(tǒng)離真實(shí)的物理世界交互,又前進(jìn)了一大步。」

可以想象,隨著我們突破具身人工智能的界限,視覺(jué)-語(yǔ)言-行動(dòng)模型將產(chǎn)生巨大的影響,因?yàn)檎Z(yǔ)言提供了一種新的模式,來(lái)增強(qiáng)我們解釋和訓(xùn)練自動(dòng)駕駛模型的方式。

自動(dòng)駕駛車(chē)?yán)镞M(jìn)來(lái)一個(gè)捧哏的?

LINGO-1中的獨(dú)特之處在于引入了一個(gè)人類(lèi)專(zhuān)家,對(duì)駕駛場(chǎng)景的語(yǔ)言評(píng)論解說(shuō)數(shù)據(jù)進(jìn)行訓(xùn)練,讓模型把環(huán)境感知、行動(dòng)決策和類(lèi)人的場(chǎng)景解讀聯(lián)系在一起。

圖片

這樣,它就可以通過(guò)自然語(yǔ)言交互,來(lái)解讀自動(dòng)駕駛系統(tǒng)的決策和行動(dòng)了。

英偉達(dá)高級(jí)AI科學(xué)家Jim Fan興奮地點(diǎn)評(píng)道:這是我近期讀到的自動(dòng)駕駛領(lǐng)域最有趣的作品!

從前的自動(dòng)駕駛,是「感知 -> 駕駛操作」,而以后的自動(dòng)駕駛,加進(jìn)了推理的這一步,是「感知->文字推理->行動(dòng)」。

這個(gè)新加的顯式推理步驟,有哪些優(yōu)點(diǎn)?Jim Fan解釋如下——

- 可解釋性:駕駛模型不再是一個(gè)神秘的黑盒。

- 反事實(shí)情景:它能夠想象出訓(xùn)練數(shù)據(jù)中沒(méi)有的場(chǎng)景,并推理出如何正確地進(jìn)行處理。

- 長(zhǎng)尾編程:駕駛中存在大量邊緣場(chǎng)景,要對(duì)所有場(chǎng)景進(jìn)行良好的數(shù)據(jù)覆蓋是不可能的。與其收集成千上萬(wàn)的示例來(lái)對(duì)一個(gè)案例進(jìn)行「神經(jīng)編程」,不如讓人類(lèi)專(zhuān)家編寫(xiě)提示(prompt)來(lái)解釋少量的示例,從而指導(dǎo)系統(tǒng)如何處理特定或復(fù)雜的情景。

不僅如此,LINGO-1還和游戲人工智能領(lǐng)域的一些研究密切相關(guān),比如MineDojo和思想克隆,它們都是AI智能體。

前者可以學(xué)習(xí)一種獎(jiǎng)勵(lì)模型,把評(píng)論文本和「我的世界」(Minecraft)游戲視頻像素關(guān)聯(lián)起來(lái)。后者可以實(shí)現(xiàn)「像素->語(yǔ)言->行動(dòng)循環(huán)」的一整套鏈路。

LINGO-1——開(kāi)環(huán)駕駛解說(shuō)員

自個(gè)解說(shuō)自個(gè)

模型在關(guān)注什么?在做什么?現(xiàn)在,這些都不是謎了。

LINGO-1會(huì)對(duì)你解釋清楚,它的每一步行動(dòng)是在干嘛。

比如它想超越一輛停在路邊的車(chē)輛——

LINGO-1:由于車(chē)流緩慢,我正在超車(chē)。 

LINGO-1:我正在超越一輛停在路邊的汽車(chē)。 

LINGO-1:由于前方道路暢通,我正在加速。

圖片

駛近斑馬線(xiàn)時(shí)——

LINGO-1:我正在保持車(chē)速;道路仍然暢通無(wú)阻。 

LINGO-1:現(xiàn)在正在剎車(chē)減速。 

LINGO-1:在斑馬線(xiàn)處停下。 

LINGO-1:我正在從停止的位置加速。

LINGO-1:我正在加速,因?yàn)榈缆吠〞场?/span>

圖片

在十字路口左轉(zhuǎn)時(shí)——

LINGO-1:我保持不動(dòng),因?yàn)榍败?chē)也停了下來(lái)。 

LINGO-1:我正在加速,因?yàn)榍败?chē)已經(jīng)駛離。 

LINGO-1:我正在踩剎車(chē),準(zhǔn)備在路口停車(chē)。 

LINGO-1:我正在前進(jìn),因?yàn)檐?chē)道暢通。 

LINGO-1:完成左轉(zhuǎn),沿著路線(xiàn)行駛。

圖片

視覺(jué)問(wèn)答(VQA)

除了能解說(shuō)自個(gè)兒,LINGO-1還能針對(duì)你的提問(wèn)進(jìn)行答疑,讓我們能夠評(píng)估它的場(chǎng)景理解和推理能力。

比如,如果問(wèn)LINGO-1,在這個(gè)十字路口要注意什么?

它會(huì)說(shuō):「我得注意前面的信號(hào)燈、我前面騎自行車(chē)的人和正在穿過(guò)道路的行人?!?/span>

圖片

問(wèn)一下LINGO-1,現(xiàn)在是什么天氣?會(huì)對(duì)駕駛產(chǎn)生什么影響?

它會(huì)說(shuō):「現(xiàn)在是雨天,我開(kāi)車(chē)時(shí)需要極其小心,因?yàn)橛晏炻访鏉窕芤?jiàn)度降低。」

圖片

LINGO-1,你該怎樣安全地和自行車(chē)并排行駛?

它會(huì)說(shuō):「我得和騎自行車(chē)的人保持距離,必要的時(shí)候停下來(lái),它是一個(gè)潛在危險(xiǎn)。另外路邊停的車(chē)我也得注意?!?/span>

圖片

關(guān)鍵:駕駛解說(shuō)數(shù)據(jù)集

開(kāi)發(fā)LINGO-1的關(guān)鍵,就在于創(chuàng)建一個(gè)可擴(kuò)展的多樣化數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了專(zhuān)業(yè)駕駛員在英國(guó)各地駕駛時(shí)的解說(shuō),包括圖像、語(yǔ)言和行動(dòng)數(shù)據(jù)。

這讓我們想起在駕校時(shí)跟教練學(xué)開(kāi)車(chē)時(shí)的場(chǎng)景——他們會(huì)不時(shí)發(fā)表類(lèi)似下面這樣的評(píng)論和解說(shuō),解釋自己在駕駛時(shí)為什么要有這種行為,好讓學(xué)員們舉一反三。

- 前方車(chē)輛/交通信號(hào)燈有變,請(qǐng)減速  

- 現(xiàn)在該變換車(chē)道了  

- 可以加速了,注意不要超過(guò)最高限速  

- 注意!其他車(chē)輛駛?cè)氲缆?停在十字路口了  

- 注意前方環(huán)島和讓路標(biāo)志 

- 前方有停放車(chē)輛/交通信號(hào)燈/學(xué)校  

- 旁邊車(chē)輛正在變道/超過(guò)停在路邊的車(chē)輛  

- 騎車(chē)的人/行人正在斑馬線(xiàn)上等候

當(dāng)以上這些語(yǔ)句和感官圖像、底層駕駛動(dòng)作在時(shí)間上同步時(shí),研究者就得到了豐富的視覺(jué)-語(yǔ)言-行動(dòng)數(shù)據(jù)集,可以用于訓(xùn)練各種任務(wù)的模型。

視覺(jué)-語(yǔ)言-行動(dòng)模型(VLAM)

LLM崛起后,許多視覺(jué)語(yǔ)言模型(VLM)都將LLM的推理能力與圖像和視頻相結(jié)合。

而Wayve進(jìn)一步推出了視覺(jué)-語(yǔ)言-行動(dòng)模型(VLAM),包含三種信息——圖像、駕駛數(shù)據(jù)和語(yǔ)言。

以前,在機(jī)器人訓(xùn)練(尤其自動(dòng)駕駛領(lǐng)域)中,很少會(huì)用到自然語(yǔ)言。

如果加進(jìn)了自然語(yǔ)言,就會(huì)讓我們更有力地解釋和訓(xùn)練基礎(chǔ)駕駛模型,這種嶄新的模式會(huì)產(chǎn)生巨大的影響。

通過(guò)用語(yǔ)言來(lái)解釋駕駛場(chǎng)景中的各種因果因素,就可以加快模型的訓(xùn)練速度,推廣到全新的場(chǎng)景中。

而且,既然可以向模型問(wèn)問(wèn)題,我們就能知道模型究竟理解了什么,它的推理和決策能力有多強(qiáng)。

自動(dòng)駕駛系統(tǒng)也不再是個(gè)神秘的黑盒,我們開(kāi)車(chē)時(shí)可以時(shí)不時(shí)地問(wèn)問(wèn)它:你在想啥?

這無(wú)疑會(huì)提高大眾對(duì)自動(dòng)駕駛的信任。

另外,雖然只有少量的訓(xùn)練樣本,但自然語(yǔ)言的快速學(xué)習(xí)能力,可以讓模型迅速高效地學(xué)習(xí)新任務(wù)、適應(yīng)新場(chǎng)景。

比如,只要我們用自然語(yǔ)言告訴模型「這種行為不對(duì)」,就能糾正自動(dòng)駕駛系統(tǒng)的錯(cuò)誤行為。

從此,或許只需要自然語(yǔ)言,就能為端到端自動(dòng)駕駛建立基礎(chǔ)模型了!

準(zhǔn)確率60%

這段時(shí)間,團(tuán)隊(duì)一直在對(duì)模型架構(gòu)和訓(xùn)練數(shù)據(jù)集進(jìn)行改進(jìn)。

從圖中不難看出,LINGO-1的性能相比于最開(kāi)始已經(jīng)提高了一倍。

目前,LINGO-1的準(zhǔn)確率已經(jīng)達(dá)到了人類(lèi)水平的60%。

顯然,自然語(yǔ)言的引入,可以在多個(gè)方面徹底改變自動(dòng)駕駛技術(shù)。

提高端到端模型的可解釋性

機(jī)器學(xué)習(xí)模型缺乏可解釋性的問(wèn)題,一直以來(lái)都是研究的焦點(diǎn)。

通過(guò)創(chuàng)建基于自然語(yǔ)言的交互界面,可以讓用戶(hù)直接進(jìn)行提問(wèn)并讓AI解答,從而深入了解模型對(duì)場(chǎng)景理解以及是如何做出決策的。

這種乘客與自動(dòng)駕駛汽車(chē)之間的獨(dú)特對(duì)話(huà),可以提高透明度,讓人更容易理解和信任這些系統(tǒng)。

同時(shí),自然語(yǔ)言還能增強(qiáng)模型適應(yīng)人類(lèi)反饋并從中學(xué)習(xí)的能力。

就像教練指導(dǎo)學(xué)生駕駛一樣,隨著時(shí)間的推移,糾正指令和用戶(hù)反饋可以完善模型的理解和決策過(guò)程。

更好的規(guī)劃和推理,提高駕駛性能

有兩個(gè)主要的因素會(huì)影響自動(dòng)駕駛性能:

1.  語(yǔ)言模型準(zhǔn)確解釋各種輸入模式場(chǎng)景的能力

2. 模型將中層推理轉(zhuǎn)化為有效底層規(guī)劃的熟練程度

對(duì)此,團(tuán)隊(duì)正在嘗試通過(guò)LINGO的自然語(yǔ)言、推理和規(guī)劃能力,來(lái)對(duì)閉環(huán)駕駛模型進(jìn)行增強(qiáng)。

圖片

Wayve LINGO-1閉環(huán)自動(dòng)駕駛模型

新場(chǎng)景或長(zhǎng)尾場(chǎng)景的高效學(xué)習(xí)

平時(shí),一張圖片勝過(guò)千言萬(wàn)語(yǔ)。

但在訓(xùn)練模型時(shí),是一段文字勝過(guò)千幅圖片。

現(xiàn)在,我們不再需要成千上萬(wàn)個(gè)汽車(chē)為行人減速的示例,只需要幾個(gè)示例,配上簡(jiǎn)短的文字說(shuō)明,就可以教會(huì)模型減速,讓它學(xué)會(huì)在這種情況下應(yīng)該如何行動(dòng),應(yīng)該考慮什么。

要知道,在自動(dòng)駕駛中,最重要的部分之一就是因果推理,它能讓系統(tǒng)理解場(chǎng)景中元素和行為之間的關(guān)系。

一個(gè)性能良好的VLAM,可以讓系統(tǒng)將在斑馬線(xiàn)上等待的行人與「請(qǐng)勿穿越」的交通信號(hào)牌聯(lián)系起來(lái)。這種數(shù)據(jù)有限的挑戰(zhàn)性場(chǎng)景中極有意義。

另外,LLM早已從互聯(lián)網(wǎng)數(shù)據(jù)集中掌握了大量人類(lèi)行為知識(shí),因此能夠理解識(shí)別物體、交通法規(guī)和駕駛操作等概念,比如樹(shù)、商店、房子、追逐球的狗和停在學(xué)校門(mén)口的公交車(chē)之間的區(qū)別。

通過(guò)VLAM對(duì)圖形數(shù)據(jù)更廣泛的信息編碼,自動(dòng)駕駛會(huì)變得更先進(jìn)、更安全。

局限性

當(dāng)然,LINGO-1也存在著一定的局限性。

泛化

LINGO-1是根據(jù)倫敦市中心的駕駛經(jīng)驗(yàn)和互聯(lián)網(wǎng)規(guī)模的文本進(jìn)行訓(xùn)練的。

雖然已經(jīng)學(xué)到了全世界的駕駛文化,但目前最擅長(zhǎng)的還是對(duì)英國(guó)的交通法規(guī)進(jìn)行解讀。

它還需要學(xué)習(xí)其他國(guó)家的駕駛經(jīng)驗(yàn)。

幻覺(jué)

在大語(yǔ)言模型中,幻覺(jué)是一個(gè)眾所周知的問(wèn)題,LINGO-1也不例外。

不過(guò)比起一般LLM,LINGO-1有一個(gè)優(yōu)勢(shì):因?yàn)橐砸曈X(jué)、語(yǔ)言和行動(dòng)為基礎(chǔ),它就有了更多的監(jiān)督來(lái)源,從而可以更好地理解世界。

上下文

視頻深度學(xué)習(xí)之所以具有挑戰(zhàn)性,是因?yàn)橐曨l數(shù)據(jù)通常比圖像或文本數(shù)據(jù)集大幾個(gè)數(shù)量級(jí)。

基于視頻的多模態(tài)語(yǔ)言模型尤其需要較長(zhǎng)的上下文長(zhǎng)度,以便能夠嵌入許多視頻幀,來(lái)推理復(fù)雜的動(dòng)態(tài)駕駛場(chǎng)景。

閉環(huán)推理

目前,Wayve正在研究模型的可解釋性,但最終,他們LLM的推理能力能夠真正影響到人類(lèi)的駕駛。

研究者正在開(kāi)發(fā)一種閉環(huán)架構(gòu),未來(lái)能在自動(dòng)駕駛車(chē)輛上運(yùn)行LINGO-1。

網(wǎng)友討論

對(duì)此,網(wǎng)友們也覺(jué)得很振奮人心。

「有趣的是,我認(rèn)為語(yǔ)言模型是用文字解釋了駕駛控制模型的轉(zhuǎn)向、制動(dòng)和油門(mén)預(yù)測(cè),而不是影響駕駛本身,因?yàn)樽匀徽Z(yǔ)言會(huì)丟失所需的精度?!?/span>

「通過(guò)這種方法,我們正在非常接近AGI?!?/span>

「可以認(rèn)為它是在世界模型中添加語(yǔ)言。我一直不明白為什么以前從未嘗試過(guò),因?yàn)橛?xùn)練Agent進(jìn)行溝通這個(gè)想法似乎大家都能想到?!?/span>

「從單純的感知行動(dòng)到添加文本推理,這種轉(zhuǎn)變改變了游戲規(guī)則!在我看來(lái),這正是自動(dòng)駕駛中缺失的部分,因?yàn)樗苑羌夹g(shù)性的方式使可解釋性成為可能?!?/span>

目前來(lái)說(shuō),機(jī)器人訓(xùn)練與自然語(yǔ)言的整合,仍處于早期階段。

而LINGO-1,正式在利用自然語(yǔ)言加強(qiáng)基礎(chǔ)駕駛模型的學(xué)習(xí)和可解釋性上,邁出的重要一步。

試想一下,以后我們只需要通過(guò)簡(jiǎn)單的文字提示,就能讓AI告訴前面的路況,或者讓AI學(xué)習(xí)不同地區(qū)的交通法規(guī),這個(gè)場(chǎng)景簡(jiǎn)直太令人激動(dòng)了!

因此,自然語(yǔ)言在開(kāi)發(fā)更安全、更可靠的自動(dòng)駕駛汽車(chē)方面,一定大有可為。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-09-22 11:56:57

模型駕駛

2023-12-08 10:10:56

模型論文調(diào)研

2022-04-06 11:05:25

自動(dòng)駕駛商業(yè)化馬斯克

2021-12-02 10:08:48

自動(dòng)駕駛數(shù)據(jù)汽車(chē)

2024-04-26 08:53:46

自動(dòng)駕駛人工智能大型語(yǔ)言模型

2024-03-19 13:12:36

自動(dòng)駕駛模型

2020-01-09 08:42:23

自動(dòng)駕駛AI人工智能

2023-02-13 12:15:41

自動(dòng)駕駛算法

2023-10-30 09:42:29

自動(dòng)駕駛模型

2021-04-27 14:11:02

自動(dòng)駕駛AI人工智能

2021-11-15 23:53:54

自動(dòng)駕駛機(jī)器物聯(lián)網(wǎng)

2021-09-02 12:30:22

自動(dòng)駕駛人工智能技術(shù)

2022-04-12 09:21:50

AIPython自動(dòng)駕駛

2022-10-27 10:18:25

自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2023-02-17 08:54:57

2023-10-24 09:53:56

自動(dòng)駕駛模型

2023-07-31 14:09:53

自動(dòng)駕駛技術(shù)

2022-08-22 09:45:34

自動(dòng)駕駛

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)