偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="ltlt4"><span id="ltlt4"></span></em>

<pre id="ltlt4"><menuitem id="ltlt4"></menuitem></pre>

<button id="ltlt4"></button>

<button id="ltlt4"><nobr id="ltlt4"></nobr></button>

<kbd id="ltlt4"><rp id="ltlt4"></rp></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

來聊聊近期火爆的幾個大模型和自動駕駛概念

作者：Naiyan Wang 2023-11-09 09:38:50

人工智能新聞

寫這篇文章，一方面是發(fā)現(xiàn)其實包括我在內(nèi)，在過去其實都混淆了一些很相關(guān)但其實不同的概念，另一方面從這些概念延伸出來有一些有意思的思考，值得和大家一起分享和探討。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

近期大模型各種應(yīng)用依然火爆，10月初前后出現(xiàn)了一系列頗有噱頭的文章，試圖把大模型應(yīng)用于自動駕駛。和很多朋友最近也聊了很多相關(guān)的話題，寫這篇文章，一方面是發(fā)現(xiàn)其實包括我在內(nèi)，在過去其實都混淆了一些很相關(guān)但其實不同的概念，另一方面從這些概念延伸出來有一些有意思的思考，值得和大家一起分享和探討。

大（語言）模型

這無疑是目前最為火爆的一個方向，也是論文最為集中的熱點。那大語言模型究竟能怎么幫助到自動駕駛？一方面是像GPT-4V一樣，通過和圖像的對齊，提供極其強大的語義理解能力，這里暫時按下不表；另一方面便是把LLM作為agent去直接實現(xiàn)駕駛行為。后者其實也是目前最為sexy的研究方向，和embodied AI這一系列工作有著千絲萬縷的聯(lián)系。

目前看到的絕大部分后一類工作都是將LLM：1) 直接使用 2) 通過supervised learning的方式微調(diào) 3) 通過reinforcement learning的方式微調(diào) 用于駕駛?cè)蝿?wù)。本質(zhì)上并沒有逃脫出之前基于learning方法去駕駛的范式框架。那其實很直接的一個問題就是，為什么用LLM做這件事情可能會更好？直覺上來說用語言去開車是一個很低效而啰嗦的事情。后來有一天突然想明白了LLM其實通過語言實現(xiàn)了一個對agent的pretrain！之前RL很難具有泛化性很重要的一個原因是難以統(tǒng)一起來各種不同的任務(wù)，去用各種通用的數(shù)據(jù)去pretrain，只能是每種任務(wù)from scratch訓(xùn)練，但是LLM很好解決了這樣的問題。但其實也有幾個并沒有很好解決的問題：1) 完成pretrain之后，一定要保留語言作為輸出的接口嗎？這其實在很多任務(wù)中帶來了很多的不便，也一定程度上造成了冗余的計算量。2) LLM as agent的做法上仍然沒有克服現(xiàn)有RL類model free方法的本質(zhì)問題，所有model free有的問題這樣的方法仍然存在。最近也看到一些model based + LLM as agent的嘗試，這可能會是一個有意思的方向。

最后想吐槽的一句各篇paper的是：并不是接上LLM，讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。。。原先不會有保障的東西，并不會因為輸出一句話就變得有保障了。

大（視覺）模型

純粹的大視覺模型其實目前仍然沒有看到那神奇的“涌現(xiàn)”時刻。談到大視覺模型，一般有兩個可能的所指：一個是基于CLIP或者DINO或者SAM這樣海量的web data預(yù)訓(xùn)練實現(xiàn)的超強視覺信息特征提取器，這大大提升了模型的語義理解能力；另一個是指以GAIA為代表的world model實現(xiàn)的對（image, action，etc...）的聯(lián)合模型。

前者其實我認為只是沿著傳統(tǒng)的思路繼續(xù)linear scale up的結(jié)果，目前很難看到對自動駕駛量變的可能性。后者其實在今年Wayve和Tesla的不斷宣傳之下，不斷走入了研究者的視野。大家在聊world model的時候，往往夾雜著這個模型是端到端（直接輸出action）且和LLM是相關(guān)聯(lián)的。其實這樣的假設(shè)是片面的。對于world model的我的理解也是非常有限，這里推薦一下Lecun的訪談和 @俞揚老師的這篇model based RL的survey，就不展開了：

俞揚：關(guān)于環(huán)境模型(world model)的學(xué)習(xí)
https://zhuanlan.zhihu.com/p/533855468

純視覺自動駕駛

這其實很容易理解，是指僅依賴于視覺傳感器的自動駕駛系統(tǒng)。這其實也是自動駕駛最美好的一個終極愿望：像人一樣靠一雙眼睛來開車。這樣的概念一般都會和上述兩個大模型聯(lián)系起來，因為圖像復(fù)雜的語義需要很強的抽象能力來提取有用的信息。在Tesla最近不斷的宣傳攻勢下，這個概念也和下面要提到的端到端重合起來。但其實純視覺駕駛有很多種實現(xiàn)的路徑，端到端自然是其中的一條，但也不是僅有的一條。實現(xiàn)純視覺自動駕駛最為困難的問題就是視覺天生對于3D信息的不敏感，大模型也并未本質(zhì)上改變這一點。具體體現(xiàn)在：1) 被動接收電磁波的方式使得視覺不像其他傳感器可以測量3D空間中的幾何信息；2) 透視使得遠處的物體對于誤差的敏感程度極高。這對于下游默認在一個等誤差的3D空間中實現(xiàn)的planning和control來說非常不友好。但是，人靠視覺開車等同于人能準(zhǔn)確估計3D距離和速度嗎？我覺得這才是純視覺自動駕駛除了語義理解之外，值得深入研究的representation的問題。

端到端自動駕駛

這個概念是指從傳感器到最終輸出的控制信號（其實我認為也可以廣義地包括到更上游一層planning的路點信息）使用一個聯(lián)合優(yōu)化的模型。這既可以是像早在80年代的ALVINN一樣輸入傳感器數(shù)據(jù)，直接通過一個神經(jīng)網(wǎng)絡(luò)輸出控制信號的直接端到端方法，也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是通過下游的監(jiān)督信號能夠直接傳遞給到上游，而不是每個模塊只有自己自定的優(yōu)化目標(biāo)。整體來說這是正確的一個思路，畢竟深度學(xué)習(xí)就是靠著這樣的聯(lián)合優(yōu)化發(fā)家的。但是對于自動駕駛或者通用機器人這種往往復(fù)雜程度極高，且和物理世界打交道的系統(tǒng)來說，工程實現(xiàn)和數(shù)據(jù)組織和利用效率上都存在很多需要克服的難題。

Feed-Forward端到端自動駕駛

這個概念好像很少有人提到，但其實我發(fā)現(xiàn)端到端本身的存在是有價值的，但是問題在于對于觀測這種Feed-Forward的使用方式。包括我在內(nèi)，其實之前也都會默認端到端駕駛一定是Feed-Forward形式的，因為目前99%基于深度學(xué)習(xí)的方法都假設(shè)了這樣的結(jié)構(gòu)，也就是說最終關(guān)心的輸出量（比如控制信號）u = f(x)，x是傳感器的各種觀測。這里f可以是一個很復(fù)雜的函數(shù)。但其實，我們在某些問題里，我們希望能夠使得最終的輸出量滿足或接近某些性質(zhì)，這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x) <= c 這樣的約束優(yōu)化形式（某種意義上來說，這也算引入了反饋，姑且不準(zhǔn)確地叫做Feedback端到端自動駕駛吧）。其實在CV領(lǐng)域也有一些工作是試圖將這兩者的優(yōu)勢結(jié)合起來，比如我比較熟悉的通過Implict Function構(gòu)造導(dǎo)數(shù)的方式，這在之前的文章里面多次提到過。這樣的范式其實我認為才會是取兩家之長的一個完美端到端方案。

隨著大模型的發(fā)展，這種直接式的Feed-Forward端到端自動駕駛的方案又迎來了一波復(fù)興。大模型當(dāng)然是非常強大的，但是我拋出一個問題希望大家來想想：如果大模型端到端是萬能的，那是不是意味著大模型就應(yīng)該可以端到端下圍棋/五子棋呢？類似AlphaGo的范式就應(yīng)該已經(jīng)毫無意義了？相信大家也都知道這個答案是否定的。當(dāng)然這種Feed-Forward的方式可以作為一個快速的近似求解器，在大部分場景下取得不錯的結(jié)果。

以目前公開了自己使用了Neural Planner的各家方案來看，neural的部分只是為后續(xù)的優(yōu)化方案提供了若干初始化的proposal去緩解后續(xù)優(yōu)化高度非凸的問題。這本質(zhì)上和AlphaGo里的fast rollout做的事情是一模一樣的。但是AlphaGo不會把后續(xù)的MCTS搜索叫做一個“兜底”方案。。。

最后，希望這些能夠幫助大家理清這些概念之間的區(qū)別與聯(lián)系，大家在討論問題的時候也能夠明確在說的究竟是什么東西。。。

原文鏈接：https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="bsuc9"><form id="bsuc9"><option id="bsuc9"></option></form></s>