偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

來聊聊近期火爆的幾個大模型和自動駕駛概念

人工智能 新聞
寫這篇文章,一方面是發(fā)現(xiàn)其實包括我在內(nèi),在過去其實都混淆了一些很相關(guān)但其實不同的概念,另一方面從這些概念延伸出來有一些有意思的思考,值得和大家一起分享和探討。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

近期大模型各種應(yīng)用依然火爆,10月初前后出現(xiàn)了一系列頗有噱頭的文章,試圖把大模型應(yīng)用于自動駕駛。和很多朋友最近也聊了很多相關(guān)的話題,寫這篇文章,一方面是發(fā)現(xiàn)其實包括我在內(nèi),在過去其實都混淆了一些很相關(guān)但其實不同的概念,另一方面從這些概念延伸出來有一些有意思的思考,值得和大家一起分享和探討。

大(語言)模型

這無疑是目前最為火爆的一個方向,也是論文最為集中的熱點。那大語言模型究竟能怎么幫助到自動駕駛?一方面是像GPT-4V一樣,通過和圖像的對齊,提供極其強大的語義理解能力,這里暫時按下不表;另一方面便是把LLM作為agent去直接實現(xiàn)駕駛行為。后者其實也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬縷的聯(lián)系。

目前看到的絕大部分后一類工作都是將LLM:1) 直接使用 2) 通過supervised learning的方式微調(diào) 3) 通過reinforcement learning的方式微調(diào) 用于駕駛?cè)蝿?wù)。本質(zhì)上并沒有逃脫出之前基于learning方法去駕駛的范式框架。那其實很直接的一個問題就是,為什么用LLM做這件事情可能會更好?直覺上來說用語言去開車是一個很低效而啰嗦的事情。后來有一天突然想明白了LLM其實通過語言實現(xiàn)了一個對agent的pretrain!之前RL很難具有泛化性很重要的一個原因是難以統(tǒng)一起來各種不同的任務(wù),去用各種通用的數(shù)據(jù)去pretrain,只能是每種任務(wù)from scratch訓(xùn)練,但是LLM很好解決了這樣的問題。但其實也有幾個并沒有很好解決的問題:1) 完成pretrain之后,一定要保留語言作為輸出的接口嗎?這其實在很多任務(wù)中帶來了很多的不便,也一定程度上造成了冗余的計算量。2) LLM as agent的做法上仍然沒有克服現(xiàn)有RL類model free方法的本質(zhì)問題,所有model free有的問題這樣的方法仍然存在。最近也看到一些model based + LLM as agent的嘗試,這可能會是一個有意思的方向。

最后想吐槽的一句各篇paper的是:并不是接上LLM,讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。。。原先不會有保障的東西,并不會因為輸出一句話就變得有保障了。

大(視覺)模型

純粹的大視覺模型其實目前仍然沒有看到那神奇的“涌現(xiàn)”時刻。談到大視覺模型,一般有兩個可能的所指:一個是基于CLIP或者DINO或者SAM這樣海量的web data預(yù)訓(xùn)練實現(xiàn)的超強視覺信息特征提取器,這大大提升了模型的語義理解能力;另一個是指以GAIA為代表的world model實現(xiàn)的對(image, action,etc...)的聯(lián)合模型。

前者其實我認為只是沿著傳統(tǒng)的思路繼續(xù)linear scale up的結(jié)果,目前很難看到對自動駕駛量變的可能性。后者其實在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時候,往往夾雜著這個模型是端到端(直接輸出action)且和LLM是相關(guān)聯(lián)的。其實這樣的假設(shè)是片面的。對于world model的我的理解也是非常有限,這里推薦一下Lecun的訪談和 @俞揚 老師的這篇model based RL的survey,就不展開了:

俞揚:關(guān)于環(huán)境模型(world model)的學(xué)習(xí)
https://zhuanlan.zhihu.com/p/533855468

純視覺自動駕駛

這其實很容易理解,是指僅依賴于視覺傳感器的自動駕駛系統(tǒng)。這其實也是自動駕駛最美好的一個終極愿望:像人一樣靠一雙眼睛來開車。這樣的概念一般都會和上述兩個大模型聯(lián)系起來,因為圖像復(fù)雜的語義需要很強的抽象能力來提取有用的信息。在Tesla最近不斷的宣傳攻勢下,這個概念也和下面要提到的端到端重合起來。但其實純視覺駕駛有很多種實現(xiàn)的路徑,端到端自然是其中的一條,但也不是僅有的一條。實現(xiàn)純視覺自動駕駛最為困難的問題就是視覺天生對于3D信息的不敏感,大模型也并未本質(zhì)上改變這一點。具體體現(xiàn)在:1) 被動接收電磁波的方式使得視覺不像其他傳感器可以測量3D空間中的幾何信息;2) 透視使得遠處的物體對于誤差的敏感程度極高。這對于下游默認在一個等誤差的3D空間中實現(xiàn)的planning和control來說非常不友好。但是,人靠視覺開車等同于人能準(zhǔn)確估計3D距離和速度嗎?我覺得這才是純視覺自動駕駛除了語義理解之外,值得深入研究的representation的問題。

端到端自動駕駛

這個概念是指從傳感器到最終輸出的控制信號(其實我認為也可以廣義地包括到更上游一層planning的路點信息)使用一個聯(lián)合優(yōu)化的模型。這既可以是像早在80年代的ALVINN一樣輸入傳感器數(shù)據(jù),直接通過一個神經(jīng)網(wǎng)絡(luò)輸出控制信號的直接端到端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是通過下游的監(jiān)督信號能夠直接傳遞給到上游,而不是每個模塊只有自己自定的優(yōu)化目標(biāo)。整體來說這是正確的一個思路,畢竟深度學(xué)習(xí)就是靠著這樣的聯(lián)合優(yōu)化發(fā)家的。但是對于自動駕駛或者通用機器人這種往往復(fù)雜程度極高,且和物理世界打交道的系統(tǒng)來說,工程實現(xiàn)和數(shù)據(jù)組織和利用效率上都存在很多需要克服的難題。

Feed-Forward端到端自動駕駛

這個概念好像很少有人提到,但其實我發(fā)現(xiàn)端到端本身的存在是有價值的,但是問題在于對于觀測這種Feed-Forward的使用方式。包括我在內(nèi),其實之前也都會默認端到端駕駛一定是Feed-Forward形式的,因為目前99%基于深度學(xué)習(xí)的方法都假設(shè)了這樣的結(jié)構(gòu),也就是說最終關(guān)心的輸出量(比如控制信號)u = f(x),x是傳感器的各種觀測。這里f可以是一個很復(fù)雜的函數(shù)。但其實,我們在某些問題里,我們希望能夠使得最終的輸出量滿足或接近某些性質(zhì),這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x) <= c 這樣的約束優(yōu)化形式(某種意義上來說,這也算引入了反饋,姑且不準(zhǔn)確地叫做Feedback端到端自動駕駛吧)。其實在CV領(lǐng)域也有一些工作是試圖將這兩者的優(yōu)勢結(jié)合起來,比如我比較熟悉的通過Implict Function構(gòu)造導(dǎo)數(shù)的方式,這在之前的文章里面多次提到過。這樣的范式其實我認為才會是取兩家之長的一個完美端到端方案。

隨著大模型的發(fā)展,這種直接式的Feed-Forward端到端自動駕駛的方案又迎來了一波復(fù)興。大模型當(dāng)然是非常強大的,但是我拋出一個問題希望大家來想想:如果大模型端到端是萬能的,那是不是意味著大模型就應(yīng)該可以端到端下圍棋/五子棋呢?類似AlphaGo的范式就應(yīng)該已經(jīng)毫無意義了?相信大家也都知道這個答案是否定的。當(dāng)然這種Feed-Forward的方式可以作為一個快速的近似求解器,在大部分場景下取得不錯的結(jié)果。

以目前公開了自己使用了Neural Planner的各家方案來看,neural的部分只是為后續(xù)的優(yōu)化方案提供了若干初始化的proposal去緩解后續(xù)優(yōu)化高度非凸的問題。這本質(zhì)上和AlphaGo里的fast rollout做的事情是一模一樣的。但是AlphaGo不會把后續(xù)的MCTS搜索叫做一個“兜底”方案。。。

最后,希望這些能夠幫助大家理清這些概念之間的區(qū)別與聯(lián)系,大家在討論問題的時候也能夠明確在說的究竟是什么東西。。。

原文鏈接:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2022-07-12 09:42:10

自動駕駛技術(shù)

2023-02-13 12:15:41

自動駕駛算法

2023-07-24 09:41:08

自動駕駛技術(shù)交通

2023-10-17 09:35:46

自動駕駛技術(shù)

2024-01-30 09:39:36

自動駕駛仿真

2021-10-26 15:31:28

自動駕駛技術(shù)安全

2022-08-08 13:12:04

自動駕駛決策

2022-12-30 09:57:54

自動駕駛應(yīng)用

2022-08-14 15:26:05

自動駕駛智能

2022-10-27 10:18:25

自動駕駛

2023-07-17 11:27:56

2023-12-08 10:10:56

模型論文調(diào)研

2023-11-09 09:48:46

2018-09-04 19:30:29

人工智能自動駕駛機器學(xué)習(xí)

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動駕駛

2022-07-13 10:20:14

自動駕駛3D算法

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2023-02-08 11:04:59

自動駕駛系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號