偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首創(chuàng)GRPO方案!AlphaDrive:VLM+RL破解自動駕駛長尾難題

人工智能 新聞
今天為大家分享華中科大&地平線機器人最新的工作!AlphaDrive:首創(chuàng)VLM強化學習框架,破解自動駕駛長尾難題!

寫在前面 & 筆者的個人理解

OpenAI o1 和 DeepSeek R1 在數(shù)學和科學等復雜領域達到了或甚至超越了人類專家的水平,強化學習(RL)和推理在其中發(fā)揮了關鍵作用。在自動駕駛領域,最近的端到端模型極大地提高了規(guī)劃性能,但由于常識和推理能力有限,仍然難以應對長尾問題。

一些研究將視覺-語言模型(VLMs)集成到自動駕駛中,但它們通常依賴于預訓練模型,并在駕駛數(shù)據上進行簡單的監(jiān)督微調(SFT),沒有進一步探索專門為規(guī)劃設計的訓練策略或優(yōu)化方法。本文提出了 AlphaDrive,一個針對自動駕駛中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四個基于 GRPO 的 RL 獎勵,專門用于規(guī)劃,并采用結合 SFT 與 RL 的兩階段規(guī)劃推理訓練策略。結果表明,與僅使用 SFT 或不進行推理相比,AlphaDrive 顯著提升了規(guī)劃性能和訓練效率。此外,我們還興奮地發(fā)現(xiàn),在 RL 訓練之后,AlphaDrive 展現(xiàn)出了一些新興的多模態(tài)規(guī)劃能力,這對提高駕駛安全性和效率至關重要。據我們所知,AlphaDrive 是首個將基于 GRPO 的 RL 與規(guī)劃推理集成到自動駕駛中的框架。代碼將被發(fā)布以促進未來的研究。

  • 論文鏈接:https://arxiv.org/abs/2503.07608
  • 代碼鏈接:https://github.com/hustvl/AlphaDrive

圖片

引言

近年來,自動駕駛技術取得了快速進展,端到端自動駕駛成為最具代表性的模型之一。這些模型以傳感器數(shù)據為輸入,利用可學習的神經網絡規(guī)劃車輛未來軌跡。得益于大規(guī)模駕駛演示數(shù)據,端到端模型通過擴展訓練數(shù)據和增加模型參數(shù)持續(xù)改進規(guī)劃能力。然而,由于其黑箱特性與常識推理能力的缺失,端到端模型在處理復雜和長尾駕駛場景時仍面臨重大挑戰(zhàn)。例如,當前方車輛攜帶交通錐行駛時,端到端模型可能無法理解前車與交通錐的關系,誤判道路施工不可通行,從而做出錯誤的制動決策。因此,僅依賴端到端模型實現(xiàn)高級別自動駕駛仍存在顯著局限性。

隨著GPT的成功,大型語言模型(LLMs)展現(xiàn)出卓越的理解與推理能力,并逐步從單模態(tài)文本理解擴展到多模態(tài)視覺-語言處理。視覺-語言模型(VLMs)的常識與推理能力為緩解端到端模型的缺陷提供了潛在解決方案。

近期,OpenAI o1通過集成推理技術,在編程等領域達到甚至超越人類專家水平。DeepSeek R1則利用強化學習(RL),不僅展現(xiàn)出“涌現(xiàn)能力”并取得頂尖性能,且訓練成本顯著低于其他模型。這些進展凸顯了推理技術與強化學習在大型模型開發(fā)中的巨大潛力。

現(xiàn)有將VLMs應用于自動駕駛的研究可分為兩類:

  1. 駕駛場景理解:利用VLMs解析場景語義;
  2. 規(guī)劃決策:部分研究將VLMs作為端到端系統(tǒng),直接根據輸入圖像生成軌跡。然而,與專為軌跡規(guī)劃設計的端到端模型不同,VLMs的輸出空間為離散語言符號,難以直接生成精確數(shù)值預測,可能導致性能不足或安全隱患。

部分研究嘗試通過自然語言描述高層動作(如“減速右轉”)規(guī)避上述問題,但仍缺乏對訓練方法的深入探索。多數(shù)工作僅依賴監(jiān)督微調(SFT),忽視了不同訓練策略對規(guī)劃性能與訓練效率的影響。

本文探討以下核心問題:如何將強化學習與推理技術(在通用大模型中取得顯著成功的方法)應用于自動駕駛規(guī)劃,以提升VLMs的性能并降低訓練成本?

通過初步實驗,我們發(fā)現(xiàn)直接應用現(xiàn)有RL與推理技術效果欠佳,主要歸因于以下三方面:

  1. 獎勵設計不匹配:通用任務的RL獎勵(如視覺計數(shù)任務的正確性判斷)難以適應規(guī)劃需求。自動駕駛中,不同駕駛行為的重要性差異顯著(如制動與加速),需設計權重差異化的獎勵機制。
  2. 多解性挑戰(zhàn):規(guī)劃問題通常存在多個合理解(如直行道路可選擇勻速或加速),需避免強制對齊單一真值標簽。
  3. 推理數(shù)據匱乏:自動駕駛缺乏現(xiàn)成的規(guī)劃推理數(shù)據集,人工標注成本高昂,直接應用現(xiàn)有推理技術困難。

針對上述挑戰(zhàn),本文提出AlphaDrive——首個將基于GRPO的強化學習與規(guī)劃推理集成到自動駕駛的框架。具體貢獻如下:

  • GRPO強化學習策略:采用Group Relative Policy Optimization(GRPO),相比PPO和DPO,其組間相對優(yōu)化策略更適配規(guī)劃的多解性,實驗表明GRPO訓練的模型展現(xiàn)出涌現(xiàn)的多模態(tài)規(guī)劃能力。
  • 四維獎勵設計
  • 規(guī)劃準確性獎勵:基于F1分數(shù)評估橫向(方向)與縱向(速度)決策一致性;
  • 動作加權獎勵:根據安全關鍵性為不同動作分配權重(如制動權重高于勻速);
  • 規(guī)劃多樣性獎勵:鼓勵生成多樣化可行解,防止模式坍縮;
  • 格式規(guī)范獎勵:強制輸出結構化格式(如<answer>標簽),提升訓練穩(wěn)定性。
  • 兩階段訓練范式
  • 階段一(SFT知識蒸餾):利用大模型(如GPT-4o)生成高質量規(guī)劃推理數(shù)據,通過SFT實現(xiàn)推理過程蒸餾;

  • 階段二(RL探索):在SFT基礎上進行RL微調,緩解早期訓練的不穩(wěn)定性和幻覺問題。

實驗表明,與僅使用SFT或無推理的模型相比,AlphaDrive在規(guī)劃準確率上提升25.52%,且在僅20%訓練數(shù)據下性能超越SFT模型35.31%。此外,RL訓練后模型涌現(xiàn)出多模態(tài)規(guī)劃能力(如復雜場景生成多個合理決策),為提升駕駛安全與效率提供了新方向。據我們所知,AlphaDrive是首個將GRPO-based RL與規(guī)劃推理結合的自動駕駛框架,代碼將開源以推動后續(xù)研究。

相關工作回顧

視覺-語言模型自GPT發(fā)布以來,大型模型的能力已從單模態(tài)擴展到多模態(tài)。大型視覺-語言模型(VLMs)在視覺理解與推理任務中展現(xiàn)出卓越性能。早期研究嘗試將視覺模型與大型語言模型(LLMs)結合:Flamingo通過視覺編碼器處理視覺信號,并在LLM解碼器中引入注意力層以實現(xiàn)跨模態(tài)交互;BLIP提出Q-Former架構和跨模態(tài)對比學習任務,以橋接視覺編碼器與LLMs;LLaVA采用簡單的MLP作為視覺與語言模塊的連接器,僅用有限數(shù)據即實現(xiàn)強大的視覺理解能力。QwenVL系列進一步優(yōu)化了視覺模塊,支持高分辨率和動態(tài)分辨率圖像輸入,并在多語言任務和空間感知中表現(xiàn)優(yōu)異。

強化學習與推理自回歸學習是LLMs的主流預訓練策略,而強化學習(RL)與推理技術進一步增強了模型能力。例如,GPT采用基于人類反饋的強化學習(RLHF),將人類意圖和偏好融入訓練過程;直接偏好優(yōu)化(DPO)通過優(yōu)化偏好反饋提升模型性能。Group Relative Policy Optimization(GRPO)引入組間相對優(yōu)化策略,通過多組輸出的相對優(yōu)劣提升訓練穩(wěn)定性和效果。

DeepSeek R1基于GRPO訓練時經歷了“頓悟時刻”(Aha Moment),模型在無顯式引導下自主增加問題思考并重新評估初始方案,展示了RL在推動模型從模仿轉向涌現(xiàn)智能中的潛力。本實驗中,我們同樣觀察到,經過GRPO-based RL訓練后,AlphaDrive展現(xiàn)出多模態(tài)規(guī)劃能力,可生成多組合理駕駛方案,為提升駕駛安全與效率提供了可能。在推理領域,Chain-of-thought通過分步分解復雜問題顯著提升解決能力。OpenAI o1基于該方法,結合推理時擴展(如蒙特卡洛樹搜索MCTS和集束搜索Beam Search),在科學和編程等需復雜推理的領域取得突破,表明除擴展模型參數(shù)與數(shù)據外,提升推理時計算量亦是重要方向。

自動駕駛規(guī)劃規(guī)劃是自動駕駛的核心任務。早期基于規(guī)則的算法通用性與效率受限。近期,端到端模型通過統(tǒng)一神經網絡直接從傳感器數(shù)據輸出軌跡或控制信號,利用大規(guī)模駕駛演示數(shù)據驅動訓練,顯著提升規(guī)劃性能。然而,端到端模型因缺乏常識與推理能力,仍難以應對長尾場景。

VLM在自動駕駛中的應用VLM的常識與推理能力可有效彌補端到端模型的不足。在機器人領域,視覺-語言-動作(VLA)模型通過理解指令執(zhí)行復雜動作,VLM生成規(guī)劃指令后由動作模型轉換為控制信號。

自動駕駛領域亦有相關探索:DriveGPT4以視頻為輸入,直接預測控制信號;ELM利用跨領域視頻數(shù)據提升VLM在駕駛任務中的性能;OmniDrive提出稀疏3D令牌表征場景,輸入VLM進行理解與規(guī)劃。

部分研究結合VLM與端到端模型:DriveVLM首次將VLM用于低頻軌跡預測,端到端模型生成高頻軌跡;Senna提出VLM負責高層規(guī)劃、端到端模型執(zhí)行低層軌跡預測的框架。此外,多數(shù)據集與基準推動了VLM在自動駕駛中的應用。然而,現(xiàn)有工作多依賴預訓練模型與簡單SFT,缺乏針對規(guī)劃的訓練策略探索,需進一步將RL與推理技術引入自動駕駛領域。

詳解AlphaDrive

圖片

概述

AlphaDrive 是專為自動駕駛規(guī)劃設計的視覺-語言模型(VLM)。與以往僅依賴監(jiān)督微調(SFT)的方法不同,我們探索了強化學習(RL)與推理技術的結合,以更好地適配駕駛規(guī)劃的獨特特性:

  1. 不同駕駛行為的重要性差異(如制動比勻速行駛更關鍵);
  2. 多解性(如直行道路可選擇加速或保持速度);
  3. 規(guī)劃推理數(shù)據的匱乏。

為此,我們提出四個基于GRPO的RL獎勵函數(shù),并設計結合SFT與RL的兩階段規(guī)劃推理訓練策略。實驗表明,與僅使用SFT或無推理的模型相比,AlphaDrive在規(guī)劃性能與訓練效率上均顯著提升。以下詳細闡述各模塊的設計。

面向規(guī)劃的強化學習

強化學習算法

當前主流RL算法包括PPO、DPO和GRPO。給定查詢,GRPO從舊策略中采樣一組輸出,并通過最大化以下目標優(yōu)化新策略:

其中,,和為超參數(shù),優(yōu)勢通過組內獎勵歸一化計算。

選擇GRPO的原因:

  1. DeepSeek R1[14]驗證了GRPO在通用領域的有效性,其訓練穩(wěn)定性與效率優(yōu)于PPO和DPO;
  2. GRPO的組間相對優(yōu)化策略天然適配規(guī)劃的多解性。實驗進一步表明,GRPO訓練的模型展現(xiàn)出更強的規(guī)劃能力。

規(guī)劃獎勵建模

規(guī)劃準確性獎勵數(shù)學或編程領域可通過最終答案是否正確直觀判定獎勵,但規(guī)劃需同時考慮橫向(方向)與縱向(速度)決策。我們采用F1分數(shù)分別評估兩者的準確性。初期直接匹配真實標簽導致訓練不穩(wěn)定,最終采用F1分數(shù)以避免模型學習“輸出所有可能動作”的捷徑策略。

動作加權獎勵不同動作對安全的重要性不同(如制動權重高于勻速)。為此,我們?yōu)閯幼鞣峙錂嘀兀瑢⑵渥鳛楠剟畹募訖喾至俊?/span>

規(guī)劃多樣性獎勵規(guī)劃本質為多模態(tài)任務。為避免模型收斂到單一解,我們鼓勵生成多樣化可行解:當輸出差異較大時提高獎勵,反之降低獎勵。

規(guī)劃格式獎勵要求輸出嚴格遵循<answer>標簽格式(如<answer> decelerate, left_turn</answer>),未遵循則獎勵為0。

獎勵計算流程詳見算法1。最終,規(guī)劃質量獎勵(準確性×權重×多樣性)與格式獎勵共同用于GRPO損失計算。

圖片

推理:大模型知識蒸餾

自動駕駛缺乏現(xiàn)成的規(guī)劃推理數(shù)據,人工標注成本高昂。為此,我們利用大模型(如GPT-4o)從少量駕駛片段生成高質量推理數(shù)據:

  1. 輸入:真實駕駛動作、車輛狀態(tài)與導航信息;
  2. 輸出:簡潔的決策過程(如“前方綠燈,但行人待穿行,故減速”)。

經人工篩選后,通過SFT將推理過程蒸餾至AlphaDrive,顯著提升其推理能力。

訓練:SFT預熱與RL探索

RL依賴稀疏獎勵信號,而SFT基于稠密監(jiān)督更適配知識蒸餾。此外,僅使用RL易導致訓練初期不穩(wěn)定。因此,我們采用兩階段訓練:

  1. 階段一(SFT預熱):使用少量數(shù)據蒸餾大模型推理過程;
  2. 階段二(RL探索):在全量數(shù)據上微調,提升模型魯棒性與多模態(tài)規(guī)劃能力。

實驗結果分析

實驗設置

數(shù)據集我們采用MetaAD作為訓練與評估基準。該數(shù)據集包含12萬段真實駕駛片段(每段3秒),覆蓋多傳感器數(shù)據與感知標注,并保持各類駕駛環(huán)境與規(guī)劃動作的平衡分布。其中11萬段用于訓練,1萬段用于驗證。此外,我們從訓練集中采樣3萬段數(shù)據生成規(guī)劃推理過程。

訓練細節(jié)以Qwen2VL-2B為基模型,輸入包括前視圖像與包含當前車速、導航信息的提示詞(如“直行100米后右轉”)。訓練使用16塊NVIDIA A800 GPU。

評估指標

  1. 元動作規(guī)劃準確性:計算橫向(直行/左轉/右轉)與縱向(保持/加速/減速/停止)動作的F1分數(shù),并綜合為整體規(guī)劃準確率;
  2. 推理質量:通過BLEU-4、CIDEr、METEOR評估生成推理過程與標注的相似度。

主要結果

表1顯示,AlphaDrive在MetaAD上的規(guī)劃準確率達77.12%,較次優(yōu)模型Qwen2VL-7B提升25.5%。關鍵動作(如轉向與加減速)的F1分數(shù)顯著提高,推理質量亦優(yōu)于其他模型,驗證了兩階段訓練策略的有效性。

圖片

表2的消融實驗表明:

  • 基礎準確性獎勵(ID1)因格式不匹配導致性能偏低;
  • 格式獎勵(ID2)小幅提升穩(wěn)定性;
  • 動作加權獎勵(ID3-4)顯著優(yōu)化關鍵決策;
  • 多樣性獎勵(ID5-6)進一步防止模式坍縮。

圖片

表3對比不同訓練策略:

  • SFT+RL在復雜動作(如減速)上的F1分數(shù)提升15%以上,推理能力優(yōu)于純SFT或RL模型;
  • RL訓練在數(shù)據量有限時(如20K樣本)表現(xiàn)更優(yōu),僅需20%數(shù)據即可超越SFT模型35.31%(表4)。

圖片

消融實驗

獎勵函數(shù)設計

  • 規(guī)劃準確性獎勵(F1分數(shù))避免模型學習“輸出所有動作”的捷徑策略;
  • 動作加權獎勵提升安全關鍵動作(如制動)的權重;
  • 多樣性獎勵通過懲罰重復輸出,鼓勵生成多組可行解;
  • 格式獎勵確保輸出結構化,提升訓練穩(wěn)定性。

訓練策略

  • SFT預熱緩解RL早期訓練的不穩(wěn)定性;
  • RL探索通過GRPO優(yōu)化多解性與安全性,實驗顯示模型在復雜場景中涌現(xiàn)出多模態(tài)規(guī)劃能力(圖3)。

圖片

多模態(tài)規(guī)劃能力涌現(xiàn)

圖3所示,AlphaDrive在復雜場景(如前方車輛緩慢行駛)中可生成多個合理決策(如減速左轉超車或停車等待),而SFT模型僅輸出單一動作。此能力可與下游動作模型結合,動態(tài)選擇最優(yōu)方案,提升駕駛安全性與效率。

結論與局限性

結論本研究提出了AlphaDrive——一種面向自動駕駛規(guī)劃的視覺-語言模型(VLM)。與以往僅依賴監(jiān)督微調(SFT)的方法不同,我們探索了強化學習(RL)與推理技術在規(guī)劃任務中的結合。具體而言,AlphaDrive引入了基于GRPO的規(guī)劃導向RL策略,并設計了兩階段規(guī)劃推理訓練范式。據我們所知,AlphaDrive是首個將RL與推理技術應用于自動駕駛規(guī)劃的框架,顯著提升了性能與訓練效率。

局限性當前版本仍存在以下不足:

  1. 復雜行為標注數(shù)據不足:由于缺乏豐富的標注數(shù)據,AlphaDrive尚無法輸出車道變換或繞行等復雜駕駛行為;
  2. 偽標簽質量依賴:規(guī)劃推理數(shù)據來自大模型基于真實駕駛動作生成的偽標簽,其感知準確性可能影響數(shù)據質量,需進一步閉環(huán)驗證以提升性能上限。

未來工作將聚焦于通過數(shù)據增強與系統(tǒng)驗證優(yōu)化模型能力,推動自動駕駛規(guī)劃技術的實際應用。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-03-24 09:50:00

大模型自動駕駛AI

2024-05-20 09:52:55

自動駕駛場景

2018-11-14 18:00:18

自動駕駛安全人工智能

2023-02-21 15:26:26

自動駕駛特斯拉

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動駕駛技術

2019-08-21 08:45:25

2018-10-24 14:16:33

自動駕駛道路測試牌照

2019-11-25 09:55:34

自動駕駛人工智能無人駕駛

2022-02-17 10:22:17

汽車智能自動駕駛

2021-11-18 22:43:56

自動駕駛技術安全

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2021-11-01 13:53:24

自動駕駛數(shù)據人工智能

2022-12-23 10:55:20

昇智

2024-06-28 09:17:18

2020-09-28 14:00:06

自動駕駛AI網絡

2019-09-19 14:10:12

人工智能物聯(lián)網自動駕駛

2021-12-16 10:45:22

自動駕駛數(shù)據人工智能
點贊
收藏

51CTO技術棧公眾號