偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中科院聯(lián)合清華等發(fā)布視覺語言行動(dòng)推理模型VLA-R1,讓機(jī)器人先思考再行動(dòng)

人工智能 新聞
剛剛,中科院自動(dòng)化所、清華和GigaAI聯(lián)合發(fā)布視覺-語言-行動(dòng)(Vision-Language-Action, VLA)模型的R1推理版本。讓機(jī)器人實(shí)現(xiàn)了先思考再行動(dòng)。

還記得 DeepSeek R1嗎?它實(shí)現(xiàn)了大語言模型先思考再回答。

剛剛,中科院自動(dòng)化所、清華和GigaAI聯(lián)合發(fā)布視覺-語言-行動(dòng)(Vision-Language-Action, VLA)模型的R1推理版本。讓機(jī)器人實(shí)現(xiàn)了先思考再行動(dòng)。

當(dāng)前的機(jī)器人模型在執(zhí)行任務(wù)時(shí),像一個(gè)提線木偶,直接輸出動(dòng)作,而VLA-R1模型給機(jī)器人裝上了一個(gè)會(huì)推理的大腦,讓它在行動(dòng)前先想清楚每一步。

視覺-語言-行動(dòng)(Vision-Language-Action, VLA)模型是具身智能(embodied AI)領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù)。它的目標(biāo)是讓一個(gè)智能體,比如機(jī)器人,能夠像人一樣,通過看(視覺)、聽(語言)來理解指令,并作出相應(yīng)的行動(dòng)。

這就像你告訴一個(gè)朋友,請(qǐng)把桌上的紅蘋果遞給我。他會(huì)先用眼睛掃描桌子,找到所有的蘋果,分辨出紅色的那個(gè),然后規(guī)劃手臂的運(yùn)動(dòng)路徑,最后伸手拿起并遞給你。這個(gè)過程融合了感知、理解、推理和行動(dòng)。

早期的VLA模型已經(jīng)能做到不錯(cuò)的程度。它們通過學(xué)習(xí)海量的圖片與文字,建立了對(duì)世界的基本認(rèn)知。比如,它知道什么是蘋果,什么是桌子。接著,通過學(xué)習(xí)大量的操作數(shù)據(jù),它將這種認(rèn)知與具體的機(jī)器人動(dòng)作聯(lián)系起來。比如,它學(xué)會(huì)了如何控制機(jī)械臂去抓取一個(gè)物體。

這使得模型具備了寶貴的泛化能力。即使它沒見過某個(gè)特定品牌的杯子,但因?yàn)樗斫狻印@個(gè)概念,它也能舉一反三,去抓取那個(gè)新杯子。它還能理解組合性的新指令,比如‘把方塊放到圓圈的左邊’。

然而,這些模型有一個(gè)共同的短板,它們像一個(gè)做事不過腦子的行動(dòng)派。

你給它一個(gè)指令,它幾乎是憑直覺,直接給出一個(gè)最終動(dòng)作。這個(gè)過程像個(gè)黑箱,中間沒有清晰的思考步驟。它不會(huì)明確地去推理物體的用途(可供性),比如杯子是用來裝水的,錘子是用來敲的。它也不會(huì)仔細(xì)分析物體之間的幾何關(guān)系,比如哪個(gè)物體在前面,哪個(gè)在后面。

這種莽撞的模式,在簡(jiǎn)單的場(chǎng)景下或許還能應(yīng)付。一旦環(huán)境變得復(fù)雜,問題就暴露無遺。

想象一下桌上有兩個(gè)顏色非常接近的紅色方塊,指令是‘拿起那個(gè)深紅色的方塊’。模型很可能因?yàn)闊o法進(jìn)行細(xì)致的推理而選錯(cuò)。

再比如,桌上有好幾個(gè)碗,指令是‘把草莓放進(jìn)碗里’。模型應(yīng)該選擇哪個(gè)碗?是離得最近的,還是最大的,還是空的那個(gè)?缺乏推理能力,模型的選擇就帶有很大的隨機(jī)性,任務(wù)成功率自然大打折扣。

更關(guān)鍵的是,現(xiàn)有的模型訓(xùn)練方法也難以系統(tǒng)性地提升這種推理能力。主流的方法是監(jiān)督微調(diào)(supervised fine-tuning, SFT)。就是給模型看大量的‘問題-標(biāo)準(zhǔn)答案’,讓它去模仿。這種方式很少能優(yōu)化思考過程的質(zhì)量,也缺乏對(duì)最終執(zhí)行效果的有效獎(jiǎng)勵(lì)。

即便引入了強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),獎(jiǎng)勵(lì)設(shè)計(jì)也通常很單一,比如只獎(jiǎng)勵(lì)最終任務(wù)是否成功。這很難同時(shí)優(yōu)化過程的合理性(比如視覺區(qū)域?qū)R是否準(zhǔn)確)和動(dòng)作的連貫性(比如軌跡是否平滑)。這導(dǎo)致模型在面對(duì)新環(huán)境或真實(shí)世界時(shí),性能會(huì)大幅下降。

機(jī)器人需要學(xué)會(huì)思考。不是簡(jiǎn)單的反應(yīng),而是有條理、有邏輯的逐步推理。

VLA-R1學(xué)會(huì)了先思考再行動(dòng)

針對(duì)這些挑戰(zhàn),研究人員提出了VLA-R1,一個(gè)會(huì)推理的VLA模型。它的核心思想很簡(jiǎn)單:把人的思考過程,也就是思維鏈(Chain-of-Thought, CoT),教給模型,并用一套可驗(yàn)證的獎(jiǎng)勵(lì)機(jī)制去強(qiáng)化這個(gè)思考過程和最終的行動(dòng)。

這全面提升了機(jī)器人行動(dòng)的準(zhǔn)確性。

整個(gè)VLA-R1的訓(xùn)練和工作流程分為兩個(gè)核心階段。

第一階段是學(xué)習(xí)如何思考。這個(gè)階段采用的是監(jiān)督微調(diào)。

研究團(tuán)隊(duì)首先需要高質(zhì)量的教材,也就是帶有清晰思考過程的訓(xùn)練數(shù)據(jù)。他們構(gòu)建了一個(gè)名為VLA-CoT-13K的數(shù)據(jù)集。他們使用強(qiáng)大的Qwen2.5-VL-72B模型,為13000個(gè)任務(wù)場(chǎng)景自動(dòng)生成了中間的推理步驟。

比如,對(duì)于‘把綠色的積木放到紅色的碗里’這個(gè)任務(wù),生成的思維鏈可能是這樣的:

  1. 識(shí)別任務(wù)目標(biāo):移動(dòng)綠色積木。
  2. 定位綠色積木:在圖像的左上角區(qū)域找到了一個(gè)綠色的方塊。
  3. 識(shí)別目的地:紅色的碗。
  4. 定位紅色的碗:在圖像的右側(cè)中間位置找到了一個(gè)紅色的碗。
  5. 規(guī)劃行動(dòng)軌跡:從綠色積木的位置,規(guī)劃一條避開障礙物的路徑,移動(dòng)到紅色碗的上方,然后放下。

這些帶有思維鏈的數(shù)據(jù),就像一本本詳細(xì)的解題步驟分析。模型在學(xué)習(xí)時(shí),不僅僅是看到最終答案(機(jī)器人動(dòng)作),更重要的是學(xué)習(xí)了從問題到答案的整個(gè)邏輯推理過程。這種‘先推理,后行動(dòng)’的策略,讓模型學(xué)會(huì)了分解任務(wù),將視覺感知和最終的動(dòng)作目標(biāo)更緊密地聯(lián)系起來,也大大提高了學(xué)習(xí)效率。

在模型架構(gòu)上,VLA-R1使用Qwen2.5-VL-3B作為基礎(chǔ)。它的視覺部分是一個(gè)經(jīng)過重新設(shè)計(jì)的視覺Transformer,可以高效處理高分辨率圖像和視頻。語言部分則使用了成熟的Qwen2.5解碼器。圖像和文字信息在這里融合,共同推理,最終生成包含推理過程和動(dòng)作預(yù)測(cè)的結(jié)構(gòu)化輸出。這個(gè)輸出隨后被轉(zhuǎn)換成機(jī)器人可以執(zhí)行的連續(xù)7D動(dòng)作指令(包括三維空間位移,三維旋轉(zhuǎn)和夾爪的開合)。

第二階段是強(qiáng)化思考與行動(dòng)的質(zhì)量。這個(gè)階段采用的是強(qiáng)化學(xué)習(xí)。

經(jīng)過第一階段的學(xué)習(xí),模型已經(jīng)初步具備了推理能力。但這種推理可能還不夠精確,不夠魯棒。就像一個(gè)學(xué)生學(xué)會(huì)了解題步驟,但計(jì)算過程可能還會(huì)有小錯(cuò)誤。

為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一套基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards, RLVR)策略。他們采用了一種名為群體相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)的算法。這個(gè)算法的好處是,可以讓模型從結(jié)構(gòu)化的、可驗(yàn)證的獎(jiǎng)勵(lì)中學(xué)習(xí),同時(shí)保持訓(xùn)練過程的穩(wěn)定。

研究團(tuán)隊(duì)設(shè)計(jì)了三種具體的、可量化的獎(jiǎng)勵(lì),像三位嚴(yán)格的考官,從不同維度評(píng)判模型的輸出。

第一位考官負(fù)責(zé)評(píng)判軌跡。它使用的評(píng)分標(biāo)準(zhǔn)叫作角度長(zhǎng)度增強(qiáng)Fréchet距離(Angle-Length Augmented Fréchet distance, ALAF)。傳統(tǒng)的評(píng)價(jià)方式可能是比較兩個(gè)軌跡對(duì)應(yīng)點(diǎn)之間的距離,但ALAF更聰明。它不僅考慮位置,還考慮了軌跡的順序、方向和局部長(zhǎng)度。

第二位考官負(fù)責(zé)評(píng)判空間定位的準(zhǔn)確性。比如指令是‘拿起那個(gè)蘋果’,模型需要先在圖像中框出蘋果的位置。這位考官使用的評(píng)分標(biāo)準(zhǔn)是廣義交并比(Generalized Intersection over Union, GIoU)。交并比(IoU)是衡量?jī)蓚€(gè)邊界框重合度的常用指標(biāo)。但當(dāng)兩個(gè)框完全不重合時(shí),IoU為0,無法反映它們之間的距離。GIoU則改進(jìn)了這一點(diǎn),即使兩個(gè)框不重合,它也能通過計(jì)算包裹它們的最小外接矩形來給出一個(gè)懲罰,從而衡量它們的距離。

第三位考官負(fù)責(zé)評(píng)判輸出格式。它要求模型的輸出必須嚴(yán)格遵守‘先推理,后動(dòng)作’的結(jié)構(gòu)。輸出必須先包含一段推理文字,然后是一個(gè)被特定標(biāo)簽(...)包裹的動(dòng)作指令。

通過這三位考官的聯(lián)合評(píng)分,模型不斷調(diào)整自己的策略,力求在軌跡對(duì)齊、空間定位和格式規(guī)范性上都做到最好。這個(gè)過程系統(tǒng)性地優(yōu)化了模型的推理魯棒性和執(zhí)行準(zhǔn)確性。

嚴(yán)苛的考驗(yàn)證明了它的強(qiáng)大

為了驗(yàn)證VLA-R1的真實(shí)水平,研究團(tuán)隊(duì)設(shè)計(jì)了一系列嚴(yán)格的實(shí)驗(yàn),涵蓋了從標(biāo)準(zhǔn)數(shù)據(jù)集到模擬環(huán)境,再到真實(shí)世界的全方位考驗(yàn)。

首先是在熟悉的領(lǐng)域內(nèi)數(shù)據(jù)集(ShareRobot)上進(jìn)行測(cè)試。這個(gè)數(shù)據(jù)集是專門為可供性感知和軌跡預(yù)測(cè)任務(wù)構(gòu)建的,規(guī)模龐大,場(chǎng)景豐富。

實(shí)驗(yàn)結(jié)果非常清晰。那些通用的、強(qiáng)大的開源多模態(tài)模型,比如Gemma和Phi系列,在這些具身任務(wù)上表現(xiàn)不佳。盡管它們參數(shù)量巨大,但在定位精度(IoU)上得分低于10,軌跡預(yù)測(cè)的各項(xiàng)誤差(DFD, HD, RMSE)也居高不下。這說明,通用的視覺語言能力并不能直接轉(zhuǎn)化為精確的機(jī)器人操作能力。

經(jīng)過監(jiān)督微調(diào)(SFT)的基線模型,如RoboBrain和NORA,表現(xiàn)有所提升,IoU通常在5到25之間。這證明了針對(duì)性訓(xùn)練的有效性。

而VLA-R1-3B的表現(xiàn)則全面領(lǐng)先。它的IoU達(dá)到了36.51,軌跡誤差的三項(xiàng)指標(biāo)(DFD, HD, RMSE)分別為106.2, 97.9, 71.12。與同樣經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的強(qiáng)基線ManipLVM-R1相比,VLA-R1的IoU提升了17.78%,軌跡誤差整體降低了17.25%。

接著是更具挑戰(zhàn)性的領(lǐng)域外(Out-of-Distribution, OOD)泛化能力測(cè)試。模型需要處理它在訓(xùn)練中從未見過的數(shù)據(jù)。結(jié)果顯示,VLA-R1的優(yōu)勢(shì)更加明顯。在可供性任務(wù)上,它的IoU達(dá)到了33.96。在軌跡預(yù)測(cè)任務(wù)上,三項(xiàng)誤差指標(biāo)甚至比領(lǐng)域內(nèi)測(cè)試時(shí)還要低。這證明VLA-R1學(xué)到的不僅僅是死記硬背訓(xùn)練數(shù)據(jù),而是真正掌握了可泛化的推理能力。

隨后,實(shí)驗(yàn)進(jìn)入了模擬環(huán)境。研究團(tuán)隊(duì)使用RoboTwin模擬器,在一個(gè)每次都會(huì)隨機(jī)變化的桌面環(huán)境中測(cè)試模型的性能。他們測(cè)試了兩種不同的機(jī)器人(Piper和UR5),以檢驗(yàn)?zāi)P偷目缙脚_(tái)通用性。

盡管模擬環(huán)境的變化比訓(xùn)練數(shù)據(jù)更大,VLA-R1依然表現(xiàn)出色。在可供性感知任務(wù)上,它的平均成功率(Success Rate, SR)為55%。在軌跡執(zhí)行任務(wù)上,平均成功率更是達(dá)到了70%。相比之下,基線模型NORA的表現(xiàn)則差很多,尤其是在軌跡任務(wù)上,幾乎完全失敗。這證實(shí)了VLA-R1在動(dòng)態(tài)變化的環(huán)境中,依然能保持強(qiáng)大的穩(wěn)定性和泛化能力。

最后,也是最關(guān)鍵的,是真實(shí)世界實(shí)驗(yàn)。研究團(tuán)隊(duì)在真實(shí)的桌面上設(shè)置了四個(gè)典型場(chǎng)景,包括拾取特定顏色的碗、從多個(gè)相同水果中挑選一個(gè)、在有遮擋的廚房場(chǎng)景中操作,以及包含多種干擾物的混合場(chǎng)景。

在這些充滿不確定性的真實(shí)環(huán)境中,VLA-R1再次證明了自己。在可供性感知任務(wù)上,它的平均成功率約為62.5%,在軌跡預(yù)測(cè)任務(wù)上,平均成功率高達(dá)75%。而基線模型NORA-3B在這兩項(xiàng)任務(wù)上的成功率分別只有35%和47.5%。研究團(tuán)隊(duì)發(fā)現(xiàn),顏色相近、位置變化等因素是導(dǎo)致錯(cuò)誤的主要原因。即便如此,VLA-R1在失敗的情況下,其預(yù)測(cè)也通常集中在目標(biāo)物體附近,而不是完全離譜,顯示出了一定的容錯(cuò)和自我糾正能力。

為了徹底搞清楚思維鏈(CoT)和強(qiáng)化學(xué)習(xí)(RL)各自的貢獻(xiàn),研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)消融研究。他們測(cè)試了三種配置:沒有CoT和RL的模型,只有CoT的模型,以及同時(shí)使用CoT和RL的完整版VLA-R1。

結(jié)果如表所示,每一步的改進(jìn)都清晰可見。單獨(dú)加入CoT,就能讓模型的定位精度(IoU)從23.74提升到28.37,這說明思維鏈對(duì)于幫助模型理解屬性、消除歧義至關(guān)重要。而當(dāng)CoT和RL結(jié)合后,所有指標(biāo)都獲得了巨大提升。這完美地證明了兩者是互補(bǔ)的:思維鏈提供了結(jié)構(gòu)化的任務(wù)分解和推理框架,而強(qiáng)化學(xué)習(xí)則利用精細(xì)的獎(jiǎng)勵(lì)信號(hào)來打磨和完善具體的執(zhí)行策略,最終實(shí)現(xiàn)了1+1>2的效果。

目前,所有的開發(fā)和驗(yàn)證工作都集中在單臂機(jī)器人上。未來,將這套方法擴(kuò)展到更復(fù)雜的機(jī)器人平臺(tái),比如雙臂協(xié)作機(jī)器人,或者能行走的四足機(jī)器狗,將是一個(gè)重要的研究方向。

這項(xiàng)研究清晰地表明,讓機(jī)器人學(xué)會(huì)像人一樣先思考再行動(dòng),是通往通用物理世界AI的必由之路。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-10-27 08:54:00

2025-09-28 02:00:00

2025-04-27 08:55:00

2025-05-09 08:40:00

2020-01-16 15:20:48

編程語言PythonJava

2025-02-21 14:53:40

2017-10-11 20:03:51

阿里云南京云棲

2025-07-07 08:50:00

2025-08-01 09:10:00

2024-03-07 12:31:29

AI技術(shù)

2025-07-10 14:55:12

機(jī)器人AI模型

2022-01-17 12:06:43

人工智能AI深度學(xué)習(xí)

2023-10-04 09:17:03

機(jī)器人AI

2025-02-17 08:43:00

模型推理訓(xùn)練

2025-05-28 02:40:00

AdaptThink推理模型AI

2024-03-25 08:00:00

3DAI

2025-05-08 09:10:30

2025-07-15 16:28:05

2025-10-08 10:44:16

2025-07-03 08:33:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)