偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型掌握人類(lèi)空間思考能力!三階段訓(xùn)練框架學(xué)會(huì)“邊畫(huà)邊想”,5個(gè)基準(zhǔn)平均提升18.4%

人工智能 新聞
來(lái)自螞蟻技術(shù)研究院自然語(yǔ)言組聯(lián)合中科院自動(dòng)化所和香港中文大學(xué)開(kāi)源ViLaSR-7B。

“邊看邊畫(huà),邊畫(huà)邊想”,讓大模型掌握空間思考能力,結(jié)果直接實(shí)現(xiàn)空間推理任務(wù)新SOTA。

來(lái)自螞蟻技術(shù)研究院自然語(yǔ)言組聯(lián)合中科院自動(dòng)化所和香港中文大學(xué)開(kāi)源ViLaSR-7B。

圖片

它在包括迷宮導(dǎo)航、靜態(tài)圖像理解和視頻空間推理等5個(gè)基準(zhǔn)上平均提升18.4%。

在李飛飛等知名學(xué)者提出的VSI-Bench上更是達(dá)到了與Gemini-1.5-Pro相當(dāng)?shù)?5.4%水平,全面超越現(xiàn)有方法。

圖片

△主實(shí)驗(yàn)結(jié)果

更重要的是,大量案例研究表明,模型確實(shí)掌握了類(lèi)似人類(lèi)的空間推理策略和反思能力,朝著真正的視覺(jué)智能邁出了重要一步。

他們?cè)O(shè)計(jì)了三階段訓(xùn)練框架,來(lái)訓(xùn)練這種推理能力——

首先通過(guò)冷啟動(dòng)訓(xùn)練建立基礎(chǔ)的視覺(jué)操作能力,繼而利用反思拒絕采樣篩選高質(zhì)量的推理路徑,最后通過(guò)強(qiáng)化學(xué)習(xí)直接優(yōu)化任務(wù)目標(biāo)。

具體來(lái)看看~

兩種推理范式

在文本任務(wù)突破后,視覺(jué)推理成為當(dāng)下機(jī)器推理的一大熱點(diǎn)。視覺(jué)推理指的是機(jī)器能夠像人一樣,通過(guò)分析單張或多張(連續(xù))圖中的物體、場(chǎng)景布局和空間關(guān)系來(lái)進(jìn)行視覺(jué)理解和邏輯判斷。

今年4月,OpenAI發(fā)布的o3和o4-mini模型在視覺(jué)推理領(lǐng)域取得重大突破。這兩個(gè)模型采用“Thinking with Images”的推理范式,能夠在文本形式的推理過(guò)程中主動(dòng)進(jìn)行圖像操作(如裁剪、縮放、旋轉(zhuǎn)等),并將操作后的圖像重新輸入模型進(jìn)行下一步推理。在MMMU等多個(gè)視覺(jué)推理基準(zhǔn)測(cè)試中,o3模型的表現(xiàn)大幅超越了此前的最好成績(jī),顯示了這種范式的巨大潛力。

圖片

△兩種視覺(jué)推理范式

視覺(jué)推理為什么需要“Thinking with Images”呢?

與o3/o4-mini不同,傳統(tǒng)視覺(jué)語(yǔ)言模型(Large Vision-Language Models, LVLMs)往往采用“視覺(jué)轉(zhuǎn)文本”推理范式。該范式僅僅將圖像信息作為輔助輸入,通過(guò)視覺(jué)編碼器將其壓縮為token序列并對(duì)齊到語(yǔ)言空間,隨后交由LLM進(jìn)行純文本推理。

盡管去年6月份一篇被Ilya點(diǎn)贊的論文《The Platonic Representation Hypothesis》指出視覺(jué)和語(yǔ)言表示會(huì)隨著模型規(guī)模擴(kuò)大而自然地趨于一致,但在實(shí)踐中這種對(duì)齊存在諸多問(wèn)題。

一方面,由于訓(xùn)練數(shù)據(jù)的局限性和視覺(jué)編碼器能力的限制,這種壓縮和對(duì)齊過(guò)程不可避免地會(huì)丟失大量關(guān)鍵的細(xì)節(jié)信息和時(shí)空信息。這些信息一旦在初始對(duì)齊階段丟失,就無(wú)法在后續(xù)的純文本推理中恢復(fù)。

另一方面,視覺(jué)數(shù)據(jù)中往往包含大量與任務(wù)無(wú)關(guān)的背景細(xì)節(jié),特別是在視頻等多幀場(chǎng)景中存在大量冗余信息。如果盲目增大模型規(guī)模來(lái)保留更多信息,不僅會(huì)耗費(fèi)大量計(jì)算資源去處理這些無(wú)關(guān)信息,還可能導(dǎo)致模型過(guò)度關(guān)注噪聲而影響推理效果。

如圖所示,“視覺(jué)轉(zhuǎn)文本”推理范式的局限在具體任務(wù)中表現(xiàn)得尤為明顯 -在迷宮導(dǎo)航時(shí)容易混淆方向、在多視角推理時(shí)難以建立物體間的時(shí)空關(guān)聯(lián)等。

圖片

△“視覺(jué)轉(zhuǎn)文本”推理的局限性

當(dāng)下,視覺(jué)推理正經(jīng)歷從“視覺(jué)轉(zhuǎn)文本”到“Thinking with Images”的范式轉(zhuǎn)變。

事實(shí)上,“Thinking with Images”并非全新概念。

例如,CVPR 2023的最佳論文VisProg就提出了一種無(wú)需訓(xùn)練的提示方法,通過(guò)讓大模型生成Python程序來(lái)調(diào)用視覺(jué)工具,踐行了這種用圖像思考的理念。螞蟻技術(shù)研究院在EMNLP 2024的VisualReasoner工作也率先提出在推理過(guò)程中主動(dòng)引入視覺(jué)操作,通過(guò)編輯和生成新的視覺(jué)線索來(lái)增強(qiáng)模型的感知能力。更重要的是,該工作設(shè)計(jì)了一種數(shù)據(jù)合成方法,能自動(dòng)生成大量包含多步視覺(jué)推理過(guò)程的訓(xùn)練數(shù)據(jù),首次實(shí)現(xiàn)了將這種推理能力原生注入到模型參數(shù)中。

這些探索為解決傳統(tǒng)視覺(jué)到文本轉(zhuǎn)換范式中的信息損失問(wèn)題開(kāi)辟了新的方向。

圖片

△兩種推理范式對(duì)比

在“Thinking with Images”的大框架下,螞蟻技術(shù)研究院自然語(yǔ)言組聯(lián)合中科院自動(dòng)化所和香港中文大學(xué)重點(diǎn)關(guān)注視頻或多圖場(chǎng)景下的空間推理問(wèn)題,試圖解決當(dāng)下視覺(jué)推理工作中空間關(guān)系增強(qiáng)不足以及跨幀追蹤能力受限等問(wèn)題。

為此,團(tuán)隊(duì)開(kāi)源了ViLaSR-7B(Vision-Language Model for Spatial Reasoning)模型。該模型通過(guò)創(chuàng)新性的“Drawing to Reason in Space”范式,讓LVLMs能夠像人類(lèi)一樣“邊畫(huà)邊想”:通過(guò)在視覺(jué)空間中繪制輔助標(biāo)注(如參考線、標(biāo)記框等),引導(dǎo)視覺(jué)編碼器捕捉關(guān)鍵的空間關(guān)系,從而在視覺(jué)token的embedding表征中保留更豐富的空間信息,有效緩解了傳統(tǒng)“視覺(jué)轉(zhuǎn)文本”推理范式中的信息損失問(wèn)題。這種交互式的視覺(jué)推理方式模擬了人類(lèi)在解決空間問(wèn)題時(shí)的思維過(guò)程,增強(qiáng)了模型的空間感知能力。

圖片

△“Drawing to Reason in Space”示例

技術(shù)方案:Drawing to Reason in Space

該框架讓模型能夠在每一步推理中操作單張或多張圖像:通過(guò)選擇關(guān)鍵幀、跨幀比較、繪制邊界框和輔助線等方式來(lái)構(gòu)建視覺(jué)線索,從而聚焦特定空間區(qū)域并動(dòng)態(tài)追蹤其在不同圖像間的變化關(guān)系。

不同于現(xiàn)有方法依賴(lài)外部專(zhuān)用認(rèn)知工具或僅局限于局部細(xì)節(jié)觀察,這種方式不僅保持了模型原生的視覺(jué)推理能力,更支持其在多圖場(chǎng)景下進(jìn)行連貫的空間推理,不斷更新和優(yōu)化對(duì)空間狀態(tài)的整體理解,真正實(shí)現(xiàn)“邊看邊畫(huà)、邊畫(huà)邊想”的認(rèn)知過(guò)程。這種機(jī)制在處理需要多步驟、長(zhǎng)序列的復(fù)雜空間推理任務(wù)時(shí)表現(xiàn)出顯著優(yōu)勢(shì),不僅提升了推理效率,更增強(qiáng)了結(jié)果的可解釋性和可控性。

三階段訓(xùn)練框架:系統(tǒng)化培養(yǎng)空間推理能力

為了有效提升視覺(jué)語(yǔ)言模型在空間推理任務(wù)上的表現(xiàn),ViLaSR 使用了一種系統(tǒng)化的三階段訓(xùn)練框架。該框架旨在從零開(kāi)始逐步培養(yǎng)模型的空間理解與推理能力,使其能夠像人類(lèi)一樣通過(guò)“畫(huà)圖輔助思考”的方式進(jìn)行多步驟、深層次的空間分析。

第一階段:冷啟動(dòng)訓(xùn)練(Cold-start Training)

訓(xùn)練的第一步是建立模型對(duì)視覺(jué)空間的基本認(rèn)知能力。研究團(tuán)隊(duì)利用合成數(shù)據(jù)構(gòu)建初始的視覺(jué)推理路徑,并通過(guò)監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型執(zhí)行基本的繪圖操作,如標(biāo)注邊界框、繪制輔助線等。這些操作為后續(xù)復(fù)雜推理打下基礎(chǔ)。

第二階段:反思拒絕采樣(Reflective Rejection Sampling)

第二階段目標(biāo)是增強(qiáng)其自我修正與反思能力。該階段引入了反思拒絕采樣機(jī)制,通過(guò)對(duì)模型生成的多個(gè)推理路徑進(jìn)行評(píng)估,篩選出那些展示出反思行為(如修改邊界框、輔助線)的高質(zhì)量樣本進(jìn)行強(qiáng)化訓(xùn)練。這種機(jī)制鼓勵(lì)模型在面對(duì)不確定或錯(cuò)誤的推理路徑時(shí)主動(dòng)識(shí)別并調(diào)整,并根據(jù)反饋動(dòng)態(tài)優(yōu)化解決方案。

第三階段:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

最后一個(gè)階段采用強(qiáng)化學(xué)習(xí)策略,進(jìn)一步優(yōu)化模型的整體推理能力和繪圖操作的使用效率。在此階段,模型通過(guò)結(jié)果獎(jiǎng)勵(lì)函數(shù)和格式獎(jiǎng)勵(lì)函數(shù),同時(shí)關(guān)注答案的準(zhǔn)確性與推理過(guò)程的邏輯性和格式合理性。格式獎(jiǎng)勵(lì)僅當(dāng)結(jié)果獎(jiǎng)勵(lì)大于閾值(此處設(shè)置為0)時(shí)才獲得,保證模型關(guān)注結(jié)果正確,避免僅優(yōu)化格式獎(jiǎng)勵(lì)。這一階段的目標(biāo)是讓模型能夠在不同任務(wù)中自主選擇最優(yōu)的推理路徑,并合理使用繪圖工具,避免冗余操作。這一階段不僅提升了模型的最終性能,也增強(qiáng)了其在多種空間推理場(chǎng)景下的適應(yīng)能力。

實(shí)驗(yàn)表現(xiàn)

1. ViLaSR 在多個(gè)空間推理基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異

ViLaSR-7B 在包括迷宮導(dǎo)航(Maze)、靜態(tài)圖像理解(SpatialEval-Real)、視頻空間推理(VSI-Bench)、多圖像空間推理(SPAR-Bench, MMSI-Bench)五個(gè)主要空間推理基準(zhǔn)上平均提升了 18.4% 。

這一顯著提升表明,引入圖像輔助思考機(jī)制,顯著增強(qiáng)了模型在多類(lèi)型任務(wù)中的泛化與空間推理能力,相較于純文本推理更具適應(yīng)性。

其中,在視覺(jué)空間理解最具挑戰(zhàn)性的基準(zhǔn)之一VSI-Bench 上,ViLaSR-7B 達(dá)到了45.4% 的平均準(zhǔn)確率,顯著優(yōu)于Qwen2.5-VL-7B(+12.7%)。

2. 反思拒絕采樣增強(qiáng)自我修正,強(qiáng)化學(xué)習(xí)優(yōu)化繪圖操作效率

圖片

△消融實(shí)驗(yàn)。分?jǐn)?shù)為相比于完整ViLaSR模型的關(guān)鍵行為相對(duì)提升百分比

通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn),冷啟動(dòng)階段首先幫助模型掌握“畫(huà)圖輔助思考”能力;去除反思拒絕采樣階段會(huì)導(dǎo)致:反思行為、推理步驟、繪圖操作行為顯著減少。這說(shuō)明反思拒絕采樣機(jī)制對(duì)模型在面對(duì)錯(cuò)誤路徑時(shí)的自我識(shí)別和修正起到了關(guān)鍵作用。

此外無(wú)強(qiáng)化學(xué)習(xí)版本與ViLaSR-7B相比,在多數(shù)子任務(wù)上性能下降,且繪圖/繪制輔助線使用頻率激增(+159.4% / +9.1%),表明強(qiáng)化學(xué)習(xí)有助于學(xué)習(xí)更精煉的操作策略。

數(shù)值類(lèi)任務(wù)相比于多選任務(wù),性能下降更明顯(-9.21% vs. -4.07%),驗(yàn)證了強(qiáng)化學(xué)習(xí)提供的稠密獎(jiǎng)勵(lì)能更有效促進(jìn)精確空間推理,相比于監(jiān)督微調(diào)更具優(yōu)勢(shì)。

3. 具備類(lèi)人空間推理策略

深入的案例分析表明,ViLaSR-7B不僅在性能上超越了現(xiàn)有方法,更展現(xiàn)出了類(lèi)人的空間推理策略。如下圖所示,模型掌握了以下關(guān)鍵能力:

(1)基于參考物的度量推理

在測(cè)量電話尺寸的任務(wù)中,模型展現(xiàn)出了成熟的參考物推理能力。它首先識(shí)別到單純依靠像素測(cè)量無(wú)法得到準(zhǔn)確結(jié)果,隨后主動(dòng)尋找具有已知尺寸的參考物(顯示器),最終通過(guò)比例換算得出電話的實(shí)際尺寸。這種推理方式與人類(lèi)解決實(shí)際測(cè)量問(wèn)題的思路高度一致。

圖片

△基于參考物的度量推理示例

(2)系統(tǒng)性的跨幀對(duì)象追蹤

面對(duì)需要理解多個(gè)畫(huà)面中物體相對(duì)位置關(guān)系的任務(wù)時(shí),模型采用了系統(tǒng)性的標(biāo)注策略 - 在不同幀中標(biāo)記相同物體的位置,并通過(guò)這些標(biāo)記建立起物體之間的空間和時(shí)序關(guān)聯(lián)。這種方法不僅確保了推理的準(zhǔn)確性,也提高了結(jié)果的可解釋性。

圖片

△系統(tǒng)性的跨幀對(duì)象追蹤示例

本研究聚焦于空間推理任務(wù),通過(guò)“Drawing to Reason in Space”范式,將繪圖操作與多模態(tài)推理深度融合,使模型在視覺(jué)空間中“邊畫(huà)邊想”,更有效地理解和推理復(fù)雜的時(shí)空關(guān)系,顯著提升了大模型空間感知能力及推理的可解釋性與可控性。該范式為機(jī)器人導(dǎo)航、虛擬助手等領(lǐng)域的空間智能奠定了基礎(chǔ),未來(lái)將繼續(xù)推動(dòng)多模態(tài)推理向通用性與高效性發(fā)展。

該工作的第一作者為中科院自動(dòng)化所博士生吳俊飛,目前于螞蟻技術(shù)研究院實(shí)習(xí),螞蟻技術(shù)研究院副研究員關(guān)健為共同第一作者。

論文地址: https://arxiv.org/abs/2506.09965

代碼倉(cāng)庫(kù): https://github.com/AntResearchNLP/ViLaSR

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-03-27 23:41:35

豆包搜索AI

2025-04-22 09:06:00

強(qiáng)化學(xué)習(xí)工具AI

2025-07-28 03:00:00

2024-08-09 14:48:00

2025-07-16 10:12:35

2025-06-19 09:15:00

自然語(yǔ)言訓(xùn)練模型

2021-01-19 09:19:33

RPC調(diào)用過(guò)程框架

2023-07-26 09:24:03

分布式事務(wù)分布式系統(tǒng)

2025-06-05 03:00:00

AutoRefineRAGLLM

2025-05-16 08:37:35

2019-06-10 15:58:30

數(shù)據(jù)分析流量采集

2009-03-12 16:32:00

CCNACCNP思科認(rèn)證

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2024-09-09 09:00:00

2023-12-05 09:33:08

分布式事務(wù)

2023-10-15 16:48:13

數(shù)字化轉(zhuǎn)型

2023-09-05 14:43:15

2023-06-05 13:02:19

OlaGPT語(yǔ)言模型

2022-03-21 15:06:10

模型字節(jié)跳動(dòng)框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)