小紅書Hi Lab提出DeepEyes,探索O3「Thinking with Images」能力
OpenAI 的 o3 首次將圖像直接注入推理過程,打破了傳統(tǒng)文字思維鏈的邊界,成為多模態(tài)推理新的里程碑。但是如何賦予模型這一能力,目前不得而知。因此,小紅書聯(lián)合西安交通大學(xué),采用端到端強化學(xué)習(xí),在完全不依賴監(jiān)督微調(diào)(SFT)的前提下,激發(fā)了大模型“以圖深思”的潛能,構(gòu)建出多模態(tài)深度思考模型 DeepEyes,首次實現(xiàn)了與 o3 類似的用圖像進行思考的能力,并已同步開源相關(guān)技術(shù)細節(jié),讓“用圖像思考”不再是 OpenAI 專屬。
論文標(biāo)題:
DeepEyes: Incentivizing “Thinking with lmages” via Reinforcement Learning
論文地址:
https://arxiv.org/abs/2505.14362
項目主頁:
https://visual-agent.github.io/
代碼倉庫:
https://github.com/Visual-Agent/DeepEyes
01、用圖像進行思考
近期,受到R1的啟發(fā),出現(xiàn)不少多模態(tài)模型采用以文本為核心的思考方式,即“先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復(fù)雜的多模態(tài)問題。然而,這種方法存在顯著局限:一旦進入推理階段,模型無法“回看圖像”來補充或驗證細節(jié)信息,容易導(dǎo)致理解偏差或信息缺失。
相比較之下,更為有效的多模思考方式應(yīng)是“邊看邊想”——模型在推理過程中能夠動態(tài)地調(diào)用圖像信息,結(jié)合視覺與語言的交替交互,從而增強對細節(jié)的感知與理解。這種把圖像融入思考過程不僅提升了模型應(yīng)對復(fù)雜任務(wù)的靈活性,也顯著增強了其多模態(tài)理解與推理能力。
我們先簡單感受一下 DeepEyes 是如何結(jié)合圖像進行推理的!
我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題「What is written on the sign?」(牌子上寫了什么?),DeepEyes 展現(xiàn)出強大的“用圖像思考”的能力,整個過程可分為三步:
第一步:全局視覺分析
模型快速掃描圖像,利用自身的視覺感知能力精準(zhǔn)鎖定畫面中的矩形牌子區(qū)域,并識別其為文字信息載體。
第二步:智能工具調(diào)用
鑒于原圖中文字區(qū)域分辨率較低,模型自主決策調(diào)用圖像縮放工具,生成邊界框并裁剪放大目標(biāo)區(qū)域,使內(nèi)容清晰可辨。
第三步:細節(jié)推理識別
在清晰圖像的基礎(chǔ)上,模型結(jié)合視覺和文本推理能力,準(zhǔn)確識別并輸出牌子上的文字:「Ochsner URGENT CARE。」
整個流程無需依賴任何外部OCR工具,純粹通過模型內(nèi)部的定位、變換和推理完成識別任務(wù),充分展示了 DeepEyes 原生的“看圖思考”能力。
02、背景介紹
視覺語言模型(VLMs)通過采用長思維鏈(CoT)方法 ,實現(xiàn)了多模態(tài)的深度推理,從而能夠處理復(fù)雜任務(wù)。然而,這些模型仍主要依賴文本推理,其思維過程在很大程度上局限于語言模態(tài)。相比之下,人類推理自然地將視覺與認知相結(jié)合,通過順序性的提取信息來進行圖像化思考,這支持了更準(zhǔn)確的感知決策,對人類早期進化中的生存至關(guān)重要。盡管最近一些研究提出了基于預(yù)定義工作流程的策略,將視覺信息納入思維鏈推理,但模塊化設(shè)計存在性能次優(yōu)的問題。
OpenAI 的 o3 模型成功將視覺信息作為推理過程中的動態(tài)元素進行整合進思維鏈中。o3 將推理能力擴展至類似人類的“用圖像思考“,突破了語言模態(tài)的限制。此外,它在思維鏈(CoT)過程中以自然交織的方式結(jié)合了文本思維鏈與圖像操作工具,為測試階段的計算擴展開辟了新維度,標(biāo)志著向真正多模態(tài)推理邁出的重要一步。然而,其內(nèi)部機制目前仍未向開源社區(qū)公開。
在本文中,我們介紹了 DeepEyes,一種具備”用圖像思考“能力的多模態(tài)大語言模型,該能力通過端到端強化學(xué)習(xí)自然涌現(xiàn),無需依賴獨立的專用模型。DeepEyes 直接由結(jié)果獎勵信號引導(dǎo),從而避免了傳統(tǒng)方法所需的冷啟動監(jiān)督微調(diào)過程。具體而言,我們將模型的視覺定位能力封裝在圖像縮放工具中,使其能夠在代理框架下主動從原始圖像中收集信息。這種方式實現(xiàn)了視覺與文本推理深度整合的交織多模態(tài)思維鏈(iMCoT),為多模態(tài)推理提供了新的解決方案。
我們的貢獻總結(jié)如下:
- 通過端到端強化學(xué)習(xí),我們激勵并增強模型 ”用圖像思考“的能力,形成了交織的多模態(tài)思維鏈(iMCoT)。該方法將視覺與文本推理無縫融合,無需冷啟動監(jiān)督微調(diào)(SFT),也不依賴外部獨立專用模型作為工具。
- 為更有效地促進模型的推理行為,我們結(jié)合了兩種策略:面向工具使用的數(shù)據(jù)選擇機制,以及工具使用獎勵策略。實驗結(jié)果表明,這兩個策略均對iMCoT的發(fā)展產(chǎn)生了顯著推動作用。
- 我們揭示了iMCoT在強化學(xué)習(xí)訓(xùn)練過程中的演變動態(tài):工具調(diào)用行為從初始的探索階段逐步發(fā)展至高效精準(zhǔn)的工具利用階段。此外,我們還觀察到了多種推理模式的出現(xiàn),包括視覺搜索、比較和驗證等。
03、方法
3.1 模型細節(jié)
DeepEyes的架構(gòu)與傳統(tǒng)多模態(tài)推理模型一致,但在推理流程上引入了“自驅(qū)動視覺聚焦”機制。推理起始階段,模型首先基于文本內(nèi)容構(gòu)建初步思維鏈。例如,在判斷“手機與背包的位置關(guān)系”這一問題時,模型會生成內(nèi)部推理如:“需要確定手機與背包的位置,可能需在圖像中定位相關(guān)物體”。隨后,模型根據(jù)推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區(qū)域或細節(jié)不清晰的區(qū)域,模型將自主生成邊界框坐標(biāo),裁剪圖像中可能包含關(guān)鍵信息的區(qū)域(如手機和背包位置),并聚焦這些區(qū)域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據(jù),與現(xiàn)有文本推理共同作用,驅(qū)動后續(xù)推理過程更加準(zhǔn)確、具備視覺上下文感知能力。
與以往基于工作流程或純文本推理的研究相比,我們的 iMCoT 具有以下顯著優(yōu)勢:
- 訓(xùn)練簡潔性。iMCoT 僅需問答對即可訓(xùn)練,大幅降低了數(shù)據(jù)收集的復(fù)雜性。相比之下,以往基于工作流程的方法依賴大量難以獲取的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。
- 更強的泛化能力。iMCoT 通過強化學(xué)習(xí)動態(tài)學(xué)習(xí)跨任務(wù)的最優(yōu)推理流程,展現(xiàn)出卓越的泛化能力。而基于工作流程的模型則受限于任務(wù)特定的人工設(shè)計約束,難以適應(yīng)新任務(wù)。
- 統(tǒng)一端到端優(yōu)化。通過端到端訓(xùn)練,iMCoT 實現(xiàn)了各個組件的聯(lián)合優(yōu)化,確保了全局性能最優(yōu)。這優(yōu)于傳統(tǒng)方法中各組件單獨優(yōu)化導(dǎo)致的次優(yōu)性能。
- 深度多模態(tài)融合。iMCoT 自然地交織視覺與文本信息,實現(xiàn)了視覺元素與文本推理的無縫結(jié)合,從而支持更精準(zhǔn)的感知決策過程。
- 原生工具調(diào)用能力。"用圖像思考"作為模型的原生能力,使工具利用的效率和準(zhǔn)確性可以直接優(yōu)化,這是傳統(tǒng)推理范式無法實現(xiàn)的突破。
3.2 端到端強化學(xué)習(xí)
在多模態(tài)環(huán)境中,稀疏且以結(jié)果為導(dǎo)向的獎勵信號對于引導(dǎo)視覺語言模型進行有效推理和決策至關(guān)重要。由于中間視覺動作缺乏步驟級監(jiān)督,我們設(shè)計了一種基于最終結(jié)果質(zhì)量和條件性工具使用的獎勵公式來評估推理軌跡。
我們的獎勵由三個核心組件構(gòu)成:準(zhǔn)確性獎勵、格式獎勵 和 條件性工具使用獎勵 。準(zhǔn)確性獎勵評估最終答案的正確性,格式獎勵對結(jié)構(gòu)混亂的輸出實施懲罰,而工具使用獎勵則僅在兩個條件同時滿足時觸發(fā):模型生成正確答案,且在推理過程中至少調(diào)用一次工具。
形式上,給定推理軌跡 τ,總獎勵定義為:
其中 為指示函數(shù),僅當(dāng) 時取值為 1。
我們發(fā)現(xiàn),直接對模型的工具使用行為進行獎勵是促進感知驅(qū)動推理的關(guān)鍵,且將工具獎勵與正確結(jié)果綁定的設(shè)計至關(guān)重要。這種條件性獎勵機制鼓勵模型在工具能實質(zhì)性助力任務(wù)完成時進行有意義的調(diào)用,而非將其作為隨意或冗余的操作。
3.3 訓(xùn)練數(shù)據(jù)
我們的數(shù)據(jù)收集遵循三個基本原則:(1) 多樣化的任務(wù)和圖像分布。我們納入各種數(shù)據(jù),以增強我們的 iMCoT 的泛化能力。(2) 工具有效性。我們選擇那些使用工具能顯著提高準(zhǔn)確性的場景。(3) 推理能力提升。我們精心挑選能有效提高模型推理能力的數(shù)據(jù)。因此,我們的訓(xùn)練數(shù)據(jù)集由三個互補的部分組成:細粒度數(shù)據(jù)、圖表數(shù)據(jù)和推理數(shù)據(jù)。細粒度數(shù)據(jù)選自 V? 訓(xùn)練集的一部分,專注于高分辨率圖像和詳細的感知問題,以最大限度地發(fā)揮工具的有效性。來自 ArxivQA 的圖表數(shù)據(jù)包含合成圖表和圖形圖像,豐富了視覺元素的多樣性。對于推理數(shù)據(jù),我們整合了 ThinkLite-VL 數(shù)據(jù)集,以拓寬任務(wù)多樣性并強化模型的推理能力。
我們提出了一種以工具使用為導(dǎo)向的數(shù)據(jù)選擇策略,包含四個關(guān)鍵步驟:(1) 難度管理:我們利用 Qwen2.5-VL-7B 為每個問題生成 8 個回答,并根據(jù)準(zhǔn)確率估計難度。準(zhǔn)確率為 0 或 1 的樣本將被排除,因為它們要么太難,要么太基礎(chǔ)。(2) 問題格式構(gòu)建:我們將原始問題重組為開放式格式,并排除無法可靠轉(zhuǎn)換的問題。(3) 可驗證性驗證:我們剔除無法正確驗證的數(shù)據(jù),例如答案錯誤或錯誤的問題。(4) 工具整合促進:我們實施額外的過濾步驟,優(yōu)先選擇通過調(diào)用工具能獲得更高信息增益的樣本。我們特別選擇那些模型在單輪交互中回答錯誤,但利用真實裁剪區(qū)域后能得出正確結(jié)果的實例,突顯視覺工具使用最有益的場景。具體來說,圖表數(shù)據(jù)無需經(jīng)過工具整合過濾過程,而推理數(shù)據(jù)保持其原始形式,因為它已經(jīng)過嚴(yán)格處理。通過這種全面的選擇策略,我們精心策劃了一個高質(zhì)量數(shù)據(jù)集,專門針對開發(fā)和增強工具感知視覺推理能力進行了優(yōu)化。
04、實驗
4.1 模型性能
我們在高分辨率數(shù)據(jù)集上和之前的工作進行比較,我們的 DeepEyes 在視覺搜索任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢。在 V* Bench 上取得了 90.1 的準(zhǔn)確率,在 HR-Bench 上也大幅超越現(xiàn)有的基于工作流的方法,在 4K 和 8K 測試集上分別獲得了 75.1 和 72.6 的性能。另外,DeepEyes-7B 模型在視覺搜索任務(wù)中顯出高于Qwen-VL 32B模型,這也進一步說明了構(gòu)建用圖像思考能力的必要性。 此外,DeepEyes 在視覺定位、幻覺以及數(shù)學(xué)推理任務(wù)上也優(yōu)于之前的模型,證明了我們的 iMCoT 的有效性。
4.2 訓(xùn)練動態(tài)
為了更深入地了解模型在端到端強化學(xué)習(xí)過程中模型與工具的交互的行為變化,我們對其演化路徑進行了詳細分析。我們發(fā)現(xiàn)模型的工具經(jīng)歷了三個明顯的階段演變,每個階段都反映了工具與推理能力的不同整合水平。
- 階段 1:初始工具探索期(步驟 0 - 20)在學(xué)習(xí)初期,模型僅根據(jù)系統(tǒng)提示被動調(diào)用工具,缺乏明確的使用策略。這一階段特征鮮明:工具調(diào)用頻率與響應(yīng)長度均顯著增加,表明模型處于純粹的探索行為模式。盡管工具使用頻繁,但較低的定位準(zhǔn)確了反映出模型尚未能有效將檢索信息與視覺上下文關(guān)聯(lián)起來。模型主要通過試錯方式,在沒有外部引導(dǎo)的情況下探索工具功能。值得注意的是,在步驟8至20期間,隨著模型掌握基本工具技能,響應(yīng)長度開始大幅減少,冗長的圖像描述和工具意圖陳述也逐漸精簡。
- 階段 2:高頻工具使用期(步驟 20 - 45)進入第二階段,模型開始積極頻繁地調(diào)用工具,試圖通過最大化工具使用來提升答案正確性和獲取獎勵。這種"廣泛搜索"策略在所有關(guān)鍵性能指標(biāo)上帶來顯著提升,包括定位和回答的準(zhǔn)確率。較長的響應(yīng)文本和高頻的工具調(diào)用表明,模型選擇將視覺推理過程外部化,而非依賴內(nèi)部推理能力。這一階段反映了模型已開始認識到工具的價值,但尚未形成高效的使用模式,處于工具認知的過渡期。
- 階段 3:高效工具整合期(步驟 45 - 80)在最終階段,模型轉(zhuǎn)向更具選擇性和精確性的工具使用方式。它能夠在維持高定位精度和任務(wù)準(zhǔn)確率的同時,顯著降低工具調(diào)用頻率和響應(yīng)長度。這表明模型已內(nèi)化了一種更為精煉的視覺語言策略——工具不再作為"輔助拐杖",而是成為一種戰(zhàn)略性資源,僅在必要時才被調(diào)用。較高的定位IoU與較少的工具調(diào)用共同反映出模型已發(fā)展出隱含的規(guī)劃機制:首先在內(nèi)部縮小可能的視覺關(guān)注范圍,然后選擇性地利用工具來驗證或優(yōu)化其判斷。
這一從廣泛探索到精準(zhǔn)利用的演變過程,展示了模型通過端到端訓(xùn)練逐步學(xué)習(xí)優(yōu)化工具使用以獲取最大獎勵的能力。工具使用已成功融入模型的核心推理流程,與其整體策略協(xié)同進化。這些發(fā)現(xiàn)凸顯了工具增強型視覺語言模型在構(gòu)建可擴展、可解釋的多模態(tài)推理系統(tǒng)方面的巨大潛力。
05、總結(jié)
我們提出了 DeepEyes,一種創(chuàng)新的視覺語言模型,能夠通過端到端強化學(xué)習(xí)將視覺輸入與文本推理無縫整合,形成內(nèi)在的多模態(tài)思維 (iMCoT)。與現(xiàn)有方法的根本區(qū)別在于,DeepEyes既無需依賴合成的推理軌跡,也不需要調(diào)用外部專門模型來實現(xiàn)這種復(fù)雜的推理行為。為引導(dǎo)模型發(fā)展高質(zhì)量的推理能力,我們設(shè)計了專注于工具使用的精確數(shù)據(jù)選擇機制和獎勵策略體系,有效促進了模型在工具輔助環(huán)境中的問題解決能力。通過訓(xùn)練過程的追蹤分析,我們觀察到模型對工具的使用模式經(jīng)歷了顯著演變——從初始階段的隨機探索,逐步發(fā)展為高度策略化的精準(zhǔn)利用。這一進化過程伴隨著模型整體準(zhǔn)確性的提升和視覺注意力焦點的明顯改善。DeepEyes 成功展現(xiàn)出多種復(fù)雜的推理行為模式,包括系統(tǒng)化的視覺搜索和精細的視覺對比分析。尤為值得注意的是,即使僅使用一個7B參數(shù)規(guī)模的基礎(chǔ)模型,DeepEyes 在多個視覺語言理解基準(zhǔn)測試中仍然取得了具有競爭力的表現(xiàn),證明了我們方法的有效性和效率。
06、作者簡介
Jack Hong
小紅書 hi lab 團隊算法實習(xí)生,主要研究方向是多模態(tài)、大語言模型推理、以及計算機視覺。
楓原
小紅書hi lab團隊算法工程師,主要研究方向是強化學(xué)習(xí)。
國海
小紅書hi lab團隊算法工程師,主要研究方向是大語言模型和多模態(tài)模型對齊。