偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ul id="ihxkr"><button id="ihxkr"><mark id="ihxkr"></mark></button></ul>

<menuitem id="ihxkr"><pre id="ihxkr"><pre id="ihxkr"></pre></pre></menuitem>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

小紅書Hi Lab提出DeepEyes，探索O3「Thinking with Images」能力

2025-06-10 05:00:00

小紅書聯(lián)合西安交通大學(xué)，采用端到端強化學(xué)習(xí)，在完全不依賴監(jiān)督微調(diào)（SFT）的前提下，激發(fā)了大模型“以圖深思”的潛能，構(gòu)建出多模態(tài)深度思考模型 DeepEyes，首次實現(xiàn)了與 o3 類似的用圖像進行思考的能力，并已同步開源相關(guān)技術(shù)細節(jié)，讓“用圖像思考”不再是 OpenAI 專屬。

OpenAI 的 o3 首次將圖像直接注入推理過程，打破了傳統(tǒng)文字思維鏈的邊界，成為多模態(tài)推理新的里程碑。但是如何賦予模型這一能力，目前不得而知。因此，小紅書聯(lián)合西安交通大學(xué)，采用端到端強化學(xué)習(xí)，在完全不依賴監(jiān)督微調(diào)（SFT）的前提下，激發(fā)了大模型“以圖深思”的潛能，構(gòu)建出多模態(tài)深度思考模型 DeepEyes，首次實現(xiàn)了與 o3 類似的用圖像進行思考的能力，并已同步開源相關(guān)技術(shù)細節(jié)，讓“用圖像思考”不再是 OpenAI 專屬。

論文標(biāo)題：

DeepEyes: Incentivizing “Thinking with lmages” via Reinforcement Learning

論文地址：

https://arxiv.org/abs/2505.14362

項目主頁：

https://visual-agent.github.io/

代碼倉庫：

https://github.com/Visual-Agent/DeepEyes

01、用圖像進行思考

近期，受到R1的啟發(fā)，出現(xiàn)不少多模態(tài)模型采用以文本為核心的思考方式，即“先看后想”—— 模型先觀察圖像，再通過純文本推理來解決復(fù)雜的多模態(tài)問題。然而，這種方法存在顯著局限：一旦進入推理階段，模型無法“回看圖像”來補充或驗證細節(jié)信息，容易導(dǎo)致理解偏差或信息缺失。

相比較之下，更為有效的多模思考方式應(yīng)是“邊看邊想”——模型在推理過程中能夠動態(tài)地調(diào)用圖像信息，結(jié)合視覺與語言的交替交互，從而增強對細節(jié)的感知與理解。這種把圖像融入思考過程不僅提升了模型應(yīng)對復(fù)雜任務(wù)的靈活性，也顯著增強了其多模態(tài)理解與推理能力。

我們先簡單感受一下 DeepEyes 是如何結(jié)合圖像進行推理的！

我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題「What is written on the sign?」（牌子上寫了什么？），DeepEyes 展現(xiàn)出強大的“用圖像思考”的能力，整個過程可分為三步：

第一步：全局視覺分析

模型快速掃描圖像，利用自身的視覺感知能力精準(zhǔn)鎖定畫面中的矩形牌子區(qū)域，并識別其為文字信息載體。

第二步：智能工具調(diào)用

鑒于原圖中文字區(qū)域分辨率較低，模型自主決策調(diào)用圖像縮放工具，生成邊界框并裁剪放大目標(biāo)區(qū)域，使內(nèi)容清晰可辨。

第三步：細節(jié)推理識別

在清晰圖像的基礎(chǔ)上，模型結(jié)合視覺和文本推理能力，準(zhǔn)確識別并輸出牌子上的文字：「Ochsner URGENT CARE。」

整個流程無需依賴任何外部OCR工具，純粹通過模型內(nèi)部的定位、變換和推理完成識別任務(wù)，充分展示了 DeepEyes 原生的“看圖思考”能力。

02、背景介紹

視覺語言模型（VLMs）通過采用長思維鏈（CoT）方法，實現(xiàn)了多模態(tài)的深度推理，從而能夠處理復(fù)雜任務(wù)。然而，這些模型仍主要依賴文本推理，其思維過程在很大程度上局限于語言模態(tài)。相比之下，人類推理自然地將視覺與認知相結(jié)合，通過順序性的提取信息來進行圖像化思考，這支持了更準(zhǔn)確的感知決策，對人類早期進化中的生存至關(guān)重要。盡管最近一些研究提出了基于預(yù)定義工作流程的策略，將視覺信息納入思維鏈推理，但模塊化設(shè)計存在性能次優(yōu)的問題。

OpenAI 的 o3 模型成功將視覺信息作為推理過程中的動態(tài)元素進行整合進思維鏈中。o3 將推理能力擴展至類似人類的“用圖像思考“，突破了語言模態(tài)的限制。此外，它在思維鏈（CoT）過程中以自然交織的方式結(jié)合了文本思維鏈與圖像操作工具，為測試階段的計算擴展開辟了新維度，標(biāo)志著向真正多模態(tài)推理邁出的重要一步。然而，其內(nèi)部機制目前仍未向開源社區(qū)公開。

在本文中，我們介紹了 DeepEyes，一種具備”用圖像思考“能力的多模態(tài)大語言模型，該能力通過端到端強化學(xué)習(xí)自然涌現(xiàn)，無需依賴獨立的專用模型。DeepEyes 直接由結(jié)果獎勵信號引導(dǎo)，從而避免了傳統(tǒng)方法所需的冷啟動監(jiān)督微調(diào)過程。具體而言，我們將模型的視覺定位能力封裝在圖像縮放工具中，使其能夠在代理框架下主動從原始圖像中收集信息。這種方式實現(xiàn)了視覺與文本推理深度整合的交織多模態(tài)思維鏈（iMCoT），為多模態(tài)推理提供了新的解決方案。

我們的貢獻總結(jié)如下：

通過端到端強化學(xué)習(xí)，我們激勵并增強模型 ”用圖像思考“的能力，形成了交織的多模態(tài)思維鏈（iMCoT）。該方法將視覺與文本推理無縫融合，無需冷啟動監(jiān)督微調(diào)（SFT），也不依賴外部獨立專用模型作為工具。
為更有效地促進模型的推理行為，我們結(jié)合了兩種策略：面向工具使用的數(shù)據(jù)選擇機制，以及工具使用獎勵策略。實驗結(jié)果表明，這兩個策略均對iMCoT的發(fā)展產(chǎn)生了顯著推動作用。
我們揭示了iMCoT在強化學(xué)習(xí)訓(xùn)練過程中的演變動態(tài)：工具調(diào)用行為從初始的探索階段逐步發(fā)展至高效精準(zhǔn)的工具利用階段。此外，我們還觀察到了多種推理模式的出現(xiàn)，包括視覺搜索、比較和驗證等。

03、方法

3.1 模型細節(jié)

DeepEyes的架構(gòu)與傳統(tǒng)多模態(tài)推理模型一致，但在推理流程上引入了“自驅(qū)動視覺聚焦”機制。推理起始階段，模型首先基于文本內(nèi)容構(gòu)建初步思維鏈。例如，在判斷“手機與背包的位置關(guān)系”這一問題時，模型會生成內(nèi)部推理如：“需要確定手機與背包的位置，可能需在圖像中定位相關(guān)物體”。隨后，模型根據(jù)推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區(qū)域或細節(jié)不清晰的區(qū)域，模型將自主生成邊界框坐標(biāo)，裁剪圖像中可能包含關(guān)鍵信息的區(qū)域（如手機和背包位置），并聚焦這些區(qū)域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型，作為新的視覺證據(jù)，與現(xiàn)有文本推理共同作用，驅(qū)動后續(xù)推理過程更加準(zhǔn)確、具備視覺上下文感知能力。

與以往基于工作流程或純文本推理的研究相比，我們的 iMCoT 具有以下顯著優(yōu)勢：

訓(xùn)練簡潔性。iMCoT 僅需問答對即可訓(xùn)練，大幅降低了數(shù)據(jù)收集的復(fù)雜性。相比之下，以往基于工作流程的方法依賴大量難以獲取的監(jiān)督微調(diào)（SFT）數(shù)據(jù)。
更強的泛化能力。iMCoT 通過強化學(xué)習(xí)動態(tài)學(xué)習(xí)跨任務(wù)的最優(yōu)推理流程，展現(xiàn)出卓越的泛化能力。而基于工作流程的模型則受限于任務(wù)特定的人工設(shè)計約束，難以適應(yīng)新任務(wù)。
統(tǒng)一端到端優(yōu)化。通過端到端訓(xùn)練，iMCoT 實現(xiàn)了各個組件的聯(lián)合優(yōu)化，確保了全局性能最優(yōu)。這優(yōu)于傳統(tǒng)方法中各組件單獨優(yōu)化導(dǎo)致的次優(yōu)性能。
深度多模態(tài)融合。iMCoT 自然地交織視覺與文本信息，實現(xiàn)了視覺元素與文本推理的無縫結(jié)合，從而支持更精準(zhǔn)的感知決策過程。
原生工具調(diào)用能力。"用圖像思考"作為模型的原生能力，使工具利用的效率和準(zhǔn)確性可以直接優(yōu)化，這是傳統(tǒng)推理范式無法實現(xiàn)的突破。

3.2 端到端強化學(xué)習(xí)

在多模態(tài)環(huán)境中，稀疏且以結(jié)果為導(dǎo)向的獎勵信號對于引導(dǎo)視覺語言模型進行有效推理和決策至關(guān)重要。由于中間視覺動作缺乏步驟級監(jiān)督，我們設(shè)計了一種基于最終結(jié)果質(zhì)量和條件性工具使用的獎勵公式來評估推理軌跡。

我們的獎勵由三個核心組件構(gòu)成：準(zhǔn)確性獎勵、格式獎勵和條件性工具使用獎勵。準(zhǔn)確性獎勵評估最終答案的正確性，格式獎勵對結(jié)構(gòu)混亂的輸出實施懲罰，而工具使用獎勵則僅在兩個條件同時滿足時觸發(fā)：模型生成正確答案，且在推理過程中至少調(diào)用一次工具。

形式上，給定推理軌跡 τ，總獎勵定義為：

其中為指示函數(shù)，僅當(dāng) 時取值為 1。

我們發(fā)現(xiàn)，直接對模型的工具使用行為進行獎勵是促進感知驅(qū)動推理的關(guān)鍵，且將工具獎勵與正確結(jié)果綁定的設(shè)計至關(guān)重要。這種條件性獎勵機制鼓勵模型在工具能實質(zhì)性助力任務(wù)完成時進行有意義的調(diào)用，而非將其作為隨意或冗余的操作。

3.3 訓(xùn)練數(shù)據(jù)

我們的數(shù)據(jù)收集遵循三個基本原則：(1) 多樣化的任務(wù)和圖像分布。我們納入各種數(shù)據(jù)，以增強我們的 iMCoT 的泛化能力。(2) 工具有效性。我們選擇那些使用工具能顯著提高準(zhǔn)確性的場景。(3) 推理能力提升。我們精心挑選能有效提高模型推理能力的數(shù)據(jù)。因此，我們的訓(xùn)練數(shù)據(jù)集由三個互補的部分組成：細粒度數(shù)據(jù)、圖表數(shù)據(jù)和推理數(shù)據(jù)。細粒度數(shù)據(jù)選自 V? 訓(xùn)練集的一部分，專注于高分辨率圖像和詳細的感知問題，以最大限度地發(fā)揮工具的有效性。來自 ArxivQA 的圖表數(shù)據(jù)包含合成圖表和圖形圖像，豐富了視覺元素的多樣性。對于推理數(shù)據(jù)，我們整合了 ThinkLite-VL 數(shù)據(jù)集，以拓寬任務(wù)多樣性并強化模型的推理能力。

我們提出了一種以工具使用為導(dǎo)向的數(shù)據(jù)選擇策略，包含四個關(guān)鍵步驟：(1) 難度管理：我們利用 Qwen2.5-VL-7B 為每個問題生成 8 個回答，并根據(jù)準(zhǔn)確率估計難度。準(zhǔn)確率為 0 或 1 的樣本將被排除，因為它們要么太難，要么太基礎(chǔ)。(2) 問題格式構(gòu)建：我們將原始問題重組為開放式格式，并排除無法可靠轉(zhuǎn)換的問題。(3) 可驗證性驗證：我們剔除無法正確驗證的數(shù)據(jù)，例如答案錯誤或錯誤的問題。(4) 工具整合促進：我們實施額外的過濾步驟，優(yōu)先選擇通過調(diào)用工具能獲得更高信息增益的樣本。我們特別選擇那些模型在單輪交互中回答錯誤，但利用真實裁剪區(qū)域后能得出正確結(jié)果的實例，突顯視覺工具使用最有益的場景。具體來說，圖表數(shù)據(jù)無需經(jīng)過工具整合過濾過程，而推理數(shù)據(jù)保持其原始形式，因為它已經(jīng)過嚴(yán)格處理。通過這種全面的選擇策略，我們精心策劃了一個高質(zhì)量數(shù)據(jù)集，專門針對開發(fā)和增強工具感知視覺推理能力進行了優(yōu)化。

04、實驗

4.1 模型性能

我們在高分辨率數(shù)據(jù)集上和之前的工作進行比較，我們的 DeepEyes 在視覺搜索任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢。在 V* Bench 上取得了 90.1 的準(zhǔn)確率，在 HR-Bench 上也大幅超越現(xiàn)有的基于工作流的方法，在 4K 和 8K 測試集上分別獲得了 75.1 和 72.6 的性能。另外，DeepEyes-7B 模型在視覺搜索任務(wù)中顯出高于Qwen-VL 32B模型，這也進一步說明了構(gòu)建用圖像思考能力的必要性。此外，DeepEyes 在視覺定位、幻覺以及數(shù)學(xué)推理任務(wù)上也優(yōu)于之前的模型，證明了我們的 iMCoT 的有效性。

4.2 訓(xùn)練動態(tài)

為了更深入地了解模型在端到端強化學(xué)習(xí)過程中模型與工具的交互的行為變化，我們對其演化路徑進行了詳細分析。我們發(fā)現(xiàn)模型的工具經(jīng)歷了三個明顯的階段演變，每個階段都反映了工具與推理能力的不同整合水平。

階段 1：初始工具探索期（步驟 0 - 20）在學(xué)習(xí)初期，模型僅根據(jù)系統(tǒng)提示被動調(diào)用工具，缺乏明確的使用策略。這一階段特征鮮明：工具調(diào)用頻率與響應(yīng)長度均顯著增加，表明模型處于純粹的探索行為模式。盡管工具使用頻繁，但較低的定位準(zhǔn)確了反映出模型尚未能有效將檢索信息與視覺上下文關(guān)聯(lián)起來。模型主要通過試錯方式，在沒有外部引導(dǎo)的情況下探索工具功能。值得注意的是，在步驟8至20期間，隨著模型掌握基本工具技能，響應(yīng)長度開始大幅減少，冗長的圖像描述和工具意圖陳述也逐漸精簡。
階段 2：高頻工具使用期（步驟 20 - 45）進入第二階段，模型開始積極頻繁地調(diào)用工具，試圖通過最大化工具使用來提升答案正確性和獲取獎勵。這種"廣泛搜索"策略在所有關(guān)鍵性能指標(biāo)上帶來顯著提升，包括定位和回答的準(zhǔn)確率。較長的響應(yīng)文本和高頻的工具調(diào)用表明，模型選擇將視覺推理過程外部化，而非依賴內(nèi)部推理能力。這一階段反映了模型已開始認識到工具的價值，但尚未形成高效的使用模式，處于工具認知的過渡期。
階段 3：高效工具整合期（步驟 45 - 80）在最終階段，模型轉(zhuǎn)向更具選擇性和精確性的工具使用方式。它能夠在維持高定位精度和任務(wù)準(zhǔn)確率的同時，顯著降低工具調(diào)用頻率和響應(yīng)長度。這表明模型已內(nèi)化了一種更為精煉的視覺語言策略——工具不再作為"輔助拐杖"，而是成為一種戰(zhàn)略性資源，僅在必要時才被調(diào)用。較高的定位IoU與較少的工具調(diào)用共同反映出模型已發(fā)展出隱含的規(guī)劃機制：首先在內(nèi)部縮小可能的視覺關(guān)注范圍，然后選擇性地利用工具來驗證或優(yōu)化其判斷。

這一從廣泛探索到精準(zhǔn)利用的演變過程，展示了模型通過端到端訓(xùn)練逐步學(xué)習(xí)優(yōu)化工具使用以獲取最大獎勵的能力。工具使用已成功融入模型的核心推理流程，與其整體策略協(xié)同進化。這些發(fā)現(xiàn)凸顯了工具增強型視覺語言模型在構(gòu)建可擴展、可解釋的多模態(tài)推理系統(tǒng)方面的巨大潛力。

05、總結(jié)

我們提出了 DeepEyes，一種創(chuàng)新的視覺語言模型，能夠通過端到端強化學(xué)習(xí)將視覺輸入與文本推理無縫整合，形成內(nèi)在的多模態(tài)思維 (iMCoT)。與現(xiàn)有方法的根本區(qū)別在于，DeepEyes既無需依賴合成的推理軌跡，也不需要調(diào)用外部專門模型來實現(xiàn)這種復(fù)雜的推理行為。為引導(dǎo)模型發(fā)展高質(zhì)量的推理能力，我們設(shè)計了專注于工具使用的精確數(shù)據(jù)選擇機制和獎勵策略體系，有效促進了模型在工具輔助環(huán)境中的問題解決能力。通過訓(xùn)練過程的追蹤分析，我們觀察到模型對工具的使用模式經(jīng)歷了顯著演變——從初始階段的隨機探索，逐步發(fā)展為高度策略化的精準(zhǔn)利用。這一進化過程伴隨著模型整體準(zhǔn)確性的提升和視覺注意力焦點的明顯改善。DeepEyes 成功展現(xiàn)出多種復(fù)雜的推理行為模式，包括系統(tǒng)化的視覺搜索和精細的視覺對比分析。尤為值得注意的是，即使僅使用一個7B參數(shù)規(guī)模的基礎(chǔ)模型，DeepEyes 在多個視覺語言理解基準(zhǔn)測試中仍然取得了具有競爭力的表現(xiàn)，證明了我們方法的有效性和效率。

06、作者簡介

Jack Hong

小紅書 hi lab 團隊算法實習(xí)生，主要研究方向是多模態(tài)、大語言模型推理、以及計算機視覺。

楓原

小紅書hi lab團隊算法工程師，主要研究方向是強化學(xué)習(xí)。

國海

小紅書hi lab團隊算法工程師，主要研究方向是大語言模型和多模態(tài)模型對齊。

責(zé)任編輯：龐桂玉來源：小紅書技術(shù)REDtech

小紅書 DeepEyes 多模態(tài)深度思考模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<form id="go1pv"></form>

<center id="go1pv"></center>