偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="l0nii"><td id="l0nii"><ol id="l0nii"></ol></td></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

讓視覺(jué)語(yǔ)言模型像o3一樣動(dòng)手搜索、寫(xiě)代碼！Visual ARFT實(shí)現(xiàn)多模態(tài)智能體能力

2025-05-27 15:23:05

人工智能新聞

上海交大、上海 AI Lab、港中文、武漢大學(xué)的研究團(tuán)隊(duì)最新推出的多模態(tài)智能體訓(xùn)練方法?Visual-ARFT（Visual Agentic Reinforcement Fine-Tuning），專(zhuān)為賦予視覺(jué)語(yǔ)言模型（LVLMs）以「工具智能體」能力而設(shè)計(jì)。

在大型推理模型（例如 OpenAI-o3）中，一個(gè)關(guān)鍵的發(fā)展趨勢(shì)是讓模型具備原生的智能體能力。具體來(lái)說(shuō)，就是讓模型能夠調(diào)用外部工具（如網(wǎng)頁(yè)瀏覽器）進(jìn)行搜索，或編寫(xiě)/執(zhí)行代碼以操控圖像，從而實(shí)現(xiàn)「圖像中的思考」。

盡管開(kāi)源研究社區(qū)在純文本的智能體能力方面（比如函數(shù)調(diào)用和工具集成）已取得顯著進(jìn)展，但涉及圖像理解與操作的多模態(tài)智能體能力及其對(duì)應(yīng)的評(píng)估體系仍處于起步階段。

因此，上海交大、上海 AI Lab、港中文、武漢大學(xué)的研究團(tuán)隊(duì)最新推出的多模態(tài)智能體訓(xùn)練方法 Visual-ARFT（Visual Agentic Reinforcement Fine-Tuning），專(zhuān)為賦予視覺(jué)語(yǔ)言模型（LVLMs）以「工具智能體」能力而設(shè)計(jì)。

并且，Visual-ARFT 項(xiàng)目已全面開(kāi)源（包含訓(xùn)練、評(píng)測(cè)代碼，數(shù)據(jù)和模型）。如果你對(duì)多模態(tài)模型、強(qiáng)化學(xué)習(xí)、視覺(jué)語(yǔ)言理解感興趣，不妨一起來(lái)探索更多可能性吧！

論文標(biāo)題：Visual Agentic Reinforcement Fine-Tuning
arXiv 地址: https://arxiv.org/pdf/2505.14246
代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual-ARFT 讓模型不僅能看圖、能理解，還能「動(dòng)腦推理、動(dòng)手操作」，主要包括以下三個(gè)方面的核心能力：

模型能夠自動(dòng)調(diào)用搜索引擎查資料或者編寫(xiě)并執(zhí)行 Python 代碼處理圖像；
面對(duì)復(fù)雜任務(wù)，能夠自主拆解問(wèn)題、規(guī)劃步驟、調(diào)用合適工具完成任務(wù)；
支持多步推理、多模態(tài)輸入，具備強(qiáng)大的跨模態(tài)泛化能力！

如圖 1 所示，本文的方法編寫(xiě)并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本（上圖），或者通過(guò)互聯(lián)網(wǎng)搜索回答多模態(tài)多跳問(wèn)題（下圖）。

圖 1. 視覺(jué)智能體強(qiáng)化微調(diào)（Visual Agentic Reinforcement Fine-Tuning，簡(jiǎn)稱(chēng) Visual-ARFT）在執(zhí)行復(fù)雜的多模態(tài)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)，例如：（上圖）編寫(xiě)并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本，以及（下圖）通過(guò)互聯(lián)網(wǎng)搜索回答多跳問(wèn)題。

同時(shí)，為了評(píng)估模型的工具調(diào)用和多模態(tài)推理能力，團(tuán)隊(duì)構(gòu)建了智能體評(píng)測(cè)基準(zhǔn) MAT-Bench (Multimodal Agentic Tool Bench)。測(cè)試結(jié)果顯示，Visual-ARFT 在多個(gè)子任務(wù)中全面超越 GPT-4o，通過(guò)調(diào)用工具 ——「寫(xiě)代碼 + 查資料」，展現(xiàn)出了完成復(fù)雜多模態(tài)視覺(jué)任務(wù)的強(qiáng)大潛力。

方法概覽

Visual-ARFT 基于強(qiáng)化微調(diào)的訓(xùn)練策略，使用 GRPO 的算法來(lái)更新模型權(quán)重。團(tuán)隊(duì)針對(duì)多模態(tài)智能體完成任務(wù)的流程，對(duì) LVLM 的多步工具調(diào)用和問(wèn)題回答設(shè)計(jì)了 rule-based verifiable reward。通過(guò)簡(jiǎn)單高效的 reward 設(shè)計(jì)，驅(qū)動(dòng)模型自主探索工具的使用方法和思考模式。

團(tuán)隊(duì)在訓(xùn)練中使用幾十到最多 1.2k 的訓(xùn)練數(shù)據(jù)，通過(guò)少量數(shù)據(jù)實(shí)現(xiàn)了對(duì)模型的多模態(tài)智能體能力的訓(xùn)練。

圖 2. Visual-ARFT 框圖。主要針對(duì) Agentic Search 和 Agentic Coding 兩類(lèi)任務(wù)的多步推理和工具調(diào)用能力進(jìn)行優(yōu)化。

Visual-ARFT 針對(duì)以下兩類(lèi)高難度任務(wù)場(chǎng)景進(jìn)行強(qiáng)化訓(xùn)練：

Agentic Search：模型面對(duì)多模態(tài)的多跳復(fù)雜問(wèn)題，先對(duì)視覺(jué)信息進(jìn)行分析和推理，然后能夠主動(dòng)進(jìn)行任務(wù)分解、規(guī)劃信息檢索路徑，通過(guò)調(diào)用搜索引擎獲取外部知識(shí)并整合作答。
Agentic Coding：模型面對(duì)模糊、旋轉(zhuǎn)、曝光過(guò)強(qiáng)等復(fù)雜圖像，能主動(dòng)生成 Python 代碼完成圖像修復(fù)，或剪裁圖像，提取關(guān)鍵區(qū)域，并據(jù)此完成視覺(jué)問(wèn)答。

在這一過(guò)程中，模型并非簡(jiǎn)單輸出結(jié)果，而是具備完整的推理結(jié)構(gòu)：

每一步都以 <think> 思考引導(dǎo)、<search> 檢索信息、<code> 編寫(xiě)程序、<answer> 給出結(jié)論，真正形成可解釋的多模態(tài)認(rèn)知路徑。

MAT 基準(zhǔn)

團(tuán)隊(duì)發(fā)布了全新的多模態(tài)智能體評(píng)測(cè)基準(zhǔn)：MAT（Multimodal Agentic Tool Bench），專(zhuān)門(mén)評(píng)估多模態(tài)工具調(diào)用能力：

MAT-Search：包含 150 道多跳視覺(jué)問(wèn)答任務(wù)，人工標(biāo)注 + 搜索推理；
MAT-Coding：包含 200 道復(fù)雜圖像問(wèn)答任務(wù)。模型可以直接作答或通過(guò)調(diào)用代碼工具處理圖像，輔助作答。

這一基準(zhǔn)填補(bǔ)了當(dāng)前開(kāi)源模型在「多模態(tài)智能體以及工具調(diào)用」方面的評(píng)估空白。

圖 3. MAT 數(shù)據(jù)標(biāo)注過(guò)程。MAT-Search 采用人工標(biāo)注方法構(gòu)建多模態(tài)多跳推理 VQA 數(shù)據(jù)，MAT-Coding 采用自動(dòng)化流程構(gòu)造針對(duì) Agentic Coding 任務(wù)的 VQA 數(shù)據(jù)。

Visual-ARFT 實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)基于 Qwen2.5-VL 模型在 MAT 上對(duì)本文方法進(jìn)行了測(cè)試。結(jié)果顯示，無(wú)論在 MAT-Search 還是在 MAT-Coding 上，本文方法都較 baseline 有了顯著的提升，并擊敗了 GPT-4o 模型。

相較于 baseline 模型直接推理的方式，本文方法通過(guò)讓 LVLM 學(xué)會(huì)推理與調(diào)用工具，在解決復(fù)雜的多模態(tài)任務(wù)時(shí)，更加的得心應(yīng)手。此外，團(tuán)隊(duì)觀(guān)察到 OpenAI-o3 模型在一眾開(kāi)源閉源中取得了遙遙領(lǐng)先的性能，尤其是在 MAT-Coding 上，憑借其多模態(tài)推理和工具調(diào)用能力，斷層式超越了 GPT-4o 模型。

表 1. MAT 測(cè)試結(jié)果。 Visual-ARFT 相較 baseline 取得了顯著性能提升，擊敗 GPT-4o。開(kāi)閉源模型距離 OpenAI-o3 模型存在較大性能差距。

為了測(cè)試本文方法的泛化能力，團(tuán)隊(duì)選取了 4 個(gè) Out of Domain 的傳統(tǒng) MultihopQA Benchmark 來(lái)測(cè)試他們的模型，包括 2wikimlutihopQA，HotpotQA，MuSiQue 和 Bamboogle。

結(jié)果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數(shù)據(jù)進(jìn)行訓(xùn)練，但是模型獲得在這些多跳推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升，并擊敗了其他基于強(qiáng)化學(xué)習(xí)的方法。

表 2. 傳統(tǒng) MultihopQA 測(cè)試結(jié)果。團(tuán)隊(duì)在 Out of Domain 的多個(gè) multihopQA 上測(cè)試了本文方法，展現(xiàn)出 Visual-ARFT 的強(qiáng)大泛化能力。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

智能體訓(xùn)練 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<meter id="sasux"><sub id="sasux"></sub></meter>

<track id="sasux"></track>

<kbd id="sasux"></kbd>