偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AGILE：視覺學(xué)習(xí)新范式！自監(jiān)督+交互式強(qiáng)化學(xué)習(xí)助力VLMs感知與推理全面提升

2025-10-21 09:06:00

人工智能新聞

AGILE 提出一種全新的自監(jiān)督學(xué)習(xí)范式，將「智能體交互」遷移至多模態(tài)大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中，通過「模型生成動(dòng)作代碼 + 視覺環(huán)境反饋」的循環(huán)式交互過程，讓模型像人一樣邊觀察、邊推理、邊學(xué)習(xí)，從而顯著提升模型視覺感知與邏輯推理能力。

現(xiàn)有視覺語言大模型（VLMs）在多模態(tài)感知和推理任務(wù)上仍存在明顯短板：1. 對(duì)圖像中的細(xì)粒度視覺信息理解有限，視覺感知和推理能力未被充分激發(fā)；2. 強(qiáng)化學(xué)習(xí)雖能帶來改進(jìn)，但缺乏高質(zhì)量、易擴(kuò)展的 RL 數(shù)據(jù)。

AGILE 提出一種全新的自監(jiān)督學(xué)習(xí)范式，將「智能體交互」遷移至多模態(tài)大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中，通過「模型生成動(dòng)作代碼 + 視覺環(huán)境反饋」的循環(huán)式交互過程，讓模型像人一樣邊觀察、邊推理、邊學(xué)習(xí)，從而顯著提升模型視覺感知與邏輯推理能力。

Title：Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
Paper：https://arxiv.org/pdf/2510.01304
Project Page：https://yuzeng0-0.github.io/AGILE/
Dataset：https://huggingface.co/datasets/YuZeng260/AGILE
Code：https://github.com/yuzeng0-0/AGILE
作者單位：中科大、上海 AI Lab、華東師大、港中文

圖 1：AGILE 主要工作框架

方法核心：交互式智能體 + 拼圖代理任務(wù)

為了克服數(shù)據(jù)瓶頸與可擴(kuò)展性問題，研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務(wù)，提出 AGILE。將拼圖過程建模為「可控、可驗(yàn)證」的交互式形式：

模型在每一步生成 Python 動(dòng)作代碼（Swap、Observe、Crop、Zoom）；
環(huán)境執(zhí)行代碼、返回視覺反饋；
模型根據(jù)環(huán)境反饋繼續(xù)規(guī)劃調(diào)整拼圖，該循環(huán)重復(fù)至拼圖完成。

這一閉環(huán)交互形成了「觀察–交互–反饋–學(xué)習(xí)」的智能體訓(xùn)練范式，使 VLMs 能在自監(jiān)督方式下持續(xù)提升感知和推理能力。

AGILE 的完整流程分為兩個(gè)階段：

Cold-Start 階段，使用 Gemini 2.5 Pro 生成 1.6K 條高質(zhì)量專家拼圖交互軌跡，教會(huì)模型如何正確生成動(dòng)作代碼與交互邏輯，解決初期模型「不會(huì)動(dòng)手」的問題；
Reinforcement Learning 階段，在 15.6K 張圖像上訓(xùn)練拼圖任務(wù)，采用 GRPO 算法，通過準(zhǔn)確率、格式規(guī)范與交互輪數(shù)三重獎(jiǎng)勵(lì)信號(hào)優(yōu)化策略。

圖 2：模型拼圖過程中激發(fā)出來的感知和推理行為

實(shí)驗(yàn)

研究者們進(jìn)行了大量實(shí)驗(yàn)，驗(yàn)證了 AGILE 的有效性，并得到了多條富有啟發(fā)意義的結(jié)論：

研究者們?cè)O(shè)計(jì)了系統(tǒng)的拼圖評(píng)估數(shù)據(jù)集，涵蓋不同難度（2×2、3×3）與不同初始正確塊數(shù)（L0–L7）。模型性能以兩種指標(biāo)衡量：Acc，所有塊完全放對(duì)的比例；Score，正確拼塊數(shù)占總拼塊數(shù)的比例。在最簡(jiǎn)單的 2×2 任務(wù)中，AGILE 使準(zhǔn)確率從 9.5% 提升至 82.8%，比 Gemini 2.5 Pro 高出 36.4 個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的 3×3 拼圖中，也從 0.4% 提升至 20.8%，標(biāo)志著模型感知和推理能力大幅躍升。

表 1：拼圖 Acc 結(jié)果。LN 表示難度級(jí)別，N 表示初始正確拼圖塊數(shù)。N 值越小，拼圖越亂，難度越高。最佳結(jié)果以粗體顯示，次佳結(jié)果以下劃線顯示。

通用能力即泛化性評(píng)測(cè)：經(jīng)過拼圖訓(xùn)練，模型在 9 項(xiàng)通用視覺任務(wù)中（涵蓋真實(shí)世界場(chǎng)景、高分辨率場(chǎng)景、細(xì)粒度感知、幻覺和多模態(tài)推理）平均提升 3.1%，展現(xiàn)出強(qiáng)大的泛化能力。進(jìn)一步驗(yàn)證了拼圖任務(wù)作為代理任務(wù)對(duì)于通用視覺能力的泛化價(jià)值。

表 2：不同模型在 9 個(gè)基準(zhǔn)測(cè)試上的性能比較?？s寫：MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL)，Avg. 表示所有 9 個(gè)基準(zhǔn)測(cè)試的平均性能。? 表示強(qiáng)化學(xué)習(xí)相對(duì)于基礎(chǔ)模型 Qwen2.5-VL-7B 獲得的相對(duì)性能提升。最佳結(jié)果以粗體突出顯示，次佳結(jié)果以下劃線標(biāo)出。

Scaling 實(shí)驗(yàn)：數(shù)據(jù)規(guī)模帶來的持續(xù)增益。研究者們進(jìn)一步探究了拼圖數(shù)據(jù)規(guī)模對(duì)性能的影響。當(dāng)訓(xùn)練數(shù)據(jù)從 0 擴(kuò)展至 16K 時(shí)：拼圖任務(wù)準(zhǔn)確率從 22.0% → 82.8%；HRBench4K 準(zhǔn)確率提升 +2.0%；RealWorldQA 提升 +1.8%。表明 AGILE 的訓(xùn)練在數(shù)據(jù)量擴(kuò)增下持續(xù)有效。由于拼圖環(huán)境可自動(dòng)生成，AGILE 的數(shù)據(jù)擴(kuò)展幾乎零成本、無限擴(kuò)容，為多模態(tài) RL 提供了可持續(xù)的自監(jiān)督范式。

圖 3：（左圖）訓(xùn)練數(shù)據(jù)規(guī)模的影響。左側(cè) y 軸表示 HRBench4K 和 RealWorldQA 的準(zhǔn)確率，右側(cè) y 軸表示拼圖任務(wù)的準(zhǔn)確率。（右圖）與常規(guī) QA 數(shù)據(jù)的比較，在兩種實(shí)驗(yàn)設(shè)置中，樣本總數(shù)始終保持在 20K。

與常規(guī) QA 數(shù)據(jù)的對(duì)比實(shí)驗(yàn)：研究者們替換 20K 常規(guī) QA 數(shù)據(jù)中的其中 10K 為拼圖數(shù)據(jù)，發(fā)現(xiàn)模型可以表現(xiàn)出更好的性能。這說明拼圖任務(wù)提供了更強(qiáng)的結(jié)構(gòu)感知與監(jiān)督信號(hào)。這一發(fā)現(xiàn)凸顯了拼圖任務(wù)在緩解多模態(tài)強(qiáng)化學(xué)習(xí)數(shù)據(jù)稀缺方面的潛力，并為推進(jìn)多模態(tài)模型開發(fā)開辟了一個(gè)充滿前景的新方向。

意義與未來

AGILE = 交互式拼圖代理 + 自監(jiān)督 RL，在無需額外人工標(biāo)注的前提下，持續(xù)提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務(wù)」作為突破數(shù)據(jù)瓶頸、強(qiáng)化 VLMs 的可行性和自監(jiān)督強(qiáng)化學(xué)習(xí)范式的潛力。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營