偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視覺感知驅(qū)動的多模態(tài)推理,阿里通義提出VRAG,定義下一代檢索增強生成

人工智能 新聞
來自阿里巴巴通義實驗室的最新研究成果 ——VRAG-RL。

在數(shù)字化時代,視覺信息在知識傳遞和決策支持中的重要性日益凸顯。然而,傳統(tǒng)的檢索增強型生成(RAG)方法在處理視覺豐富信息時面臨著諸多挑戰(zhàn)。一方面,傳統(tǒng)的基于文本的方法無法處理視覺相關(guān)數(shù)據(jù);另一方面,現(xiàn)有的視覺 RAG 方法受限于定義的固定流程,難以有效激活模型的推理能力。

來自阿里巴巴通義實驗室的最新研究成果 ——VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning),將強化學(xué)習(xí)算法引入多模態(tài)智能體訓(xùn)練,借助迭代推理和視覺感知空間,全方位提升視覺語言模型(VLMs)在檢索、推理和理解視覺信息方面的能力,為純視覺檢索增強生成任務(wù)提供有效解決方案,代碼、模型全面開源!

圖片

  • Paper 地址:arxiv.org/pdf/2505.22019
  • Github 地址:https://github.com/Alibaba-NLP/VRAG

為了解決現(xiàn)有 RAG 方法在處理視覺豐富文檔時面臨的挑戰(zhàn),尤其是生成階段推理能力不足的問題,我們推出了 VRAG-RL,該框架引入強化學(xué)習(xí),專為視覺豐富信息復(fù)雜推理量身定制。VRAG-RL 通過定義視覺感知動作空間,使模型能夠從粗到細(xì)地逐步聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺信息,從而全方位提升視覺語言模型(VLMs)在檢索、推理和理解視覺信息方面的能力。

圖片

與此同時,我們注意到現(xiàn)有的方法在將用戶查詢轉(zhuǎn)化為搜索引擎可理解的檢索請求時,常常因無法精準(zhǔn)表達需求而難以檢索到相關(guān)信息,往往存在語義偏差或信息缺失的問題。這不僅影響了檢索結(jié)果的相關(guān)性,還限制了模型在后續(xù)生成階段的推理能力。為了解決這一問題,VRAG-RL 引入了一種創(chuàng)新的檢索機制,通過結(jié)合視覺感知動作和強化學(xué)習(xí),使模型能夠更有效地與搜索引擎進行交互。這種機制不僅能夠幫助模型更精準(zhǔn)地表達檢索需求,還能夠在檢索過程中動態(tài)調(diào)整檢索策略,從而顯著提升檢索效率和結(jié)果的相關(guān)性。

重定義感知行動空間

視覺仿生思考新范式

傳統(tǒng) RAG 方法在處理視覺信息時,往往采用固定的檢索 - 生成流程,即先通過搜索引擎檢索相關(guān)信息,然后直接生成答案。這種固定流程忽略了視覺信息的獨特性,無法充分利用視覺數(shù)據(jù)中的豐富細(xì)節(jié),導(dǎo)致推理能力受限。

圖片

相比之下,VRAG-RL 徹底革新了傳統(tǒng)的檢索生成范式,引入了多樣化的視覺感知動作,其中包含了多種視覺感知動作,如區(qū)域選擇、裁剪、縮放等。這些動作使 VLMs 能夠從粗粒度到細(xì)粒度逐步聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺信息。例如,在處理復(fù)雜的圖表或布局時,模型可以先從整體圖像中提取大致信息,然后逐步聚焦到信息密集的區(qū)域,通過裁剪和縮放操作,獲取更清晰、更詳細(xì)的視覺信息。這種從粗粒度到細(xì)粒度的感知方式,不僅提高了模型對視覺信息的理解能力,還顯著提升了檢索效率,使模型能夠更快速地定位到與問題相關(guān)的圖像內(nèi)容。

圖片

VRAG-RL 采用了多專家采樣策略構(gòu)建訓(xùn)練數(shù)據(jù),大規(guī)模模型負(fù)責(zé)確定整體的推理路徑,而專家模型則在大規(guī)模模型的指導(dǎo)下,對圖像中的關(guān)鍵區(qū)域進行精確標(biāo)注,結(jié)合大規(guī)模模型的推理能力和專家模型的精確標(biāo)注能力,模型能夠在訓(xùn)練過程中學(xué)習(xí)到更有效的視覺感知策略,顯著提升了模型在實際應(yīng)用中的表現(xiàn)。

檢索與推理協(xié)同優(yōu)化

效率與深度雙重提升

VRAG-RL 的細(xì)粒度獎勵機制將檢索效率、模式一致性與生成質(zhì)量三方面因素融合,引導(dǎo)模型在與搜索引擎的交互中不斷優(yōu)化其檢索與推理路徑。  

  • 檢索效率獎勵 :借鑒信息檢索領(lǐng)域廣泛使用的 NDCG(Normalized Discounted Cumulative Gain)指標(biāo),激勵模型優(yōu)先檢索相關(guān)度高的圖像內(nèi)容,快速構(gòu)建高質(zhì)量上下文;  
  • 模式一致性獎勵 :確保模型遵循預(yù)設(shè)的推理邏輯路徑,避免因模式偏差導(dǎo)致生成結(jié)果偏離任務(wù)目標(biāo);  
  • 生成質(zhì)量獎勵 :通過評估模型對生成答案的質(zhì)量打分,引導(dǎo)模型輸出更準(zhǔn)確、連貫的答案。  

這種多維度獎勵機制實現(xiàn)了檢索與推理的雙向驅(qū)動——高效的檢索為深入推理提供支撐,而推理反饋又進一步指導(dǎo)模型優(yōu)化檢索策略,形成閉環(huán)優(yōu)化。

圖片

強化學(xué)習(xí)賦能多模態(tài)智能體訓(xùn)練

VRAG-RL 基于強化學(xué)習(xí)的訓(xùn)練策略,引入業(yè)界領(lǐng)先的 GRPO 算法,讓視覺語言模型(VLMs)在與搜索引擎的多輪交互中,持續(xù)優(yōu)化檢索與推理能力。同時,通過本地部署搜索引擎模擬真實世界應(yīng)用場景,實現(xiàn)搜索引擎調(diào)用零成本,模型訓(xùn)練更加高效。這種訓(xùn)練方式,不僅提升了模型的泛化能力,使其在不同領(lǐng)域、不同類型的視覺任務(wù)中都能表現(xiàn)出色,為多模態(tài)智能體的訓(xùn)練提供全新的解決方案。

圖片

實驗分析

VRAG-RL 在各個基準(zhǔn)數(shù)據(jù)集上均取得了顯著優(yōu)于現(xiàn)有方法的性能,涵蓋了從單跳到多跳推理、從文本到圖表和布局等多種復(fù)雜的視覺和語言任務(wù)類型。實驗結(jié)果表明,VRAG-RL 在處理視覺豐富信息時具有顯著的優(yōu)勢,能夠更有效地進行檢索、推理和生成高質(zhì)量的答案。無論是在傳統(tǒng)的 prompt-based 方法(如 Vanilla RAG 和 ReAct RAG)還是在基于強化學(xué)習(xí)的方法(如 Search-R1)上,VRAG-RL 都展現(xiàn)出了顯著的性能提升。

圖片

在傳統(tǒng)的 RAG 方法中,模型通常在進行一次或多次檢索后直接生成答案。然而,在處理復(fù)雜的視覺任務(wù)時,這種方法往往表現(xiàn)不佳,因為它缺乏對視覺信息的深入理解和多輪推理能力。

相比之下,我們的 VRAG-RL 方法支持多輪交互。具體來說,通過定義視覺感知動作空間,VRAG-RL 能夠在推理階段逐步聚焦于信息密集區(qū)域,從而實現(xiàn)從粗到細(xì)的信息獲取。同時,該方法通過優(yōu)化檢索效率和推理路徑,在保持高效率的同時,顯著提升了模型在視覺任務(wù)上的性能。

圖片

未來展望

開啟視覺感知驅(qū)動多模態(tài)推理的新時代

VRAG-RL 為視覺豐富信息的檢索增強生成任務(wù)開辟了新的道路。未來,研究團隊計劃進一步拓展模型的能力,引入更多模仿人類處理復(fù)雜信息的動作,使模型能夠更深入地進行思考。同時,團隊還將致力于減少模型的幻覺現(xiàn)象,通過引入更先進的模型架構(gòu)和訓(xùn)練方法,進一步提高框架的準(zhǔn)確性和可靠性,推動視覺語言模型在更多實際應(yīng)用場景中的落地與發(fā)展。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2013-07-27 21:28:44

2025-06-09 08:42:23

2013-06-27 11:21:17

2023-06-25 07:53:33

AI生成式模型

2013-05-20 09:47:15

SDN軟件定義網(wǎng)絡(luò)

2022-07-27 15:49:43

互聯(lián)網(wǎng)網(wǎng)絡(luò)范式人工智能

2020-09-16 10:28:54

邊緣計算云計算數(shù)據(jù)中心

2025-01-03 09:24:10

模型架構(gòu)論文

2018-09-11 08:00:00

DevOpsAIOps機器學(xué)習(xí)

2024-02-26 14:46:53

移動計算人工智能5G

2020-06-02 08:05:28

智能電表蜂窩物聯(lián)網(wǎng)NB-IoT

2020-09-27 17:27:58

邊緣計算云計算技術(shù)

2025-02-11 08:00:00

大語言模型檢索增強生成CAG

2018-09-27 18:47:45

AIOpsDevOps

2011-11-22 13:31:05

微軟數(shù)據(jù)中心云端MLC

2013-09-09 16:28:36

2014-01-09 18:32:27

IET需求導(dǎo)向網(wǎng)絡(luò)下一代網(wǎng)絡(luò)構(gòu)架

2023-10-14 17:46:17

RAG提示工程GPT-3

2022-07-22 07:25:12

模型人工智能

2016-01-26 11:58:12

點贊
收藏

51CTO技術(shù)棧公眾號