偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-10-21 09:07

瀏覽

0收藏

現(xiàn)有RAG系統(tǒng)的各個模塊的任務(wù)目標(biāo)不一致：傳統(tǒng)方法（如監(jiān)督微調(diào)SFT）單獨優(yōu)化查詢重寫、文檔檢索、答案生成等模塊，但單個模塊的“局部最優(yōu)”無法保證最終答案的“全局最優(yōu)”。

MMOA-RAG創(chuàng)新點是將RAG系統(tǒng)的可訓(xùn)練模塊建模為協(xié)作式多智能體，讓所有智能體的優(yōu)化目標(biāo)統(tǒng)一對齊到“最終答案質(zhì)量”（如F1分?jǐn)?shù)），通過多智能體強化學(xué)習(xí)（MAPPO算法）實現(xiàn)模塊間的聯(lián)合優(yōu)化，解決這個問題。

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

MMOA-RAG 的整體框架

總結(jié)如下：

模塊	角色（智能體/環(huán)境）	功能
查詢重寫器（QR）	智能體（可訓(xùn)練）	將復(fù)雜/模糊的初始問題?`?q?`??拆解為多個子問題?`?subq?`?，提升后續(xù)檢索的精準(zhǔn)度。
文檔檢索器（Retriever）	環(huán)境（固定，建模為RL智能體難度較高，使用Contriever、BGE等成熟檢索模型）	根據(jù)每個?`?subq?`??從語料庫中檢索候選文檔集?`?D?`??（默認(rèn)?`?K=10?`??個文檔，如2個?`?subq?`?各檢索5個）。
文檔選擇器（S）	智能體（可訓(xùn)練）	從?`?D?`??中篩選出對生成答案真正有用的子集?`?D_selected?`?，過濾噪聲文檔。
答案生成器（G）	智能體（可訓(xùn)練）	基于?`?q?`??和?`?D_selected?`??生成最終預(yù)測答案?`?Ans_predict?`?。

聯(lián)合優(yōu)化需要實現(xiàn)參數(shù)共享：三個智能體復(fù)用同一LLM參數(shù)（通過不同提示詞區(qū)分任務(wù)），降低計算開銷。

兩階段優(yōu)化

MMOA-RAG的訓(xùn)練分為“預(yù)熱SFT”和“多智能體優(yōu)化（MAPPO）”兩階段，確保模型先掌握基礎(chǔ)功能，再通過協(xié)作agent提升性能。

階段1：預(yù)熱SFT

讓每個智能體先學(xué)會“基礎(chǔ)任務(wù)邏輯”（如QR拆解問題、S選擇文檔、G生成答案），為后續(xù)強化學(xué)習(xí)提供“基線模型”。

數(shù)據(jù)集構(gòu)建

針對三個智能體分別構(gòu)建SFT數(shù)據(jù)：

QR的SFT數(shù)據(jù)：復(fù)用Rewrite-Retrieve-Read論文的公開查詢重寫數(shù)據(jù)集（問題→子問題對）；
S的SFT數(shù)據(jù)：用啟發(fā)式方法標(biāo)注“有用文檔ID”：

對問題??q???和黃金答案??Ans_golden???，去除停用詞、小寫化后得到詞集??Set_q??；
對每個候選文檔??d???，同樣處理得到??Set_d??；
若??Set_q???與??Set_d???有交集，則標(biāo)注??d??的ID為“有用”；

G的SFT數(shù)據(jù)：以“??q???+??D_selected???→??Ans_golden???”為樣本（??Ans_golden??為黃金答案）。

損失函數(shù)

采用標(biāo)準(zhǔn)語言建模損失，最小化模型預(yù)測與標(biāo)簽的負(fù)對數(shù)似然：

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

階段2：多智能體優(yōu)化（MAPPO）

MAPPO是PPO的多智能體擴展，支持“共享全局獎勵”，適合完全協(xié)作場景。

模型組件

訓(xùn)練過程中涉及三個模型：

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

實驗性能

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

不同方法在數(shù)據(jù)集上的表現(xiàn)

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

關(guān)于優(yōu)化不同智能體的消融實驗

RAG各模塊聯(lián)合優(yōu)化思路：多智能體協(xié)作建模-MMOA-RAG淺嘗-AI.x社區(qū)

不同模塊配置下 RAG 系統(tǒng)的通用性實驗

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning,https://arxiv.org/pdf/2501.15228v2repo:https://github.com/chenyiqun/MMOA-RAG

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：余俊暉

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多智能體協(xié)作

已于2025-10-21 09:07:22修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Advanced RAG 07：在 RAG 系統(tǒng)中進行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 7405瀏覽 ? 0回復(fù)
超長小說可以用AI翻譯了，新型多智能體協(xié)作系統(tǒng)媲美人工翻譯

輕薄滴假象 ? 4517瀏覽 ? 0回復(fù)
又來一個RAG：RankRAG，英偉達RAG新思路

大語言模型論文跟蹤 ? 4111瀏覽 ? 0回復(fù)
模塊化RAG：RAG新范式，像樂高一樣搭建

大語言模型論文跟蹤 ? 4670瀏覽 ? 0回復(fù)
RAGLAB：又來一個RAG框架，還是模塊化的

大語言模型論文跟蹤 ? 3708瀏覽 ? 0回復(fù)
RAG高級優(yōu)化：檢索后處理模塊成竹在胸

恰似驚鴻 ? 3464瀏覽 ? 0回復(fù)
VisRAG：清華大學(xué)&面壁智能提出了一種新的RAG思路，效果提升明顯

大語言模型論文跟蹤 ? 4065瀏覽 ? 0回復(fù)
智能體協(xié)作進化論，從心智理論到逆向注意力

xuxiangda ? 4206瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 3515瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG檢索模塊初建成

一起AI技術(shù) ? 4126瀏覽 ? 0回復(fù)
多智能體強化學(xué)習(xí)如何讓AI回答更精準(zhǔn)？MMOA-RAG的突破性進展

Halo咯咯 ? 4696瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路

大模型自然語言處理 ? 3927瀏覽 ? 0回復(fù)
強強聯(lián)合！LangChain與CrewAI構(gòu)建基于RAG的智能查詢解答系統(tǒng)

Halo咯咯 ? 4300瀏覽 ? 0回復(fù)
多智能體協(xié)作技術(shù)再突破！

xuxiangda ? 4555瀏覽 ? 0回復(fù)
通用RAG：通過路由模塊對多源異構(gòu)知識庫檢索生成問答思路

大模型自然語言處理 ? 1610瀏覽 ? 0回復(fù)
從自主決策到多智能體協(xié)作：2025年五大智能代理AI框架全解析

Halo咯咯 ? 2416瀏覽 ? 0回復(fù)
基于多智能體協(xié)作的 AI 搜索新架構(gòu)設(shè)計

玄姐聊AGI ? 2878瀏覽 ? 0回復(fù)
記一次智能體和RAG檢索增強的應(yīng)用思路和問題——使用智能體解決不同維度之間的協(xié)作問題

AI探索時代 ? 1332瀏覽 ? 0回復(fù)
RAG長上下文加速解碼策略-meta基于RAG的解決思路淺嘗（REFRAG）

大模型自然語言處理 ? 1233瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：如何打造一個文檔解析的多模態(tài)大模型？MinerU2.5架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

下一篇：再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

社區(qū)精華內(nèi)容

目錄

<strong id="txp29"></strong>

<tfoot id="txp29"></tfoot>

<u id="txp29"></u>

<blockquote id="txp29"></blockquote>