RAG各模塊聯(lián)合優(yōu)化思路:多智能體協(xié)作建模-MMOA-RAG淺嘗 原創(chuàng)
現(xiàn)有RAG系統(tǒng)的各個模塊的任務(wù)目標(biāo)不一致:傳統(tǒng)方法(如監(jiān)督微調(diào)SFT)單獨優(yōu)化查詢重寫、文檔檢索、答案生成等模塊,但單個模塊的“局部最優(yōu)”無法保證最終答案的“全局最優(yōu)”。
MMOA-RAG創(chuàng)新點是將RAG系統(tǒng)的可訓(xùn)練模塊建模為協(xié)作式多智能體,讓所有智能體的優(yōu)化目標(biāo)統(tǒng)一對齊到“最終答案質(zhì)量”(如F1分?jǐn)?shù)),通過多智能體強化學(xué)習(xí)(MAPPO算法)實現(xiàn)模塊間的聯(lián)合優(yōu)化,解決這個問題。

MMOA-RAG 的整體框架
總結(jié)如下:
模塊 | 角色(智能體/環(huán)境) | 功能 |
查詢重寫器(QR) | 智能體(可訓(xùn)練) | 將復(fù)雜/模糊的初始問題? |
文檔檢索器(Retriever) | 環(huán)境(固定,建模為RL智能體難度較高,使用Contriever、BGE等成熟檢索模型) | 根據(jù)每個? |
文檔選擇器(S) | 智能體(可訓(xùn)練) | 從? |
答案生成器(G) | 智能體(可訓(xùn)練) | 基于? |
聯(lián)合優(yōu)化需要實現(xiàn)參數(shù)共享:三個智能體復(fù)用同一LLM參數(shù)(通過不同提示詞區(qū)分任務(wù)),降低計算開銷。
兩階段優(yōu)化
MMOA-RAG的訓(xùn)練分為“預(yù)熱SFT”和“多智能體優(yōu)化(MAPPO)”兩階段,確保模型先掌握基礎(chǔ)功能,再通過協(xié)作agent提升性能。
階段1:預(yù)熱SFT
讓每個智能體先學(xué)會“基礎(chǔ)任務(wù)邏輯”(如QR拆解問題、S選擇文檔、G生成答案),為后續(xù)強化學(xué)習(xí)提供“基線模型”。
數(shù)據(jù)集構(gòu)建
針對三個智能體分別構(gòu)建SFT數(shù)據(jù):
- QR的SFT數(shù)據(jù):復(fù)用Rewrite-Retrieve-Read論文的公開查詢重寫數(shù)據(jù)集(問題→子問題對);
- S的SFT數(shù)據(jù):用啟發(fā)式方法標(biāo)注“有用文檔ID”:
- 對問題?
?q???和黃金答案??Ans_golden???,去除停用詞、小寫化后得到詞集??Set_q??; - 對每個候選文檔?
?d???,同樣處理得到??Set_d??; - 若?
?Set_q???與??Set_d???有交集,則標(biāo)注??d??的ID為“有用”;
- G的SFT數(shù)據(jù):以“?
?q???+??D_selected???→??Ans_golden???”為樣本(??Ans_golden??為黃金答案)。
損失函數(shù)
采用標(biāo)準(zhǔn)語言建模損失,最小化模型預(yù)測與標(biāo)簽的負(fù)對數(shù)似然:

階段2:多智能體優(yōu)化(MAPPO)
MAPPO是PPO的多智能體擴展,支持“共享全局獎勵”,適合完全協(xié)作場景。
模型組件
訓(xùn)練過程中涉及三個模型:

實驗性能

不同方法在數(shù)據(jù)集上的表現(xiàn)

關(guān)于優(yōu)化不同智能體的消融實驗

不同模塊配置下 RAG 系統(tǒng)的通用性實驗
Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning,https://arxiv.org/pdf/2501.15228v2repo:https://github.com/chenyiqun/MMOA-RAG
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:余俊暉

















