百度 TURA 三階段架構(gòu):讓 AI 檢索 “動” 起來
1. 為什么傳統(tǒng) RAG 不夠用了?

圖 1 傳統(tǒng) RAG 只能返回靜態(tài)網(wǎng)頁,而 TURA 可以實(shí)時(shí)調(diào)用攜程 API 查詢機(jī)票
- 痛點(diǎn):現(xiàn)有檢索增強(qiáng)生成(RAG)系統(tǒng)只能讀取已索引的靜態(tài)網(wǎng)頁,無法回答“下周從北京到上海的最低票價(jià)是多少”這類需要實(shí)時(shí)數(shù)據(jù)的問題。
- 需求:用戶希望一次對話就能完成查票、訂酒店、看天氣、規(guī)劃路線等多件事。
2. TURA 登場:三階段“工具人”架構(gòu)

圖 2 TURA 三階段框架總覽:檢索 → 規(guī)劃 → 執(zhí)行*
TURA(Tool-Augmented Unified Retrieval Agent)用工具調(diào)用把 RAG 從“靜態(tài)閱讀”升級為“動態(tài)交互”。核心分為三步:
階段 | 關(guān)鍵模塊 | 一句話總結(jié) |
① 檢索 | Intent-Aware MCP Server Retrieval | 把用戶一句話拆成多個“小意圖”,再從上千個工具里秒選最相關(guān)的幾個。 |
② 規(guī)劃 | DAG-based Task Planner | 把小意圖畫成有向無環(huán)圖(DAG),讓能并行的步驟一起跑,省時(shí)間。 |
③ 執(zhí)行 | Distilled Agent Executor | 用“小模型”蒸餾“大模型”的推理能力,既快又準(zhǔn)地調(diào)用工具拿結(jié)果。 |
3. 深度拆解:每個階段的黑科技
3.1 意圖感知檢索:如何 1 秒鎖定 5 個最相關(guān)工具?
- 查詢分解:LLM 先把“去北京玩 5 天”拆成["查北京天氣", "找 5 個景點(diǎn)", "訂酒店", "規(guī)劃路線"]
- 語義增強(qiáng)索引:為每個工具離線生成 20 條“用戶可能問法”,解決“用戶口語 vs API 文檔”的 Gap。
- 向量召回:用 ERNIE 做多向量 MaxSim 檢索,Recall@5 達(dá)到 0.8289(表 4)。

表 4 檢索模塊消融實(shí)驗(yàn):缺了分解或索引增強(qiáng)都會掉分
3.2 DAG 任務(wù)規(guī)劃:并行神器
- 復(fù)雜查詢不再是線性流水,而是并行圖。例:訂酒店 & 查天氣互不依賴,可以同時(shí)跑;路線規(guī)劃需等前兩者完成后才啟動,節(jié)省 44% 延遲(表 6)。

表 6 DAG vs 串行:成功率相當(dāng),延遲從 1650 ms → 920 ms
3.3 蒸餾執(zhí)行器:小模型也能打大模型
- 老師:DeepSeek-V3(671B)
- 學(xué)生:Qwen3-4B 蒸餾版
- 結(jié)果:

表 7 工具調(diào)用準(zhǔn)確率:學(xué)生 88.3 % > 老師 82.4 %,延遲 750 ms
秘訣:訓(xùn)練時(shí)保留思維鏈,推理時(shí)直接出動作,既省 token 又保智商。
4. 實(shí)戰(zhàn)成績:線上 A/B Test
- 樣本:百度真實(shí)流量 10^3 量級用戶
- 指標(biāo):
Session Success Rate(SSR):55.1 % → **64.0 %**(+8.9 %)
人工評分:TURA 在 13 % 場景“明顯更好”,僅 4 % 出現(xiàn)新問題(表 2)。

表 2 線上 A/B 結(jié)果
TURA 用“檢索 + 規(guī)劃 + 工具調(diào)用”的三板斧,把只能查資料的 RAG 變成能訂票、能規(guī)劃、能交互的 AI 搜索體,已在百度億級流量場景跑通,為下一代對話式搜索樹立了新范式。
https://arxiv.org/pdf/2508.04604
TURA: Tool-Augmented Unified Retrieval Agent for AI Search本文轉(zhuǎn)載自????CourseAI????,作者:CourseAI

















