搜索Agent最新高效推理框架：吞吐量翻3倍、延遲降至1/5，還不犧牲答案質(zhì)量丨南開& UIUC研究

2025-05-29 09:21:28

人工智能新聞

來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸，并提出了一套名為SearchAgent-X的高效推理框架。

AI越來越聰明，但如果它們反應(yīng)慢，效率低，也難以滿足我們的需求。

大語言模型（LLM）驅(qū)動(dòng)的搜索智能體，通過動(dòng)態(tài)拆解問題、交錯(cuò)執(zhí)行“思考”（推理）和“查找”（檢索）來解決復(fù)雜任務(wù)，展現(xiàn)了驚人能力。

然而，這種深度交互的背后，也隱藏著顯著的效率痛點(diǎn)。

處理復(fù)雜任務(wù)時(shí)，查得慢、查得不準(zhǔn)，都會(huì)拖慢整個(gè)流程。

來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸，并提出了一套名為SearchAgent-X的高效推理框架。

實(shí)踐表明，SearchAgent-X實(shí)現(xiàn)了1.3至3.4倍的吞吐量提升，延遲降至原來的1/1.7至1/5，同時(shí)不犧牲最終的答案質(zhì)量。

解析搜索智能體中的兩大效率瓶頸因素

研究者發(fā)現(xiàn)，看似簡單的檢索環(huán)節(jié)，隱藏著兩大關(guān)鍵的效率制約因素：

檢索精度：并非“越高越好”的微妙平衡

直覺上，檢索越準(zhǔn)，LLM獲取信息質(zhì)量越高，效率也應(yīng)該越高。但實(shí)際情況是非單調(diào)關(guān)系：

過低精度LLM需更多輪檢索和推理彌補(bǔ)，總時(shí)間增加。
過高精度檢索本身計(jì)算資源消耗巨大，拖慢整體速度。

研究表明，系統(tǒng)吞吐量隨近似檢索精度先升后降。當(dāng)搜索范圍超過最佳點(diǎn)，檢索成本反噬整體效率。

核心洞察：搜索智能體更青睞高召回率的近似搜索，有效支撐推理，避免不必要開銷。

檢索延遲：“差之毫厘”引發(fā)的“千里之堤”效應(yīng)

與傳統(tǒng)RAG不同，搜索智能體對(duì)檢索延遲極為敏感。即使微小增加，也可能導(dǎo)致端到端延遲急劇放大（高達(dá)83倍）。這與KV-cache命中率驟降密切相關(guān)，迫使系統(tǒng)頻繁重計(jì)算。主要原因：

不當(dāng)調(diào)度（Improper Scheduling）：

現(xiàn)象：標(biāo)準(zhǔn)“先來先服務(wù)”可能讓短任務(wù)搶占長任務(wù)計(jì)算資源。
惡果：長任務(wù)寶貴KV-cache被“擠掉”，恢復(fù)執(zhí)行時(shí)不得不重算。數(shù)據(jù)顯示，高達(dá)55.9%的token被不必要重計(jì)算。

檢索停滯（Retrieval Stalls）：

現(xiàn)象：異步檢索和生成可能時(shí)間錯(cuò)位。長任務(wù)檢索結(jié)果在下一輪生成“窗口期”之后返回。
惡果：任務(wù)錯(cuò)過當(dāng)前調(diào)度批次被迫等待，KV-cache可能被擠占。平均而言，超過25%的序列在完成檢索后會(huì)經(jīng)歷此類停滯。

SearchAgent-X的兩大“加速引擎”

基于上述洞察，SearchAgent-X通過智能調(diào)度與自適應(yīng)檢索，最大限度減少延遲，最大化GPU資源利用率，尤其提升KV-cache的有效利用。

利器一：優(yōu)先級(jí)感知調(diào)度 (Priority-Aware Scheduling)

解決不當(dāng)調(diào)度問題，SearchAgent-X引入優(yōu)先級(jí)調(diào)度，動(dòng)態(tài)排序并發(fā)請(qǐng)求。

調(diào)度依據(jù)：綜合考慮：

已完成的檢索次數(shù)：檢索越多，計(jì)算成果越多，緩存復(fù)用價(jià)值越大。
當(dāng)前序列的上下文長度：指向更長、可復(fù)用的緩存。
請(qǐng)求的等待時(shí)間：確保公平。

核心理念：“讓最有價(jià)值的計(jì)算優(yōu)先”，減少無謂等待與重復(fù)勞動(dòng)。

利器二：無停頓檢索 (Non-Stall Retrieval)

緩解檢索停滯，SearchAgent-X實(shí)現(xiàn)靈活、非阻塞式檢索提前終止策略。

執(zhí)行邏輯：自適應(yīng)判斷是否“見好就收”，依據(jù)：

檢索結(jié)果的成熟度：新信息帶來的質(zhì)量提升甚微時(shí)，認(rèn)為結(jié)果已足夠好。
LLM引擎的就緒狀態(tài)：判斷LLM是否準(zhǔn)備好下一輪計(jì)算。

核心理念：當(dāng)檢索結(jié)果足夠成熟且LLM引擎就緒時(shí)，SearchAgent-X停止檢索。這種機(jī)制是恰到好處的“放手”，保證信息質(zhì)量同時(shí)，讓生成過程無需不必要的等待。

實(shí)戰(zhàn)檢驗(yàn)：效率與質(zhì)量雙豐收

研究者在Qwen-7B/14B等模型上，對(duì)SearchAgent-X與多種基線系統(tǒng)進(jìn)行了全面對(duì)比。

端到端性能：吞吐與延遲的顯著優(yōu)化

離線推理 (所有請(qǐng)求一次性到達(dá))：在Musique數(shù)據(jù)集上，SearchAgent-X的吞吐量比基線系統(tǒng)高出1.3至3.4倍，平均延遲降低至基線系統(tǒng)的20%至60%。
在線推理(請(qǐng)求持續(xù)到達(dá))：SearchAgent-X 完成的請(qǐng)求數(shù)量比基線系統(tǒng)多**1.5至3.5 倍。請(qǐng)求速率越高，其優(yōu)勢越明顯，最多時(shí)是某些基線的5.8倍。

生成質(zhì)量：效率提升，效果不打折

在Musique, NQ, HotpotQA等六個(gè)代表性數(shù)據(jù)集上的評(píng)估表明，SearchAgent-X在生成準(zhǔn)確率上，與采用精確檢索的基線系統(tǒng)表現(xiàn)相當(dāng)。

有趣的是，在某些數(shù)據(jù)集上，由于近似檢索帶來的輕微擾動(dòng)促使模型進(jìn)行額外推理，其準(zhǔn)確率甚至略有提升。

技術(shù)拆解：每一項(xiàng)優(yōu)化都“功不可沒”

消融實(shí)驗(yàn)揭示各組件貢獻(xiàn)：

優(yōu)先級(jí)調(diào)度在引入緩存基礎(chǔ)上，將端到端延遲降低35.55%，KV-cache命中率從0.07提升至0.51。
無停頓檢索在前兩者基礎(chǔ)上，進(jìn)一步將KV-cache命中率提升至0.65。它平均僅使檢索時(shí)間減少0.01秒，卻顯著降低端到端延遲，印證了“差之毫厘的等待，影響深遠(yuǎn)”。

總結(jié)與展望

未來的AI要解決更宏大、更開放的問題，必然需要更頻繁地與外部工具和知識(shí)庫交互，而這恰恰是效率瓶頸所在。

SearchAgent-X揭示了：

平衡之殤在AI智能體中，任何單一工具（如檢索）的性能并非越高越好，需要與智能體的整體工作流相匹配。
等待之痛在由多個(gè)異步組件構(gòu)成的復(fù)雜AI系統(tǒng)中，微小的延遲和不當(dāng)?shù)馁Y源調(diào)度會(huì)被急劇放大，造成雪崩效應(yīng)。

該研究通過引入優(yōu)先級(jí)感知調(diào)度和無停滯檢索兩項(xiàng)機(jī)制，顯著提升了搜索型AI智能體的推理效率和響應(yīng)速度。

實(shí)驗(yàn)表明，這些優(yōu)化在不犧牲答案質(zhì)量的前提下，有效緩解了深度交互中的延遲與資源浪費(fèi)問題。相關(guān)方法可為包括搜索引擎、企業(yè)問答系統(tǒng)在內(nèi)的多類復(fù)雜AI Agent提供實(shí)踐參考。

論文地址: https://arxiv.org/abs/2505.12065Github地址: https://github.com/tiannuo-yang/SearchAgent-X

責(zé)任編輯：張燕妮來源：量子位