搜索Agent最新高效推理框架:吞吐量翻3倍、延遲降至1/5,還不犧牲答案質(zhì)量丨南開& UIUC研究
AI越來越聰明,但如果它們反應(yīng)慢,效率低,也難以滿足我們的需求。
大語言模型(LLM)驅(qū)動(dòng)的搜索智能體,通過動(dòng)態(tài)拆解問題、交錯(cuò)執(zhí)行“思考”(推理)和“查找”(檢索)來解決復(fù)雜任務(wù),展現(xiàn)了驚人能力。
然而,這種深度交互的背后,也隱藏著顯著的效率痛點(diǎn)。
處理復(fù)雜任務(wù)時(shí),查得慢、查得不準(zhǔn),都會(huì)拖慢整個(gè)流程。
來自南開大學(xué)和伊利諾伊大學(xué)厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。
實(shí)踐表明,SearchAgent-X實(shí)現(xiàn)了1.3至3.4倍的吞吐量提升,延遲降至原來的1/1.7至1/5,同時(shí)不犧牲最終的答案質(zhì)量。
解析搜索智能體中的兩大效率瓶頸因素
研究者發(fā)現(xiàn),看似簡單的檢索環(huán)節(jié),隱藏著兩大關(guān)鍵的效率制約因素:
檢索精度:并非“越高越好”的微妙平衡
直覺上,檢索越準(zhǔn),LLM獲取信息質(zhì)量越高,效率也應(yīng)該越高。但實(shí)際情況是非單調(diào)關(guān)系:
- 過低精度LLM需更多輪檢索和推理彌補(bǔ),總時(shí)間增加。
- 過高精度檢索本身計(jì)算資源消耗巨大,拖慢整體速度。
研究表明,系統(tǒng)吞吐量隨近似檢索精度先升后降。當(dāng)搜索范圍超過最佳點(diǎn),檢索成本反噬整體效率。
核心洞察:搜索智能體更青睞高召回率的近似搜索,有效支撐推理,避免不必要開銷。
檢索延遲:“差之毫厘”引發(fā)的“千里之堤”效應(yīng)
與傳統(tǒng)RAG不同,搜索智能體對(duì)檢索延遲極為敏感。即使微小增加,也可能導(dǎo)致端到端延遲急劇放大(高達(dá)83倍)。這與KV-cache命中率驟降密切相關(guān),迫使系統(tǒng)頻繁重計(jì)算。主要原因:
不當(dāng)調(diào)度(Improper Scheduling):
- 現(xiàn)象:標(biāo)準(zhǔn)“先來先服務(wù)”可能讓短任務(wù)搶占長任務(wù)計(jì)算資源。
- 惡果:長任務(wù)寶貴KV-cache被“擠掉”,恢復(fù)執(zhí)行時(shí)不得不重算。數(shù)據(jù)顯示,高達(dá)55.9%的token被不必要重計(jì)算。
檢索停滯(Retrieval Stalls):
- 現(xiàn)象:異步檢索和生成可能時(shí)間錯(cuò)位。長任務(wù)檢索結(jié)果在下一輪生成“窗口期”之后返回。
- 惡果:任務(wù)錯(cuò)過當(dāng)前調(diào)度批次被迫等待,KV-cache可能被擠占。平均而言,超過25%的序列在完成檢索后會(huì)經(jīng)歷此類停滯。
SearchAgent-X的兩大“加速引擎”
基于上述洞察,SearchAgent-X通過智能調(diào)度與自適應(yīng)檢索,最大限度減少延遲,最大化GPU資源利用率,尤其提升KV-cache的有效利用。
利器一:優(yōu)先級(jí)感知調(diào)度 (Priority-Aware Scheduling)
解決不當(dāng)調(diào)度問題,SearchAgent-X引入優(yōu)先級(jí)調(diào)度,動(dòng)態(tài)排序并發(fā)請(qǐng)求。
調(diào)度依據(jù):綜合考慮:
- 已完成的檢索次數(shù):檢索越多,計(jì)算成果越多,緩存復(fù)用價(jià)值越大。
- 當(dāng)前序列的上下文長度:指向更長、可復(fù)用的緩存。
- 請(qǐng)求的等待時(shí)間:確保公平。
核心理念:“讓最有價(jià)值的計(jì)算優(yōu)先”,減少無謂等待與重復(fù)勞動(dòng)。
利器二:無停頓檢索 (Non-Stall Retrieval)
緩解檢索停滯,SearchAgent-X實(shí)現(xiàn)靈活、非阻塞式檢索提前終止策略。
執(zhí)行邏輯:自適應(yīng)判斷是否“見好就收”,依據(jù):
- 檢索結(jié)果的成熟度:新信息帶來的質(zhì)量提升甚微時(shí),認(rèn)為結(jié)果已足夠好。
- LLM引擎的就緒狀態(tài):判斷LLM是否準(zhǔn)備好下一輪計(jì)算。
核心理念:當(dāng)檢索結(jié)果足夠成熟且LLM引擎就緒時(shí),SearchAgent-X停止檢索。這種機(jī)制是恰到好處的“放手”,保證信息質(zhì)量同時(shí),讓生成過程無需不必要的等待。
實(shí)戰(zhàn)檢驗(yàn):效率與質(zhì)量雙豐收
研究者在Qwen-7B/14B等模型上,對(duì)SearchAgent-X與多種基線系統(tǒng)進(jìn)行了全面對(duì)比。
端到端性能:吞吐與延遲的顯著優(yōu)化
- 離線推理 (所有請(qǐng)求一次性到達(dá)):在Musique數(shù)據(jù)集上,SearchAgent-X的吞吐量比基線系統(tǒng)高出1.3至3.4倍,平均延遲降低至基線系統(tǒng)的20%至60%。
- 在線推理(請(qǐng)求持續(xù)到達(dá)):SearchAgent-X 完成的請(qǐng)求數(shù)量比基線系統(tǒng)多**1.5至3.5 倍。請(qǐng)求速率越高,其優(yōu)勢越明顯,最多時(shí)是某些基線的5.8倍。
生成質(zhì)量:效率提升,效果不打折
在Musique, NQ, HotpotQA等六個(gè)代表性數(shù)據(jù)集上的評(píng)估表明,SearchAgent-X在生成準(zhǔn)確率上,與采用精確檢索的基線系統(tǒng)表現(xiàn)相當(dāng)。
有趣的是,在某些數(shù)據(jù)集上,由于近似檢索帶來的輕微擾動(dòng)促使模型進(jìn)行額外推理,其準(zhǔn)確率甚至略有提升。
技術(shù)拆解:每一項(xiàng)優(yōu)化都“功不可沒”
消融實(shí)驗(yàn)揭示各組件貢獻(xiàn):
- 優(yōu)先級(jí)調(diào)度在引入緩存基礎(chǔ)上,將端到端延遲降低35.55%,KV-cache命中率從0.07提升至0.51。
- 無停頓檢索在前兩者基礎(chǔ)上,進(jìn)一步將KV-cache命中率提升至0.65。它平均僅使檢索時(shí)間減少0.01秒,卻顯著降低端到端延遲,印證了“差之毫厘的等待,影響深遠(yuǎn)”。
總結(jié)與展望
未來的AI要解決更宏大、更開放的問題,必然需要更頻繁地與外部工具和知識(shí)庫交互,而這恰恰是效率瓶頸所在。
SearchAgent-X揭示了:
- 平衡之殤在AI智能體中,任何單一工具(如檢索)的性能并非越高越好,需要與智能體的整體工作流相匹配。
- 等待之痛在由多個(gè)異步組件構(gòu)成的復(fù)雜AI系統(tǒng)中,微小的延遲和不當(dāng)?shù)馁Y源調(diào)度會(huì)被急劇放大,造成雪崩效應(yīng)。
該研究通過引入優(yōu)先級(jí)感知調(diào)度和無停滯檢索兩項(xiàng)機(jī)制,顯著提升了搜索型AI智能體的推理效率和響應(yīng)速度。
實(shí)驗(yàn)表明,這些優(yōu)化在不犧牲答案質(zhì)量的前提下,有效緩解了深度交互中的延遲與資源浪費(fèi)問題。相關(guān)方法可為包括搜索引擎、企業(yè)問答系統(tǒng)在內(nèi)的多類復(fù)雜AI Agent提供實(shí)踐參考。
論文地址: https://arxiv.org/abs/2505.12065Github地址: https://github.com/tiannuo-yang/SearchAgent-X