谷歌重新定義Deep Researcher能力:測試時擴散能力增強深度研究智能體
當 AI 被要求寫一份關(guān)于 “2025 年生物醫(yī)學突破” 的深度報告時,它為何總是東拼西湊、漏洞百出?谷歌團隊發(fā)現(xiàn),問題出在 AI 不會像人類一樣 “反復打磨”—— 而他們新提出的 TTD-DR 框架,竟讓 AI 學會了 “先寫初稿、再查資料、逐句修改” 的研究員式工作法,性能直接碾壓現(xiàn)有系統(tǒng)。這個框架究竟是如何運作的?
摘要&解讀
在大型語言模型(LLMs)的驅(qū)動下,深度研究智能體正在迅速發(fā)展;然而,當使用通用的測試時縮放算法生成復雜、長篇的研究報告時,其性能往往會停滯不前。受人類研究迭代性質(zhì)的啟發(fā)——包括搜索、推理和修訂的循環(huán),我們提出了測試時擴散深度研究智能體(TTD-DR)。這個新穎的框架將研究報告生成概念化為一個擴散過程。TTD-DR以初步草稿啟動這一過程,該草稿是一個可更新的框架,作為指導研究方向的動態(tài)基礎。然后,草稿通過“去噪”過程進行迭代優(yōu)化,該過程由檢索機制動態(tài)提供信息,在每個步驟中整合外部信息。核心過程通過在智能體工作流的每個組件上應用自進化算法得到進一步增強,確保為擴散過程生成高質(zhì)量的上下文。這種以草稿為中心的設計使報告撰寫過程更及時、更連貫,同時減少迭代搜索過程中的信息丟失。我們證明,我們的TTD-DR在需要密集搜索和多跳推理的多種基準測試中取得了最先進的結(jié)果,顯著優(yōu)于現(xiàn)有的深度研究智能體。
研究貢獻
1. 提出測試時擴散深度研究智能體(TTD-DR)框架,首次將研究報告生成建模為擴散過程,模仿人類迭代研究行為,提升報告的及時性和連貫性。
2. 設計雙核心機制:
? 基于檢索的去噪:以初始草稿為“噪聲”起點,迭代通過檢索外部信息修訂草稿,動態(tài)引導研究方向。
? 組件級自進化:對工作流各環(huán)節(jié)(計劃、問題、答案等)生成多變體,通過環(huán)境反饋優(yōu)化并融合,減少信息丟失。
3. 僅依賴通用搜索工具即可實現(xiàn)高性能,無需整合專有工具(如多模態(tài)、網(wǎng)頁瀏覽),增強實用性。
4. 建立嚴格評估方法,結(jié)合人類標注與校準的LLM評判,驗證了TTD-DR在長文本報告和多跳推理任務中的優(yōu)勢。
實現(xiàn)設計
1.骨干深度研究智能體:三階段工作流
? 階段1(研究計劃生成):生成結(jié)構(gòu)化計劃,確定報告關(guān)鍵領(lǐng)域。
? 階段2(迭代搜索與合成):循環(huán)生成搜索問題→檢索并總結(jié)答案,直至覆蓋計劃。
? 階段3(最終報告生成):整合計劃和問答信息,生成完整報告。
2.組件級自進化:
? 生成多個初始輸出變體(如答案、問題),通過不同參數(shù)(溫度、top_k)擴展搜索空間。
? 基于LLM評判的環(huán)境反饋(評分+ critique)修訂變體,重復迭代。
? 交叉融合多變體,整合最優(yōu)信息形成高質(zhì)量輸出。
3.報告級基于檢索的去噪:
? 初始草稿作為“噪聲”輸入,結(jié)合用戶查詢和研究計劃生成。
? 迭代循環(huán):用當前草稿生成搜索問題→檢索信息→修訂草稿(補充新信息/驗證現(xiàn)有內(nèi)容)。
? 最終基于完整修訂歷史和檢索結(jié)果生成“去噪”報告。
實驗結(jié)果
1.性能超越現(xiàn)有系統(tǒng):在LongForm Research(勝率69.1%)、DeepConsult(勝率74.5%)等長文本任務中,顯著優(yōu)于OpenAI Deep Research、Perplexity等;在HLE-search(正確率33.9%)、GAIA(正確率69.1%)等多跳推理任務中,也高于對比系統(tǒng)。
2.消融研究驗證機制有效性:
? 僅骨干智能體性能優(yōu)于帶搜索的LLM,但不及OpenAI系統(tǒng)。
? 加入自進化后,長文本任務勝率提升至60%+,多跳任務正確率接近或超過OpenAI。
? 加入基于檢索的去噪后,所有任務性能進一步躍升,達到最佳結(jié)果。
3.效率優(yōu)勢:帕累托前沿分析顯示,TTD-DR在相同延遲下性能更優(yōu),且每增加單位延遲的性能提升幅度(斜率)高于其他系統(tǒng),驗證了測試時縮放的高效性。
1. 引言
在最近先進的大型語言模型的支持下,構(gòu)建深度研究(DR)智能體在研究和工業(yè)界都迅速受到關(guān)注。這些智能體展現(xiàn)出令人矚目的能力,包括生成新想法(Hu等人,2024;Si等人,2024)、通過搜索工具有效收集信息(Jin等人,2025;Li等人,2025a),以及在起草研究報告或論文之前執(zhí)行分析或?qū)嶒灒╕amada等人,2025;Zheng等人,2024)?,F(xiàn)有的深度研究智能體主要利用測試時縮放方法,如思維鏈(CoT)(Wei等人,2022)、n中選優(yōu)采樣(Ichihara等人,2025)、蒙特卡洛樹搜索(?wiechowski等人,2022)、辯論機制(Liang等人,2023)和自我優(yōu)化循環(huán)(Madaan等人,2023)。盡管取得了令人印象深刻的進展,但大多數(shù)流行的公共深度研究智能體(Alzubi等人,2025;Researcher,2025;Roucher等人,2025)在整合這些測試時算法和各種工具時,缺乏由人類寫作認知行為驅(qū)動的精心設計,并且通常缺乏賦予人類研究人員能力的有原則的草稿、搜索和反饋機制。這表明當前深度研究智能體工作存在根本性限制,并凸顯了需要一個更具凝聚力、專門為模仿或超越人類研究能力而構(gòu)建的深度研究智能體框架。

圖1 | 我們的方法受到人類自然寫作過程的啟發(fā),包括規(guī)劃、起草和對草稿的多次修訂。
先前的認知研究表明,當人類撰寫復雜主題時,他們不會遵循線性進程,即從第一個詞寫到最后一個詞。如圖1(Chitwood,2022)所示,人們通常首先制定一個高層次的計劃,然后根據(jù)該計劃起草研究報告,隨后進行多輪修訂(Flower和Hayes,1981)。關(guān)鍵的是,在修訂階段,作者經(jīng)常會查閱文獻或使用搜索工具來收集補充信息,以完善和強化他們的論點(Catalano,2013)。
我們觀察到這種人類寫作模式與結(jié)合檢索的擴散模型中的采樣過程(Zhang等人,2023)之間存在顯著相似性。打個比方,一個訓練有素的擴散模型最初生成一個帶噪聲的草稿,然后去噪模塊在檢索工具的幫助下,將這個草稿修訂為更高質(zhì)量(或更高分辨率)的輸出。受這種擴散采樣范式(Shen等人,2025;Yang等人,2022)的啟發(fā),我們?yōu)樯疃妊芯恐悄荏w提出了測試時擴散(TTD)。我們的框架將整個研究報告生成精心建模為一個迭代擴散過程,模仿人類的認知模式。由于 vanilla 擴散采樣在為復雜研究任務生成高質(zhì)量輸出方面可能效果不佳,我們專門設計了我們的TTD深度研究智能體,包含兩種機制,如圖2所示并詳細說明如下。
(a)基于檢索的去噪(Zhang等人,2023):主要基于大型語言模型內(nèi)部知識起草的初始研究報告經(jīng)過迭代優(yōu)化。去噪后的草稿與研究計劃(階段1)一起指導下游研究方向。每個去噪步驟都通過有針對性的外部信息檢索(階段2)得到增強,顯著提高了準確性和全面性。(b)自進化(Lee等人,2025;Novikov等人,2025):除了通過草稿進行報告級別的擴散外,智能體工作流中的每個單獨組件(例如,計劃、問題、答案和報告生成)都經(jīng)歷自己的優(yōu)化過程。這鼓勵探索多樣化的知識,減少每個單元智能體在漫長智能體軌跡中的信息丟失,從而為報告擴散提供更有利的上下文。這兩種算法的復雜相互作用和協(xié)同組合對于實現(xiàn)高質(zhì)量的研究成果至關(guān)重要。

圖2 | 我們的測試時擴散深度研究智能體(TTD-DR)框架示意圖,旨在通過草稿模仿人類研究的迭代性質(zhì)。用戶查詢同時啟動初步草稿和研究計劃。這個不斷演變的草稿與研究計劃一起,動態(tài)地為搜索問題的生成和后續(xù)的信息檢索提供指導,確保及時性和連貫性,同時減少信息丟失。然后,檢索到的信息被用于去噪和完善初始草稿,形成一個持續(xù)的反饋循環(huán)。整個工作流通過自進化算法進一步優(yōu)化,以提高研究計劃、生成的問題、答案和最終報告的質(zhì)量,展示了擴散和自進化在實現(xiàn)卓越研究成果方面的協(xié)同力量。
先前的工作主要集中在科學論文寫作智能體(Chen等人,2025;Gottweis等人,2025;Lu等人,2024;Tang等人,2025;Yamada等人,2025),特別強調(diào)生成學術(shù)出版物。最近,范圍已擴大到通用研究智能體(Li等人,2025b;Zheng等人,2025),旨在更廣泛的信息查找和推理用例。與這些現(xiàn)有努力相比,我們的工作引入了一種為更廣泛應用而設計的深度研究智能體。具體而言,我們開發(fā)了一個研究助手,能夠為不同行業(yè)領(lǐng)域(包括金融、生物醫(yī)學、娛樂和技術(shù))的復雜研究問題生成有用且全面的報告(Han等人,2024),類似于OpenAI(2025)、Perplexity(2025)和Grok(2025)提供的深度研究產(chǎn)品。我們的框架針對當前最先進的大型語言模型無法僅通過其內(nèi)部知識或傳統(tǒng)搜索工具完全解決的、需要大量搜索和推理的用戶查詢。我們總結(jié)了以下主要貢獻:
? 我們提出了測試時擴散深度研究智能體(TTD-DR),這是一種新穎的測試時擴散框架,能夠?qū)ρ芯繄蟾孢M行迭代起草和修訂,從而更及時、連貫地整合信息,同時減少研究過程中的信息丟失。
? 我們僅使用大多數(shù)智能體系統(tǒng)容易獲取的搜索工具對TTD-DR進行壓力測試,無需整合額外的專有工具(例如,多模態(tài)、網(wǎng)頁瀏覽)。
我們?yōu)樯疃妊芯恐悄荏w建立了嚴格的評估方法,采用全面的指標和專家評估員。我們的實驗表明,TTD-DR在需要撰寫長篇綜合研究報告或需要多跳搜索和推理以確定簡潔答案的任務中,顯著優(yōu)于各種領(lǐng)先的研究智能體。我們進行了全面的消融研究和深入分析,以闡明TTD-DR各組件的單獨貢獻,并證明其在超越領(lǐng)先深度研究智能體方面的有效性。
2. 測試時擴散深度研究智能體(TTD-DR)
我們的方法,即測試時擴散深度研究智能體(TTD-DR),受到人類研究迭代性質(zhì)的啟發(fā),包括規(guī)劃、起草、信息搜索和修訂的循環(huán)。我們將復雜研究報告的生成概念化為一個擴散過程,其中初始的、帶噪聲的草稿逐步優(yōu)化為高質(zhì)量的最終輸出。這通過兩個協(xié)同作用的核心機制實現(xiàn):(1)通過基于檢索的去噪進行報告級優(yōu)化,整個報告草稿在此過程中不斷演變;(2)通過自進化進行組件級優(yōu)化,提高研究工作流中每個步驟的質(zhì)量。
TTD-DR框架旨在解決現(xiàn)有深度研究智能體的局限性。如圖3所示,許多公共智能體,如Huggingface Open DR(Roucher等人,2025)、GPT研究智能體(Researcher,2025)和Open Deep Research(Alzubi等人,2025)采用線性或并行的規(guī)劃、搜索和生成過程。這可能導致全局上下文的丟失,并在研究過程中錯過關(guān)鍵的依賴關(guān)系。我們以草稿為中心的迭代方法保持了連貫性,并為研究方向提供了動態(tài)指導,減少了信息丟失。來自OpenAI(2025)、Perplexity(2025)和Grok(2025)的專有深度研究智能體在很大程度上仍然是黑箱。
2.1. 骨干深度研究智能體
圖4展示了我們的骨干深度研究智能體,它由三個主要階段組成,包含智能體框架的幾個關(guān)鍵組件:單元大型語言模型智能體、工作流和智能體狀態(tài)。我們詳細解釋如下。

圖3 | 我們的方法與其他開源深度研究智能體的比較。(a)Huggingface Open DR(Roucher等人,2025)利用輕量級規(guī)劃器確定后續(xù)行動,例如調(diào)用搜索或瀏覽工具,并重復這些行動直到找到答案。(b)GPT研究智能體(Researcher,2025)也采用輕量級規(guī)劃器并行生成和執(zhí)行多個搜索查詢,然后由生成器將檢索到的文檔合成為報告。(c)Open Deep Research(Research,2025)使用規(guī)劃器概述最終報告的結(jié)構(gòu),然后為每個部分單獨進行迭代研究,之后再將它們組合起來。(d)我們的TTD-DR引入了草稿去噪機制。與Open Deep Research不同,TTD-DR避免為每個部分進行單獨搜索以保持全局上下文,并使用基于RAG的答案生成器處理檢索到的文檔,然后將其保存用于最終報告生成。

圖4 | 我們的骨干深度研究智能體按上述三個階段運行。階段1生成詳細的研究計劃,概述最終報告的結(jié)構(gòu)并指導信息搜索。階段2迭代生成搜索問題(2a),然后使用類RAG系統(tǒng)從檢索到的文檔中合成精確的答案(2b),而不是保存原始數(shù)據(jù)。最后,階段3綜合所有收集到的信息以生成最終報告。每個階段都可以使用第2.2節(jié)詳細介紹的自進化算法進行單獨優(yōu)化。
階段1:研究計劃生成是一個專用的單元大型語言模型智能體,在收到用戶查詢后生成結(jié)構(gòu)化的研究計劃。該計劃概述了最終報告所需的一系列關(guān)鍵領(lǐng)域,作為指導后續(xù)信息收集過程的初始框架。一旦生成研究計劃,它將被保存在智能體階段中,然后傳輸給其子智能體。
階段2:迭代搜索與合成是嵌套在其父級順序工作流中的循環(huán)工作流。它包含兩個子智能體:搜索問題生成(階段2a)根據(jù)研究計劃、用戶查詢和先前搜索迭代的上下文(即過去的問題和答案)制定搜索查詢。答案搜索(階段2b)搜索可用來源(如谷歌搜索)以找到相關(guān)文檔并返回總結(jié)的答案。這個循環(huán)(階段2a→階段2b)持續(xù)進行,直到研究計劃得到充分覆蓋或達到最大迭代次數(shù)。
階段3:最終報告生成是其父級順序工作流(階段2→階段3)中的一個單元大型語言模型智能體,通過綜合所有收集到的結(jié)構(gòu)化信息——階段1的計劃和階段2的一系列問答對,生成全面且連貫的最終報告。
2.2. 組件級自進化
上面介紹的骨干深度研究智能體確定了整體研究方向(階段1),并為最終報告撰寫(階段3)提供了上下文和信息(階段2)。我們增強每個階段智能體的性能,以找到并保留高質(zhì)量的上下文。為實現(xiàn)這一目標,我們利用自進化算法來改進每個階段的智能體。圖5展示了我們提出的算法,其靈感來自最近的自進化工作(Lee等人,2025;Novikov等人,2025)。這里我們以搜索答案生成為例,但該算法可以應用于所有階段智能體,如計劃生成、搜索問題甚至最終報告生成,以提高它們的輸出質(zhì)量。該算法在并行工作流中實現(xiàn),包含以下順序和循環(huán)工作流。
1.初始狀態(tài):最左側(cè)的塊生成多個不同的輸出變體(例如,一個搜索查詢的幾個可能答案),這些變體以先前階段的輸出為條件。每個塊由一個單元大型語言模型智能體實現(xiàn),允許使用不同的參數(shù)(例如,溫度、top_k)采樣多個答案,以探索更大的搜索空間。理想情況下,這會導致發(fā)現(xiàn)潛在更有價值的信息。
2.環(huán)境反饋:每個答案變體都由作為評判者的大型語言模型進行評估,利用自動評分器評估諸如有用性和全面性等指標。這些評分器不僅提供適應度分數(shù),還生成有助于改進答案的文本評論。
3.修訂步驟:根據(jù)上一步的分數(shù)和反饋,每個變體進行修訂步驟,以朝著更好的適應度分數(shù)調(diào)整?!碍h(huán)境反饋”和“修訂”步驟重復進行,直到滿足停止標準,形成一個循環(huán)工作流。
4.交叉融合:最后,多個修訂后的變體被合并為一個高質(zhì)量的輸出。這個合并過程整合了所有進化路徑中的最佳信息,為主要報告生成過程提供了更優(yōu)的上下文。合并提示可以在附錄A.5中找到。

圖5 | 應用于搜索答案(圖4中的階段2b)的組件級自進化示意圖。該過程從初始答案的多個變體開始。每個變體然后經(jīng)歷一個自進化階段,首先與環(huán)境交互以獲得適應度分數(shù)和反饋。然后根據(jù)反饋進行修訂。這個過程重復直到達到最大迭代次數(shù)。最后,來自所有階段的多個修訂變體被合并以產(chǎn)生最終答案。
雖然自進化提高了每個組件輸出的質(zhì)量,但這些信息要到搜索過程完成后才會整合到最終報告中。這種延遲促使我們采用第二種機制,即基于檢索的去噪,它更及時、連貫地整合智能體的發(fā)現(xiàn),以有效指導研究方向。
2.3. 報告級基于檢索的去噪
受擴散模型中采樣過程的啟發(fā),即帶噪聲的圖像被迭代優(yōu)化,我們提示大型語言模型根據(jù)用戶的查詢生成初始草稿報告。如圖2所示,該草稿作為“帶噪聲”的起點。然而,正如先前工作所指出的,讓模型在沒有外部上下文的情況下對自己的輸出進行去噪可能導致收斂緩慢和次優(yōu)結(jié)果(Shen等人,2025;Yoon等人,2025;Zhang等人,2023)。對于需要來自搜索工具的外部信息來改進草稿的復雜研究查詢,情況尤其如此。這一觀察促使我們設計與第2.1節(jié)介紹的骨干深度研究工作流直接相連的檢索增強去噪過程。
具體而言,如算法1所示,我們將當前草稿報告輸入到骨干深度研究工作流的階段2a,以指導下一個搜索查詢的生成(第2行)。在階段2b獲得合成答案后(第4行),新信息被用于修訂報告草稿, either by adding new details or by verifying existing information(第6行)。這個將去噪后的報告反饋回來生成下一個搜索查詢的過程在一個連續(xù)的循環(huán)中重復。草稿逐步“去噪”,直到搜索過程結(jié)束,此時最終智能體根據(jù)所有歷史搜索答案和修訂生成最終報告(階段3)。
算法1 基于檢索的去噪
輸入:??,M,P,R0,Q,A ?查詢,所有智能體,計劃,初始帶噪聲草稿,搜索問題和答案的歷史
1: for ??∈{1,...,??} do ???:最大修訂步驟數(shù)
2: ????= MQ (??, P, R???1, Q, A) ?生成下一個問題以解決R??中的差距
3: ?????Q
4: ????= MA (????) ?檢索外部信息以提供具體的去噪增量
5: ?????A
6: R??= MR (??, R???1, Q, A) ?從先前的草稿中去除“噪聲”(不精確性、不完整性)
7: if exit_loop then
8: break ?如果調(diào)用exit_loop,則停止修訂
9: end if
10: end for總之,這個連續(xù)的反饋循環(huán)——不斷演變的草稿指導搜索,而搜索又完善草稿——確保報告保持連貫,研究不偏離軌道。最終的“去噪”報告在搜索過程結(jié)束后生成,基于所有修訂和檢索到的答案的完整歷史。組件級自進化和報告級擴散過程之間的協(xié)同作用至關(guān)重要,使TTD-DR能夠取得最先進的結(jié)果。
3. 實驗設置
為了嚴格評估我們的測試時擴散深度研究智能體(TTD-DR),我們建立了一個全面的實驗框架。本節(jié)詳細介紹了評估指標、用于基準測試的數(shù)據(jù)集以及我們實現(xiàn)的細節(jié)。
3.1. 評估指標
我們的深度研究智能體本質(zhì)上是一個復雜的多智能體系統(tǒng)。該系統(tǒng)的每個階段生成冗長的響應,最終智能體將這些響應連貫地組合起來,為用戶生成全面的報告。
評估長篇大型語言模型響應和復雜的智能體軌跡面臨重大挑戰(zhàn),因為需要驗證的事實數(shù)量龐大,長期邏輯依賴關(guān)系復雜,以及大型語言模型和人類評判者固有的主觀性(Han等人,2024;Li等人,2024;Si等人,2024)。為了確保我們評估員的質(zhì)量和效率,我們收集高質(zhì)量的人類判斷注釋,校準與人類偏好一致的作為評判者的大型語言模型,并使用校準后的作為評判者的大型語言模型作為最終評估員。我們在下面提供評估指標的更多細節(jié)。
? 有用性和全面性是評估長篇大型語言模型響應(特別是研究輸出)最常用的兩個指標(Coelho等人,2025;Lim等人,2025;Schmidgall等人,2025)。因此,我們采用這兩個指標,并基于它們構(gòu)建一個新的并排質(zhì)量比較框架。有用性由四個標準定義:1)滿足用戶意圖,2)易于理解(流暢性和連貫性),3)準確性,4)適當?shù)恼Z言。全面性定義為沒有缺失關(guān)鍵信息。如有需要,允許通過網(wǎng)絡搜索更好地理解查詢。確定報告有用性和全面性水平的指南可以在附錄A.1中找到。
并排質(zhì)量比較(也稱為成對評估)是評估長篇大型語言模型響應的廣泛采用的方法(Han等人,2024;Li等人,2024;Liu等人,2024;Si等人,2024)。評估員被要求在考慮有用性和全面性的情況下,在兩個報告(A和B)之間表達偏好,使用以下量表:1)好得多,如果A既比B更有用又更全面;2)更好,如果A比B更有用且與B同樣全面,或者A比B更全面且與B同樣有用;3)稍好,如果A更有用但不如B全面;否則,選擇4)大致相同,如果上述條件都不滿足。當B比A好時,邏輯相同。我們定制的人類注釋界面可以在附錄A.2中找到。每對都進行兩次評分,以計算人類評估員之間的一致性。然后,我們部署一個具有相同人類指令的作為評判者的大型語言模型,以與人類評分保持一致。我們在下一小節(jié)中討論更多校準細節(jié)。
正確性用于我們的多跳短篇問答任務(Phan等人,2025)。對于此類任務,我們可以簡單地提示大型語言模型將我們智能體產(chǎn)生的長篇答案與給定的 ground-truth 進行比較。我們遵循標準評估提示1,首先從大型語言模型的響應中提取單個答案,然后將提取的答案與 ground-truth 進行比較。
3.2. 作為評判者的大型語言模型校準
由于LongForm Research和DeepConsult基準中沒有長篇響應的 ground truth,進行可擴展評估的常見做法是利用作為評判者的大型語言模型(Coelho等人,2025;Han等人,2024;Lim等人,2025;Schmidgall等人,2025;Si等人,2024)。然而,大多數(shù)先前的深度研究智能體工作沒有專門將作為評判者的大型語言模型的質(zhì)量與人類評估員進行校準,這引發(fā)了對自動評估器可靠性的質(zhì)疑。
相比之下,我們通過將我們深度研究智能體的200份報告與OpenAI深度研究的報告進行比較,使作為評判者的大型語言模型與人類評分保持一致。然后,我們使用與人類評估中相同的評估提示進行并排比較,然后計算自動評分器與人類評估員之間的一致性分數(shù)。附錄A.3中的表3提供了關(guān)于我們選擇Gemini-1.5-pro作為作為評判者的大型語言模型的詳細信息和結(jié)果。
對于用于評估HLE和GAIA數(shù)據(jù)集的正確性自動評分器,我們沒有將其與人類評分進行校準。這是因為這些任務存在官方評估提示,并且我們通過遵循原始提示與研究界保持一致。此外,這兩個基準中的所有答案都有明確的 ground-truth 答案,簡化了大型語言模型響應正確性的判斷。因此,我們使用Gemini-1.5-pro作為評估模型,無需對這些特定任務進行進一步的人類校準。
3.3. 數(shù)據(jù)
我們選擇的基準側(cè)重于兩個廣泛的任務。1)需要研究智能體生成長篇綜合報告的復雜查詢(LongForm Research和DeepConsult)2)需要廣泛搜索和推理才能回答的多跳查詢(HLE和GAIA)。這兩個類別都符合我們構(gòu)建通用、現(xiàn)實世界研究助手的目標,類似于OpenAI深度研究(OpenAI,2025)和Perplexity深度研究(Perplexity,2025)。值得注意的是,這兩個任務可能需要多達20個搜索步驟(跳)才能完全解決用戶查詢,如附錄中的圖7a和12a所示。如果不需要廣泛搜索(例如,只需要幾個搜索步驟),其他數(shù)據(jù)集則不在本工作的范圍內(nèi),例如長篇RAG-QA(Han等人,2024;Stelmakh等人,2022)和短篇多跳QA(Trivedi等人,2022;Yang等人,2018)。這也適用于不針對通用研究報告生成的數(shù)據(jù)集,例如AI-Researcher(Tang等人,2025)。此外,我們專注于搜索工具的使用,將其他工具(如瀏覽和編碼)的整合推遲到未來的工作中。
LongForm Research。為了將我們的深度研究智能體系統(tǒng)與其他基線進行基準測試,我們首先精心挑選了一組需要搜索和復雜推理的授權(quán)現(xiàn)實世界查詢。這個數(shù)據(jù)集最能代表我們的目標用例,即用戶需要深入研究以創(chuàng)建有用且全面的報告。這個評估集包含205個查詢,涵蓋多個行業(yè)領(lǐng)域,如圖6所示。

圖6 | 評估集的查詢領(lǐng)域分布:LongForm Research(左)和HLE-search(右),均展示了多樣化的領(lǐng)域覆蓋。
DeepConsult(Lim等人,2025)是一組用于深度研究的商業(yè)和咨詢相關(guān)提示。查詢集涵蓋廣泛的主題,包括營銷、金融、技術(shù)趨勢和商業(yè)規(guī)劃。
人類終極考試(HLE)(Phan等人,2025)是一個包含2500個極具挑戰(zhàn)性的問題的基準,涉及數(shù)十個學科領(lǐng)域,旨在作為廣泛學術(shù)能力的最終封閉式基準。我們專注于純文本子集,將多模態(tài)留待未來研究。我們將這個數(shù)據(jù)集命名為HLE-full。
HLE-search。HLE數(shù)據(jù)集中的大量查詢不需要廣泛搜索即可解決。為了更好地基準測試我們的搜索與推理目標用例,我們從HLE中識別出最需要搜索能力的查詢。具體而言,我們提示Gemini-1.5-pro模型將所有查詢分為[a]純推理和[b]需要搜索兩類。使用的提示可以在附錄A.4中找到。最后,我們從[b]類中隨機抽樣200個查詢。如表2所示,大型語言模型在這個精心挑選的子集上的性能明顯低于完整集合。其問題領(lǐng)域分布也可以在圖6中找到。因此,我們認為HLE-search作為我們研究重點的基準更為合適。
表1 | 在本表中,我們展示了TTD-DR在LongForm Research、DeepConsult、HLE和GAIA數(shù)據(jù)集上與不同基線系統(tǒng)的性能比較。勝率(%)是基于OpenAI深度研究計算的。正確性是通過系統(tǒng)預測與參考答案的匹配度計算的。對于HLE-full上的Grok DeeperSearch,沒有提供公開數(shù)據(jù),并且由于研究預算和Grok DeeperSearch的每日抓取限制,我們無法抓取全部2000個查詢。
LongForm Research 勝率 | DeepConsult 勝率 | HLE-Search 正確率 | HLE-Full 正確率 | GAIA 正確率 | |
OpenAI 深度研究 | - | - | 29.1 | 26.6 | 67.4 |
Perplexity 深度研究 | 21.8 | 32.0 | 14.5 | 21.1 | 54.5 |
Grok 深度搜索 | 16.1 | 16.0 | 19.3 | - | 47.9 |
GPT-研究智能體 | 18.3 | 9.4 | 2.0 | 4.1 | 37.7 |
Open 深度搜索 | 2.6 | 2.2 | 3.0 | 0.4 | 20.9 |
TTD-DR(我們的) | 69.1 | 74.5 | 33.9 | 34.3 | 69.1 |
GAIA(Mialon等人,2023)是另一個評估人工智能處理現(xiàn)實世界問題的公共基準,包含三個難度級別的問題。完成這些任務需要推理、多模態(tài)流暢性、網(wǎng)頁瀏覽和工具使用能力等。我們使用評估集與其他基線進行比較。
3.4. 實現(xiàn)細節(jié)
智能體框架。為了實現(xiàn)我們的TTD-DR,我們需要一個模塊化且易于擴展的智能體系統(tǒng),能夠利用領(lǐng)先的大型語言模型(如Gemini-2.5-pro)無縫編排工作流、調(diào)用工具和執(zhí)行任務。谷歌智能體開發(fā)工具包(ADK)2是最近發(fā)布的智能體開發(fā)平臺,滿足所有這些要求。第2節(jié)中描述的所有組件都可以使用ADK輕松實現(xiàn)。因此,我們選擇基于ADK構(gòu)建我們的深度研究智能體。
我們將最大基于檢索的去噪步驟固定為20。自進化算法的其他超參數(shù)可以在附錄A.6中找到。我們使用谷歌搜索3的基礎來實現(xiàn)階段2b中的RAG系統(tǒng)。
3.5. 對比系統(tǒng)
我們將我們的RA系統(tǒng)與市場上領(lǐng)先的RA智能體進行比較:OpenAI深度研究(OpenAI,2025)、Perplexity深度研究(Perplexity,2025)、Grok深度搜索(Grok,2025)、Open深度搜索(Alzubi等人,2025)和GPT-研究智能體(Researcher,2025)。對于不支持API的深度研究智能體,我們手動抓取并保存它們的原始輸出。

圖7 | LongForm Research的深度研究智能體性能與延遲之間的帕累托前沿。左:從左到右的點表示增加更多搜索/修訂步驟,最多20步,這表明在相似的延遲下,我們的性能優(yōu)于或與其他深度研究智能體相當。右:從左到右的點表示1)帶搜索工具的Gemini-2.5-pro,2)骨干深度研究智能體,3)+自進化和4)+基于檢索的擴散,這表明我們的最終算法在測試時縮放方面效率最高(斜率最陡)。
在消融研究中,我們與基線大型語言模型Gemini-2.5-pro和Gemini-2.5-flash以及它們包含簡單搜索工具(簡單RAG)的變體進行比較。對于我們的深度研究智能體,我們比較以下內(nèi)容。1)骨干深度研究智能體是我們的骨干深度研究智能體,沒有任何測試時縮放算法。2)+自進化和3)+基于檢索的去噪是兩個通過我們提出的測試時縮放算法增強的深度研究智能體變體。我們的深度研究智能體使用Gemini-2.5-pro作為基礎模型。所有其他基線智能體使用它們的默認大型語言模型(例如,OpenAI深度研究使用o3)。
4. 結(jié)果與分析
4.1. 主要結(jié)果
表1展示了我們的TTD-DR與其他深度研究系統(tǒng)的性能比較。我們的TTD-DR在所有基準測試中始終取得優(yōu)異結(jié)果。具體而言,與OpenAI深度研究相比,我們的方法在兩個長篇研究報告生成任務的并排比較中分別達到69.1%和74.5%的勝率。此外,在三個需要廣泛研究的短篇 ground-truth 答案數(shù)據(jù)集上,它分別比OpenAI深度研究高出4.8%、7.7%和1.7%。圖8進一步展示了兩個長篇研究任務的有用性和全面性自動評分器分數(shù),其中我們的TTD-DR也超過了OpenAI深度研究,特別是在LongForm Research數(shù)據(jù)集上。

表2顯示了我們深度研究智能體的消融研究。顯然,即使是具有強大推理能力的最先進大型語言模型,如Gemini-2.5-flash和Gemini-2.5-pro,在沒有任何搜索工具的情況下性能也很差。例如,在精心挑選的HLE-Search數(shù)據(jù)集上,盡管Gemini-2.5-pro在完整的HLE集合上表現(xiàn)相對較好(20.9%),但準確率僅為8.6%。當配備搜索工具時,兩個基礎大型語言模型的性能都顯著提高,盡管它們的結(jié)果仍然遠低于OpenAI深度研究。
現(xiàn)在,考察三個智能體深度研究智能體,基本深度研究智能體比帶搜索工具的大型語言模型有顯著改進,但仍然不如OpenAI深度研究。通過添加提出的自進化算法,我們觀察到在LongForm Research和DeepConsult上,我們的系統(tǒng)分別以60.9%和59.8%的勝率超過OpenAI深度研究。在兩個HLE數(shù)據(jù)集上的正確率也比OpenAI深度研究分別提高了1.5%和2.8%,盡管我們在GAIA上仍然落后4.4%。最后,整合基于檢索的擴散在所有基準測試中都比OpenAI深度研究有顯著提升。
此外,我們繪制了我們系統(tǒng)的帕累托前沿,以研究延遲和性能之間的權(quán)衡。在圖7b中,x軸表示秒的log10。左y軸顯示我們的TTD-DR在LongForm Research上相對于OpenAI深度研究的勝率。從左到右的數(shù)據(jù)點分別表示帶搜索工具的Gemini-2.5-pro、DR-Agent-Base、+自進化和+基于檢索的擴散,延遲逐漸增加。凸形,特別是最后兩個點的上升趨勢斜率,表明我們提出的兩種算法每單位延遲增加提供了更多的性能提升。這表明基于檢索的去噪和自進化都是高效的測試時縮放算法。

圖8 | OpenAI深度研究與我們的TTD-DR在LongForm Research(左)和DeepConsult(右)基準上的單方面評估指標比較。TTD-DR的報告往往比其他深度研究智能體更有用和更全面。
4.2. 分析
本節(jié)更深入地理解我們提出的兩種方法如何為深度研究智能體的改進做出貢獻。
自進化相對于骨干深度研究的改進。圖9顯示了DeepConsult上搜索查詢和答案的累積復雜性比較。復雜性通過大型語言模型(Gemini-2.5-pro)提取的關(guān)鍵點來衡量。我們觀察到自進化顯著增加了搜索過程的復雜性,這豐富了收集到的信息,從而提高了最終報告的質(zhì)量。
我們的最終擴散算法允許修訂和保存中間報告,使我們能夠評估報告質(zhì)量的逐步提升,如圖7a所示。隨著我們通過增加更多搜索和修訂步驟來增加計算資源,我們相對于OpenAI深度研究取得了越來越顯著的收益。HLE-Search的結(jié)果可以在附錄A.11中找到。接下來,我們旨在理解在自進化算法的基礎上,基于檢索的去噪算法對這些改進的貢獻。

圖9 | 階段2生成的搜索問題(左)和答案(右)的復雜性,由大型語言模型使用附錄中的提示A.7和A.8提取的關(guān)鍵點數(shù)表示。自進化鼓勵搜索問題和答案的多樣性,這增強了可用信息的豐富性,從而解釋了最終質(zhì)量的改進。
基于檢索的去噪相對于自進化的改進。圖10a顯示了DeepConsult上的累積搜索查詢新穎性比較。新穎性通過生成的累積新點數(shù)的百分比來衡量(由Gemini-2.5-pro使用提示A.9提取)。我們可以觀察到,通過將修訂后的報告用于指導新查詢的探索,基于檢索的去噪在整個搜索和修訂過程中將查詢新穎性提高了超過12個百分點。在圖10b中,我們展示了早期搜索和修訂步驟中報告在答案中的歸因(使用Gemini-2.5-pro和提示A.10計算)。值得注意的是,在步驟9,基于檢索的去噪已經(jīng)整合了最終報告信息的51.2%,并且在勝率上比自進化(20個搜索步驟)高出4.2%(圖10c中的最后一點)。這些結(jié)果表明,基于檢索的去噪有效地利用了早期階段的信息,導致在智能體學習最有效的時候及時保存知識,如圖7a所示。

圖10 | 基于檢索的去噪與自進化算法之間的比較。(a):階段2生成的搜索查詢中累積新點的百分比(提示A.9),這表明基于檢索的去噪算法指導生成更多未探索的搜索查詢。(b):最終報告在階段2搜索答案中的累積信息歸因(提示A.10),這表明我們的最終方法在早期搜索階段及時整合了信息。(c)顯示了基于檢索的去噪早期步驟與具有20個步驟的自進化之間的性能差距。僅用9個步驟,基于檢索的去噪已經(jīng)整合了最終報告信息的51.2%,并且在勝率上比具有20個步驟的自進化高出4.2%。
5. 相關(guān)工作
我們回顧了啟發(fā)我們深度研究智能體的相關(guān)工作。
測試時計算縮放。Baek等人(2024);Lu等人(2024);Zheng等人(2024)是早期利用搜索工具和測試時迭代優(yōu)化算法構(gòu)建研究助手/科學家智能體的努力。最近,Gottweis等人(2025)提出了一種用于生物醫(yī)學研究的AI合作科學家智能體,整合了測試時算法,如辯論機制以生成新想法、錦標賽以比較和排名研究假設以及自我批判以完善研究提案。Schmidgall等人(2025)構(gòu)建了一個端到端的科學論文寫作智能體,在其智能體工作流的每個階段都具有自我反思能力。值得注意的是,他們啟用了一個副駕駛模式,人類可以介入并提供反饋,這被證明可以提高整體論文質(zhì)量。Yamada等人(2025)設計了一個機器學習研究智能體,通過整合樹搜索推理算法,能夠撰寫被ICLR研討會接受的完整研究論文。Tang等人(2025)提出了一種多智能體系統(tǒng),能夠回顧文獻、生成新想法、發(fā)明新算法、進行實驗并起草可發(fā)表的論文。類似地,DeerFlow(2025)利用一個包含規(guī)劃器、協(xié)調(diào)器、研究員和報告員的多智能體系統(tǒng),對通用用戶查詢產(chǎn)生全面的響應。
在測試時算法中,自進化(Lee等人,2025;Novikov等人,2025;Qiu等人,2025)最近成為設計包括深度研究在內(nèi)的各種智能體系統(tǒng)的流行框架。我們的自進化算法與這種方法有共同的精神,特別是在其進行多次自我批判和自我完善的能力方面。然而,TTD-DR與自進化的不同之處在于:1)我們的框架從根本上由人類認知行為驅(qū)動,并且我們利用檢索增強擴散過程與人類寫作過程之間的共性來開發(fā)我們的測試時擴散深度研究;2)自進化改進了各個智能體,以提供高質(zhì)量的上下文信息來輔助主要的去噪算法。先前的工作中沒有明確建模人類認知行為以及自進化與基于檢索的去噪之間的相互作用。
智能體調(diào)優(yōu)。最近的一些工作探索通過訓練改進深度研究智能體。早期工作專注于構(gòu)建能夠進行深度搜索和推理的智能體RAG系統(tǒng)。Guan等人(2024)提出了一種多任務學習目標,結(jié)合組件級SFT數(shù)據(jù)和模型反饋,聯(lián)合訓練其智能體RAG系統(tǒng)中的每個模塊。Jin等人(2025)將搜索行動和大型語言模型最終響應轉(zhuǎn)換為單個序列輸入,并使用最終響應獎勵端到端訓練RAG系統(tǒng)。最近,Li等人(2025b)、Zheng等人(2025)、Shi等人(2025)和Kimi-Researcher(2025)利用強化學習訓練研究助手智能體,使其能夠利用搜索和瀏覽工具收集信息并撰寫報告。在我們的工作中,我們專注于測試時計算,并將智能體調(diào)優(yōu)留待未來工作。
大型語言模型擴散模型。傳統(tǒng)的大型語言模型訓練范式利用自回歸目標來訓練模型和采樣輸出。大型語言模型擴散模型試圖通過打破從第一個標記到最后一個標記采樣的假設來提高最先進大型語言模型的可擴展性。大型語言模型擴散模型經(jīng)過訓練,首先生成完整的“帶噪聲”草稿,然后它們迭代地將多個標記去噪為完整的高質(zhì)量草稿(Gemini,2025;Nie等人,2025;Yang等人,2022)。由于高度可并行化的生成處理,這一工作線有潛力在保持質(zhì)量的同時實現(xiàn)更高的效率。我們的工作受到大型語言模型擴散模型的啟發(fā),在測試時報告撰寫中引入去噪機制,但與它們不同的是,我們不訓練我們的智能體;相反,我們假設大型語言模型智能體經(jīng)過精心設計以執(zhí)行去噪任務。
6. 結(jié)論
具有測試時擴散能力的深度研究智能體(TTD-DR)是一種新穎的研究報告生成框架,受人類研究迭代性質(zhì)的啟發(fā)。該智能體通過將報告生成概念化為擴散過程,解決了現(xiàn)有深度研究智能體的局限性。TTD-DR以初步草稿啟動,該草稿是一個可更新的框架,指導研究方向。然后,該草稿通過“去噪”過程進行迭代優(yōu)化,該過程由檢索機制動態(tài)提供信息,在每個步驟中整合外部信息。核心過程通過在智能體工作流的每個組件上應用自進化算法得到進一步增強,確保為擴散過程生成高質(zhì)量的上下文。
TTD-DR框架在各種需要密集搜索和多跳推理的基準測試中取得了最先進的結(jié)果,顯著優(yōu)于現(xiàn)有的深度研究智能體。它在生成綜合長篇研究報告和為多跳搜索和推理任務確定簡潔答案方面表現(xiàn)出卓越的性能。該框架以草稿為中心的設計指導報告撰寫過程更及時、更連貫,同時減少迭代搜索過程中的信息丟失。
參考資料
? 標題:Deep Researcher with Test-Time Diffusion
? 作者:Rujun Han*, Yanfei Chen*, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Ma?tre, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee
? 單位:1Google Cloud AI Research, 2Google Cloud
? 標簽:深度研究智能體、大型語言模型(LLMs)、測試時擴散、自進化、檢索增強、自然語言處理、多跳推理
? 概述:本文提出了 Test-Time Diffusion Deep Researcher (TTD-DR) 框架,將研究報告生成視為擴散過程,通過基于檢索的去噪和組件級自進化模仿人類迭代研究行為,在多個復雜研究任務基準上超越現(xiàn)有方法。
? 鏈接:https://arxiv.org/pdf/2507.16075
本文轉(zhuǎn)載自????????旺知識??,作者:旺知識


















