揭秘Fathom-DeepResearch:4B小模型如何實現媲美GPT-4o的深度研究能力
揭秘Fathom-DeepResearch:讓小模型也能做深度研究的秘密武器

- 論文鏈接:https://arxiv.org/pdf/2509.24107v1
- 代碼鏈接:https://github.com/FractalAIResearchLabs/Fathom-DeepResearch
一、研究背景:為什么我們需要更聰明的搜索助手?
想象一下,你想了解一個復雜的問題,比如"某個體育賽事的歷史背景和相關人物",你會怎么做?可能需要在搜索引擎上反復查詢,打開無數網頁,然后自己整理信息?,F在的大語言模型雖然很聰明,但在處理這類需要深度調研的任務時,還是有點力不從心。
這篇論文要解決的核心問題就是:如何讓小型語言模型(只有40億參數)也能像人類研究員一樣,通過聯網搜索、多輪推理,最終生成一份詳實的研究報告?
目前的開源系統(tǒng)面臨幾個痛點:
- 訓練數據不夠硬核:現有的數據集(如TriviaQA)問題太簡單,模型甚至不用搜索就能答對
- 工具調用不穩(wěn)定:模型在多輪搜索中容易"失控",要么重復調用同一個搜索,要么亂調用
- 缺乏綜合能力:大多數系統(tǒng)只擅長回答封閉式問題(有標準答案的),但對開放式探索性問題(需要綜合多方信息)表現不佳
圖片
作者的核心貢獻可以概括為三個關鍵創(chuàng)新:
- DuetQA數據集:通過多智能體自我對弈生成了5000個高質量問答對,每個問題都必須通過實時搜索才能回答(不能靠模型的記憶蒙混過關)
- RAPO算法(獎勵感知策略優(yōu)化):這是對現有強化學習算法GRPO的改進,解決了多輪工具調用時訓練不穩(wěn)定的問題,讓模型能穩(wěn)定地進行超過20次工具調用
- 可控的步驟級獎勵機制:不僅獎勵"答對了",還細致地評估每一步搜索是否有價值——是探索新信息還是在重復無用功,從而引導模型形成更高效的搜索策略
二、相關工作:站在巨人的肩膀上
論文梳理了當前深度搜索領域的幾類工作:
閉源商業(yè)系統(tǒng)
如OpenAI的DeepResearch、Google的Gemini等,表現強勁但不開源,普通研究者無法復現和改進。
開源嘗試
包括WebSailor、Jan-Nano、ZeroSearch等模型,雖然做出了努力,但在復雜任務上與閉源系統(tǒng)還有明顯差距。這些系統(tǒng)普遍存在的問題是:
- 訓練數據質量不高,很多問題可以通過簡單的一兩次搜索解決
- 強化學習訓練不穩(wěn)定,模型容易學壞(比如瘋狂重復調用工具但不產生有用結果)
- 缺乏對長鏈推理的有效控制機制
現有數據集的局限
像HotpotQA、2WIKI這類多跳問答數據集,雖然標榜"多跳推理",但實際上很多問題可以通過模型的內部知識直接回答,或者只需要訪問維基百科就夠了。真實世界的搜索場景要復雜得多——信息分散在各種網站上,存在噪音,需要交叉驗證。
圖片
三、核心方法:兩階段訓練+智能獎勵設計
Fathom-DeepResearch系統(tǒng)由兩個核心模型組成:
3.1 Fathom-Search-4B:會搜索的推理模型
這個模型的任務是像偵探一樣在互聯網上尋找證據。它有兩個工具:
- search_urls(網頁搜索):輸入查詢詞,返回相關網頁列表及摘要
- query_url(定向提?。?/span>:打開某個網頁,根據特定目標提取有用信息
訓練分兩個階段進行:
Stage 1:學會基本的搜索能力
在DuetQA數據集上訓練10個epoch,使用RAPO算法。這個階段的重點是讓模型學會:
- 正確使用工具(格式規(guī)范)
- 能夠通過搜索找到答案
- 避免訓練崩潰(GRPO容易出現的問題)
訓練目標函數結合了格式獎勵和答案準確性:

Stage 2:學會高效的長鏈推理
繼續(xù)訓練2個epoch,但這次使用了可控的步驟級獎勵。這個階段的數據混合了DuetQA、數學推理數據和MuSiQue多跳問答。
關鍵創(chuàng)新在于獎勵函數的設計。系統(tǒng)會用GPT-4.1給每個工具調用打標簽:
對于search_urls:
- UNIQUESEARCH(探索新信息):搜索之前沒見過的實體或事實
- REDUNDANTSEARCH(重復搜索):和之前的查詢高度相似
對于query_url:
- EXPLORATION(探索):第一次訪問某個網頁
- VERIFICATION(驗證):交叉驗證已有信息(允許有限次數)
- REDUNDANTQUERY(冗余查詢):超過驗證次數限制的重復查詢
基于這些標簽,獎勵函數變成:

3.2 RAPO:讓訓練不再崩潰的秘密

回放緩沖:為每個問題維護一個"最佳答案庫"。如果某次訓練所有嘗試都失敗了,就從庫里抽一個成功案例混進去,避免方差歸零。
圖片
從圖中可以看到,GRPO的熵值和梯度范數快速下降(意味著模型失去探索能力),而RAPO能保持穩(wěn)定的訓練信號。
3.3 Fathom-Synthesizer-4B:會寫報告的綜合模型
第二個模型的任務是把搜索軌跡變成一份可讀的研究報告。它采用"先規(guī)劃后撰寫"的策略:
規(guī)劃階段(在標簽內,用戶看不到):
- 問題分解:把大問題拆成若干子問題
- 證據映射:將搜索到的每個網址和內容對應到相關章節(jié)
- 洞察策略:規(guī)劃如何從證據中提煉觀點
撰寫階段(生成實際報告):
- 執(zhí)行摘要:總覽全文
- 主體章節(jié):按照分解的子問題組織,每個關鍵論斷都標注引用來源
- 引用列表:列出所有引用的網址
訓練數據(DeepResearch-SFT)從GPT-5蒸餾而來,包含2500個開放式問題及其完整的規(guī)劃+報告對。為了處理長文本,使用YaRN技術將Qwen3-4B的上下文窗口從40K擴展到65K。
圖片
四、實驗效果:小模型也能打敗大模型
4.1 深度搜索任務上的表現
在五個主流深度搜索基準測試上(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue),Fathom-Search-4B取得了開源模型中的最佳成績:
- SimpleQA(真實世界問答):90.0%準確率,超過了所有開源競爭對手,甚至比GPT-4o(搜索版)還高5.6個百分點
- WebWalker(長鏈推理):50.0%準確率,比第二名II-Search-4B高出9.2個百分點
- FRAMES(多幀推理):64.8%準確率,顯著領先
更有意思的是,在一些任務上,這個40億參數的小模型甚至能接近甚至超越o3這樣的超大模型(無搜索版本)。
4.2 通用推理能力依然強勁
為了驗證模型沒有"偏科"(只會搜索不會推理),作者還在四個通用推理基準上測試了Fathom-Search-4B:
- GPQA-Diamond(研究生級科學問題):60.1%
- MedQA(醫(yī)學問答):75.4%
- AIME-25(數學競賽):70.0%
這些成績證明,模型在獲得搜索能力的同時,原有的推理能力沒有退化。
圖片
從工具調用分布圖可以看出,DuetQA數據集確實更"硬核"——o3模型在這個數據集上平均需要3.3次搜索才能答對,分布呈長尾;而在SimpleQA上平均只需1.9次。這證明了數據集設計的有效性。
4.3 深度研究報告生成
在DeepResearch-Bench(開放式研究報告生成基準)上,Fathom-DeepResearch的整體得分為45.47,超過了Claude-3.7、Perplexity Deep Research、Grok等商業(yè)系統(tǒng),僅次于Gemini-2.5-Pro和OpenAI DeepResearch。
具體指標上:
- RACE綜合評分:45.47(考察全面性、深度、可讀性)
- 引用準確率:56.1%(保證引用的來源真實可靠)
- 有效引用數:38.3(足夠的證據支撐)
考慮到這是一個40億參數的開源模型,這個成績相當亮眼。
圖片
左圖展示了準確率與工具調用次數的關系,右圖展示了準確率與回答長度的關系??梢钥吹紽athom-Search-4B(Stage-2)在準確率和效率上都取得了最佳平衡。
4.4 消融實驗:每個組件都很重要
RAPO vs GRPO:如表3所示,使用RAPO訓練的模型在所有任務上都優(yōu)于GRPO,且平均生成長度更短(5000 vs 9000 tokens),說明RAPO既提升了準確率,又提高了效率。
可控步驟級獎勵的作用:如表4所示,引入步驟級獎勵后,WebWalker任務的準確率從43.2%提升到50.0%,同時平均生成長度從5500增加到14500 tokens。這說明模型學會了在需要時進行更深入的探索。
圖片
從訓練曲線可以看出:
- 使用可控步驟級獎勵時,模型的回答長度穩(wěn)步增長到14000 tokens,說明學會了長鏈推理
- 使用普通獎勵時,長度在6000 tokens就飽和了,無法進一步提升
- RAPO相比GRPO,訓練過程更平滑,沒有大幅波動
五、論文總結:開源深度研究的新里程碑
這篇論文的核心價值在于:證明了小型語言模型(40億參數)通過精心設計的訓練流程,也能在復雜的深度研究任務上與大型商業(yè)模型一較高下。
三個關鍵要素缺一不可:
- 高質量數據:DuetQA通過多智能體自我對弈,生成了真正需要聯網搜索才能回答的問題,避免了模型"走捷徑"
- 穩(wěn)定訓練:RAPO算法解決了多輪工具調用場景下的訓練不穩(wěn)定問題,讓長鏈推理成為可能
- 智能獎勵:步驟級獎勵機制不僅關注最終答案,還細致評估每一步操作的價值,引導模型形成高效的搜索策略
局限性也值得注意:作者坦誠地指出,當前系統(tǒng)在測試時的可擴展性有限——雖然訓練時能學會長鏈推理,但推理時的表現提升有限。此外,同步訓練流程在大規(guī)模應用時效率不高,未來需要轉向異步框架。
從工程實踐角度看,這個工作的意義在于:降低了深度研究能力的門檻。以前只有資源雄厚的大公司才能訓練出具備這種能力的模型,現在普通研究者和開發(fā)者也能在40億參數規(guī)模上實現類似功能。這對于推動AI民主化、加速相關應用落地都有重要價值。
未來的研究方向可能包括:如何進一步提升測試時的可擴展性?如何在更小的模型(比如10億參數)上實現類似能力?如何讓系統(tǒng)更好地處理多模態(tài)信息(圖表、視頻等)?這些都是值得探索的問題。





































