偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="kg2ja"><thead id="kg2ja"></thead></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

揭秘Fathom-DeepResearch：4B小模型如何實現媲美GPT-4o的深度研究能力

作者：ChallengeHub 2025-10-28 02:11:00

這篇論文要解決的核心問題就是：如何讓小型語言模型（只有40億參數）也能像人類研究員一樣，通過聯網搜索、多輪推理，最終生成一份詳實的研究報告？

揭秘Fathom-DeepResearch：讓小模型也能做深度研究的秘密武器

論文鏈接：https://arxiv.org/pdf/2509.24107v1
代碼鏈接：https://github.com/FractalAIResearchLabs/Fathom-DeepResearch

一、研究背景：為什么我們需要更聰明的搜索助手？

想象一下，你想了解一個復雜的問題，比如"某個體育賽事的歷史背景和相關人物"，你會怎么做？可能需要在搜索引擎上反復查詢，打開無數網頁，然后自己整理信息?，F在的大語言模型雖然很聰明，但在處理這類需要深度調研的任務時，還是有點力不從心。

這篇論文要解決的核心問題就是：如何讓小型語言模型（只有40億參數）也能像人類研究員一樣，通過聯網搜索、多輪推理，最終生成一份詳實的研究報告？

目前的開源系統(tǒng)面臨幾個痛點：

訓練數據不夠硬核：現有的數據集（如TriviaQA）問題太簡單，模型甚至不用搜索就能答對
工具調用不穩(wěn)定：模型在多輪搜索中容易"失控"，要么重復調用同一個搜索，要么亂調用
缺乏綜合能力：大多數系統(tǒng)只擅長回答封閉式問題（有標準答案的），但對開放式探索性問題（需要綜合多方信息）表現不佳

圖片

作者的核心貢獻可以概括為三個關鍵創(chuàng)新：

DuetQA數據集：通過多智能體自我對弈生成了5000個高質量問答對，每個問題都必須通過實時搜索才能回答（不能靠模型的記憶蒙混過關）
RAPO算法（獎勵感知策略優(yōu)化）：這是對現有強化學習算法GRPO的改進，解決了多輪工具調用時訓練不穩(wěn)定的問題，讓模型能穩(wěn)定地進行超過20次工具調用
可控的步驟級獎勵機制：不僅獎勵"答對了"，還細致地評估每一步搜索是否有價值——是探索新信息還是在重復無用功，從而引導模型形成更高效的搜索策略

二、相關工作：站在巨人的肩膀上

論文梳理了當前深度搜索領域的幾類工作：

閉源商業(yè)系統(tǒng)

如OpenAI的DeepResearch、Google的Gemini等，表現強勁但不開源，普通研究者無法復現和改進。

開源嘗試

包括WebSailor、Jan-Nano、ZeroSearch等模型，雖然做出了努力，但在復雜任務上與閉源系統(tǒng)還有明顯差距。這些系統(tǒng)普遍存在的問題是：

訓練數據質量不高，很多問題可以通過簡單的一兩次搜索解決
強化學習訓練不穩(wěn)定，模型容易學壞（比如瘋狂重復調用工具但不產生有用結果）
缺乏對長鏈推理的有效控制機制

現有數據集的局限

像HotpotQA、2WIKI這類多跳問答數據集，雖然標榜"多跳推理"，但實際上很多問題可以通過模型的內部知識直接回答，或者只需要訪問維基百科就夠了。真實世界的搜索場景要復雜得多——信息分散在各種網站上，存在噪音，需要交叉驗證。

圖片

三、核心方法：兩階段訓練+智能獎勵設計

Fathom-DeepResearch系統(tǒng)由兩個核心模型組成：

3.1 Fathom-Search-4B：會搜索的推理模型

這個模型的任務是像偵探一樣在互聯網上尋找證據。它有兩個工具：

search_urls（網頁搜索）：輸入查詢詞，返回相關網頁列表及摘要
query_url（定向提?。?/span>：打開某個網頁，根據特定目標提取有用信息

訓練分兩個階段進行：

Stage 1：學會基本的搜索能力
在DuetQA數據集上訓練10個epoch，使用RAPO算法。這個階段的重點是讓模型學會：

正確使用工具（格式規(guī)范）
能夠通過搜索找到答案
避免訓練崩潰（GRPO容易出現的問題）

訓練目標函數結合了格式獎勵和答案準確性：

Stage 2：學會高效的長鏈推理
繼續(xù)訓練2個epoch，但這次使用了可控的步驟級獎勵。這個階段的數據混合了DuetQA、數學推理數據和MuSiQue多跳問答。

關鍵創(chuàng)新在于獎勵函數的設計。系統(tǒng)會用GPT-4.1給每個工具調用打標簽：

對于search_urls：

UNIQUESEARCH（探索新信息）：搜索之前沒見過的實體或事實
REDUNDANTSEARCH（重復搜索）：和之前的查詢高度相似

對于query_url：

EXPLORATION（探索）：第一次訪問某個網頁
VERIFICATION（驗證）：交叉驗證已有信息（允許有限次數）
REDUNDANTQUERY（冗余查詢）：超過驗證次數限制的重復查詢

基于這些標簽，獎勵函數變成：

3.2 RAPO：讓訓練不再崩潰的秘密

回放緩沖：為每個問題維護一個"最佳答案庫"。如果某次訓練所有嘗試都失敗了，就從庫里抽一個成功案例混進去，避免方差歸零。

圖片

從圖中可以看到，GRPO的熵值和梯度范數快速下降（意味著模型失去探索能力），而RAPO能保持穩(wěn)定的訓練信號。

3.3 Fathom-Synthesizer-4B：會寫報告的綜合模型

第二個模型的任務是把搜索軌跡變成一份可讀的研究報告。它采用"先規(guī)劃后撰寫"的策略：

規(guī)劃階段（在標簽內，用戶看不到）：

問題分解：把大問題拆成若干子問題
證據映射：將搜索到的每個網址和內容對應到相關章節(jié)
洞察策略：規(guī)劃如何從證據中提煉觀點

撰寫階段（生成實際報告）：

執(zhí)行摘要：總覽全文
主體章節(jié)：按照分解的子問題組織，每個關鍵論斷都標注引用來源
引用列表：列出所有引用的網址

訓練數據（DeepResearch-SFT）從GPT-5蒸餾而來，包含2500個開放式問題及其完整的規(guī)劃+報告對。為了處理長文本，使用YaRN技術將Qwen3-4B的上下文窗口從40K擴展到65K。

圖片

四、實驗效果：小模型也能打敗大模型

4.1 深度搜索任務上的表現

在五個主流深度搜索基準測試上（SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue），Fathom-Search-4B取得了開源模型中的最佳成績：

SimpleQA（真實世界問答）：90.0%準確率，超過了所有開源競爭對手，甚至比GPT-4o（搜索版）還高5.6個百分點
WebWalker（長鏈推理）：50.0%準確率，比第二名II-Search-4B高出9.2個百分點
FRAMES（多幀推理）：64.8%準確率，顯著領先

更有意思的是，在一些任務上，這個40億參數的小模型甚至能接近甚至超越o3這樣的超大模型（無搜索版本）。

4.2 通用推理能力依然強勁

為了驗證模型沒有"偏科"（只會搜索不會推理），作者還在四個通用推理基準上測試了Fathom-Search-4B：

GPQA-Diamond（研究生級科學問題）：60.1%
MedQA（醫(yī)學問答）：75.4%
AIME-25（數學競賽）：70.0%

這些成績證明，模型在獲得搜索能力的同時，原有的推理能力沒有退化。

圖片

從工具調用分布圖可以看出，DuetQA數據集確實更"硬核"——o3模型在這個數據集上平均需要3.3次搜索才能答對，分布呈長尾；而在SimpleQA上平均只需1.9次。這證明了數據集設計的有效性。

4.3 深度研究報告生成

在DeepResearch-Bench（開放式研究報告生成基準）上，Fathom-DeepResearch的整體得分為45.47，超過了Claude-3.7、Perplexity Deep Research、Grok等商業(yè)系統(tǒng)，僅次于Gemini-2.5-Pro和OpenAI DeepResearch。

具體指標上：

RACE綜合評分：45.47（考察全面性、深度、可讀性）
引用準確率：56.1%（保證引用的來源真實可靠）
有效引用數：38.3（足夠的證據支撐）

考慮到這是一個40億參數的開源模型，這個成績相當亮眼。

圖片

左圖展示了準確率與工具調用次數的關系，右圖展示了準確率與回答長度的關系?？梢钥吹紽athom-Search-4B（Stage-2）在準確率和效率上都取得了最佳平衡。

4.4 消融實驗：每個組件都很重要

RAPO vs GRPO：如表3所示，使用RAPO訓練的模型在所有任務上都優(yōu)于GRPO，且平均生成長度更短（5000 vs 9000 tokens），說明RAPO既提升了準確率，又提高了效率。

可控步驟級獎勵的作用：如表4所示，引入步驟級獎勵后，WebWalker任務的準確率從43.2%提升到50.0%，同時平均生成長度從5500增加到14500 tokens。這說明模型學會了在需要時進行更深入的探索。

圖片

從訓練曲線可以看出：

使用可控步驟級獎勵時，模型的回答長度穩(wěn)步增長到14000 tokens，說明學會了長鏈推理
使用普通獎勵時，長度在6000 tokens就飽和了，無法進一步提升
RAPO相比GRPO，訓練過程更平滑，沒有大幅波動

五、論文總結：開源深度研究的新里程碑

這篇論文的核心價值在于：證明了小型語言模型（40億參數）通過精心設計的訓練流程，也能在復雜的深度研究任務上與大型商業(yè)模型一較高下。

三個關鍵要素缺一不可：

高質量數據：DuetQA通過多智能體自我對弈，生成了真正需要聯網搜索才能回答的問題，避免了模型"走捷徑"
穩(wěn)定訓練：RAPO算法解決了多輪工具調用場景下的訓練不穩(wěn)定問題，讓長鏈推理成為可能
智能獎勵：步驟級獎勵機制不僅關注最終答案，還細致評估每一步操作的價值，引導模型形成高效的搜索策略

局限性也值得注意：作者坦誠地指出，當前系統(tǒng)在測試時的可擴展性有限——雖然訓練時能學會長鏈推理，但推理時的表現提升有限。此外，同步訓練流程在大規(guī)模應用時效率不高，未來需要轉向異步框架。

從工程實踐角度看，這個工作的意義在于：降低了深度研究能力的門檻。以前只有資源雄厚的大公司才能訓練出具備這種能力的模型，現在普通研究者和開發(fā)者也能在40億參數規(guī)模上實現類似功能。這對于推動AI民主化、加速相關應用落地都有重要價值。

未來的研究方向可能包括：如何進一步提升測試時的可擴展性？如何在更小的模型（比如10億參數）上實現類似能力？如何讓系統(tǒng)更好地處理多模態(tài)信息（圖表、視頻等）？這些都是值得探索的問題。

責任編輯：武曉燕來源： ChallengeHub

4B小模型 GPT-4o 語言模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<del id="6ouwc"><b id="6ouwc"></b></del><form id="6ouwc"><optgroup id="6ouwc"></optgroup></form>

<var id="6ouwc"></var>