騰訊AI Lab開源可復現(xiàn)的深度研究智能體,最大限度降低外部依賴
深度研究智能體(Deep Research Agents)憑借大語言模型(LLM)和視覺-語言模型(VLM)的強大能力,正在重塑知識發(fā)現(xiàn)與問題解決的范式。
然而,現(xiàn)有開源智能體框架多依賴付費工具,限制了可復現(xiàn)性和普適性。
騰訊AI Lab全新推出的Cognitive Kernel-Pro,一款全開源、多模塊、層次化的智能體框架,為深度研究智能體的開發(fā)與訓練提供了突破性解決方案。

在GAIA基準全集上,Cognitive Kernel-Pro超越開源免費框架SmolAgents,性能逼近依賴付費工具的智能體,展現(xiàn)出卓越的綜合能力。在GAIA-text上,訓練的8B模型超越WebDancer和WebSailor-7B。
相關論文排上當日HuggingFace熱榜第一。

此外,騰訊AI Lab公開了Agent Foundation Model的訓練配方,為社區(qū)提供可復現(xiàn)的訓練路徑。
相關技術報告及代碼已開源于GitHub,詳細鏈接可見文末。
全開源智能體框架

Cognitive Kernel-Pro以Python代碼為動作空間,充分發(fā)揮現(xiàn)代LLM的推理和代碼生成能力。
其核心設計包括以下四點。
1、模塊化架構:框架采用兩層多模塊設計,包含主智能體和多個子智能體(如網(wǎng)頁導航智能體、文件處理智能體)。主智能體負責任務分解和信息整合,子智能體專注于特定任務(如網(wǎng)頁瀏覽、文件操作),確保模塊獨立性和擴展性。
2、狀態(tài)管理與規(guī)劃:通過“進度狀態(tài)”(Progress State)機制,智能體能夠記錄已完成步驟、待辦任務、歷史經(jīng)驗和關鍵信息。這種結構化狀態(tài)管理顯著提升了復雜任務的處理效率。
3、標準化任務接口:主智能體與子智能體通過簡潔的文本接口通信,子智能體以Python函數(shù)形式定義,輸入任務字符串,輸出格式化結果和日志,便于協(xié)作與調試。
4、測試時優(yōu)化:框架引入反思機制(Reflection)和投票機制(Voting),通過評估和優(yōu)化動作軌跡,提升任務完成質量。反思機制允許智能體審查和修正先前動作,投票機制則通過多輪軌跡比較選擇最優(yōu)結果,顯著增強了網(wǎng)頁瀏覽等高隨機性任務的穩(wěn)定性。

上表顯示了Agent框架工具的使用和能力情況。
比較專有工具時,Google Search API(可以輕松切換到 DuckDuckGo 等免費 API)被排除在外,它是搜索相關任務的必備功能。
注:WebDancer 和 WebSailor 主要關注Web Agent,支持 PDF 獲取和簡單處理,但缺乏通用文件Agent功能。
許多現(xiàn)有智能體框架依賴付費工具,增加了使用成本并限制了廣泛應用。而Cognitive Kernel-Pro框架盡可能使用免費、開源工具,使用LLM的python代碼生成能力和理解能力對智能體任務進行處理。
創(chuàng)新訓練方法

Cognitive Kernel-Pro不僅提供了強大的框架,還設計了全面的訓練流程,覆蓋網(wǎng)頁導航、文件處理、代碼生成和推理等多個領域。
關鍵創(chuàng)新包括:
- 高質量Web Agent數(shù)據(jù)構建通過構造可驗證的查詢-答案對,結合中間過程提示和基于提示的拒絕采樣,顯著提升訓練數(shù)據(jù)的質量和相關性.
- Persona Hub數(shù)據(jù)增強利用Persona Hub生成多樣化的合成查詢,結合跨系統(tǒng)驗證,增強訓練數(shù)據(jù)的多樣性和魯棒性。
- 推理數(shù)據(jù)優(yōu)化對現(xiàn)有數(shù)據(jù)集(如NumiaMath、LogicCot、TACO)進行精細化處理,適配智能體任務格式,確保訓練數(shù)據(jù)與實際應用場景一致。
- 軌跡采樣以GPT-4.1為骨干模型生成智能體軌跡,并通過相似度匹配進行拒絕采樣,最大化訓練數(shù)據(jù)的有效性。
性能優(yōu)勢

Cognitive Kernel-Pro在網(wǎng)頁信息檢索、文件處理和復雜推理等任務中表現(xiàn)出色,尤其在GAIA基準上超越SmolAgents,接近依賴付費工具的智能體框架。
相較于依賴Jina Reader、FireCrawl等付費工具的現(xiàn)有開源框架,Cognitive Kernel-Pro強調LLM和VLM的內(nèi)在能力,最大限度降低外部依賴,實現(xiàn)真正的全開源。
上圖的技術報告中對比了多個AI智能體框架,顯示Cognitive Kernel-Pro在功能全面性和開源程度上具有顯著優(yōu)勢。框架支持靈活切換免費API(如DuckDuckGo),進一步提升了可訪問性。

上表展示了Cognitive Kernel-Pro與其他開源 Agent基礎模型的性能對比。
Cognitive Kernel-Pro 在 GAIA-text基準測試中取得了優(yōu)異的成績,超越了WebDancer和WebSailor類似大小模型,體現(xiàn)了框架、模型訓練方法的優(yōu)越性。
首先,Cognitive Kernel-Pro是一個通用Agent框架,有更好的文件Agent、Code Agent的處理能力,在框架上比整體上是Web Agent的WebThinker、WebDancer、WebSailor要能處理更復雜的情況。
其次,在訓練對應的開源模型CK-Pro-8B時,更通用、豐富的Agent數(shù)據(jù)被包含進訓練集,共同提升了Agent基座模型的能力。

上表展示了測試Cognitive Kernel-Pro反思功能的消融實驗。
更強的模型,例如GPT-4.1,可以提供更好的反思信號,但開源模型例如Qwen-3-32B已經(jīng)能提供相當GPT-4.1的反思效果。
Cognitive Kernel-Pro的研究團隊表示,未來工作將關注在將反思能力蒸餾到同一個Agent基座模型中。
GitHub:https://github.com/Tencent/CognitiveKernel-ProArxiv:https://arxiv.org/pdf/2508.00414



























