阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里又雙叒叕上大分了!

就在昨天,阿里旗下首個深度研究Agent模型——通義DeepResearch正式開源。
在多項權(quán)威基準(zhǔn)上,通義DeepResearch狂飆SOTA,僅依靠30B參數(shù)(激活3B)就能大殺四方!

在號稱人類最后的考試榜單HLE(Humanity's Last Exam)中,通義DeepResearch更是拿下了32.9%的最高分,超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),霸榜全球第一!
在OpenAI提出的超高難度BrowseComp榜單上,通義DeepResearch以43.4%的準(zhǔn)確率領(lǐng)跑開源榜單。

值得一提的是,模型、框架、方案全面開源,開發(fā)者即可在Hugging Face、GitHub下載。
目前,GitHub項目已狂攬7.2k星。
項目地址:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
技術(shù)博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
這波充滿了誠意的開源操作和出色性能,直接點燃了AI圈!
不僅引來廣大網(wǎng)友們紛紛致謝,甚至Hugging Face聯(lián)合創(chuàng)始人兼CEO Clem Delangue和斯坦福NLP實驗室等科技大V在第一時間進行轉(zhuǎn)發(fā)關(guān)注。



不止于問答:AI的「研究員」時代
我們已經(jīng)習(xí)慣了AI的有問必答,但如果問題本身就無比復(fù)雜呢?
AI Deep Research 給出了答案。它徹底告別了「一問一答」的模式,進化為一位真正的「研究員」。面對一個棘手的問題,它會自主規(guī)劃一條完整的研究路徑,像人類專家一樣工作:
深度搜尋—多源交叉—結(jié)構(gòu)化歸納—報告生成
你得到的,將是一份真正能解決問題的方案:論據(jù)有源可溯,過程清晰可復(fù)現(xiàn),結(jié)論擲地有聲。

通義DeepResearch既可以是你的資深研究員,也能是你的高效私人助手,其首要任務(wù)便是將宏大問題精巧地拆解為一系列邏輯清晰的子任務(wù)。
隨后,它為每個環(huán)節(jié)自主調(diào)用代碼分析、論文檢索、網(wǎng)頁訪問等工具,以層層遞進、自主循環(huán)的方式完成整個研究鏈路。
說多無用,不如看一些直觀的演示。
假設(shè)你正在考慮出售房子,想要了解所在地區(qū)最近樓盤的銷售情況,直接找通義DeepResearch——
我住在夏威夷的珍珠城,位于瓦胡島上。
我知道附近有兩處房產(chǎn)于2022年售出,分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。
請找出這兩處房產(chǎn)中2022年售價更高的那套,并告訴我其成交金額。
通義DeepResearch分了四步思考:
想要完成任務(wù),第一步就是拆解指令,然后「聯(lián)網(wǎng)」抓取數(shù)據(jù),查詢2022年房產(chǎn)銷售記錄,并提取相應(yīng)的銷售價格。
搜索之后,并非一下得出結(jié)果,而是在多個來源中,反復(fù)核查確認(rèn)。



在生活規(guī)劃和日常決策過程中,通義DeepResearch主要調(diào)用「聯(lián)網(wǎng)搜索」工具,準(zhǔn)確完成了任務(wù)。

過程

回答
再來看一個比較專的領(lǐng)域——法律,通義DeepResearch的表現(xiàn)又如何?
舉個栗子,生活中的法律糾紛經(jīng)常見,自己又不懂法,想要解決難題扔給AI就好了。
假設(shè)一個人恰好遇到了「原告要求退還出資,但自己又欠了一屁股債,還有很多債權(quán)人」的難題,那么原告是否違反資本維持原則?
在行動之前,通義DeepResearch大腦已經(jīng)有了完整的構(gòu)思,從問題拆解到工具使用。

接下來,就會看到通義用上了各種工具,獲取法條、案例,并查找學(xué)術(shù)觀點,最終收集所有可靠信息。




可以看到,通義執(zhí)行任務(wù)的整個過程非??b密,方便后期回溯。

過程

回答
再比如,有一個博士級跨學(xué)科的難題,自己拿不準(zhǔn),可以請教通義。
考慮這樣一個「星座」的數(shù)學(xué)模型:在一小片天區(qū)內(nèi),每顆亮于某一特定星等的恒星,都與其最近的鄰居(按二維歐幾里得距離計算)連接一條邊。
假設(shè)恒星在天空中均勻分布,那么平均每個星座(即連通子圖)包含多少顆恒星?
此處,思考過程省略億字......

但從通義的表現(xiàn)中,看得出每一步的計算和思考,都是建立在深度搜索、查詢,反復(fù)驗證的過程之上。
除了常用的搜索、瀏覽工具,它還借用「Python解釋器」、「谷歌學(xué)術(shù)」等工具幫自己理解,最后給出詳細(xì)的報告。
那么,通義DeepResearch團隊是如何煉成「超級研究大腦」?深入技術(shù)細(xì)節(jié),讓我們一一拆解。
從零開始的數(shù)據(jù)煉金術(shù)
高質(zhì)量數(shù)據(jù),是大模型的核心,也仍然是智能體的生命之源。
通義DeepResearch團隊在反復(fù)試錯和探索下,構(gòu)建出一套完備的「智能體合成數(shù)據(jù)」體系,貫穿預(yù)訓(xùn)練與后訓(xùn)練的完整訓(xùn)練鏈路。
這個策略的終極目標(biāo),是擺脫對昂貴且稀缺的人工標(biāo)注數(shù)據(jù)的依賴,用「機器生產(chǎn)」的方式,源源不斷地創(chuàng)造出比人類標(biāo)注質(zhì)量更高、規(guī)模更龐大的訓(xùn)練「教材」。
第一步:智能體增量預(yù)訓(xùn)練數(shù)據(jù)合成
在預(yù)訓(xùn)練過程中,傳統(tǒng)模型更像是一次性填鴨式教學(xué),仍然是「記住知識」。
團隊首次引入了「Agentic CPT」(增量預(yù)訓(xùn)練) 的概念,教會模型「使用知識」,并且構(gòu)造了一個能夠持續(xù)進化和擴展的智能體預(yù)訓(xùn)練數(shù)據(jù)合成方法AgentFounder。
- 構(gòu)建開放世界記憶
團隊首先將海量知識文檔、網(wǎng)頁爬蟲數(shù)據(jù)、知識圖譜,以及模型后訓(xùn)練產(chǎn)生的思考軌跡和工具使用記錄,全部匯集起來,構(gòu)建了一個龐大的、以實體為核心的「開放世界知識記憶庫」。
接著,從這個記憶庫中抽取知識點,模擬真實世界中千奇百怪的場景,自動生成無數(shù)「問題-答案」對。

- 動作合成
更近一步,他們構(gòu)建了三種類型的「動作數(shù)據(jù)」,具體包含規(guī)劃、推理和決策動作。
這種方法讓模型在離線狀態(tài)下,就能探索海量的推理路徑,而無需昂貴的在線API調(diào)用,大大提升了訓(xùn)練效率和深度。
尤其是,對于「決策動作」合成,會將軌跡重構(gòu)為多步驟決策過程,充分探索有效的問題解決路徑,讓模型決策能力大幅提升。
第二步:全自動高質(zhì)量數(shù)據(jù)合成
基礎(chǔ)打好后,如何讓模型「百尺竿頭,更進一步」?
在后訓(xùn)練階段,團隊又開發(fā)了一套全自動的合成數(shù)據(jù)生成方案,直接產(chǎn)出比人工標(biāo)注質(zhì)量還高的數(shù)據(jù)集。
從最早的WebWalker,到后來更系統(tǒng)的WebSailor,WebShaper,最后的WebSailor V2這一方案不斷迭代。
每一步,都Scaling了數(shù)據(jù)的質(zhì)量和規(guī)模。
為了生成復(fù)雜的問答對數(shù)據(jù),他們開創(chuàng)了一個全新流程:
- 確保數(shù)據(jù)真實
從真實網(wǎng)站數(shù)據(jù)中提取信息,用上隨機游走構(gòu)建知識圖譜、表格數(shù)據(jù)融合等方式,保證了問題的「原汁原味」。
- 人為制造「迷霧」
接著,策略性地隱藏或模糊問題中的關(guān)鍵信息,或以其他方式增加問題的不確定性,來提升問題的難度。
團隊甚至將回答難度,建模為一系列可控的「原子操作」,由此一來,可以精準(zhǔn)控制問題的復(fù)雜度。
- 杜絕「抄近道」
為了防止模型「偷懶」找捷徑,團隊還基于集合論把信息搜索問題形式化建模。
這不僅能生成更高質(zhì)量的問題,還解決了合成數(shù)據(jù)難以驗證答案正確性的行業(yè)難題。
- 打造「博士級」難題
此外,還開發(fā)了一個專用于生成跨科學(xué)知識、多步推理的「博士級」研究難題的自動化數(shù)據(jù)流程。
它讓一個配備網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索等工具的Agent,在一個循環(huán)中不斷深化和擴展問題,像滾雪球一樣讓任務(wù)難度可控升級。
兩種推理模式,征服長任務(wù)
擁有了頂級的「教材」,還需要高效的學(xué)習(xí)和思考方式。
通義DeepResearch模型同時支持兩種推理模式:一個是原生的ReAct Mode,另一個是基于上下文管理的Heavy Mode。
經(jīng)典模式:ReAct Mode
在標(biāo)準(zhǔn)任務(wù)中,模型采用經(jīng)典的ReAct(思考-行動-觀察)模式,性能超乎想象。
它就像一個直覺敏銳的行動派,憑借128K的超長上下文,可以進行多輪次的快速交互,高效解決問題。
這種通用、可拓展的推理模式,盡管簡單,但其是原生模型Agentic能力的直接體現(xiàn)。
深度模式:Heavy Mode
放眼全世界,谷歌、OpenAI、xAI等大廠都在「深度研究」上展開布局,緊追當(dāng)前Agent熱點。
但是,他們大都采用了「單窗口、線性累加」信息處理模式,弊端就是信息一多,「AI大腦」就不夠用了。
因為,所有中間思路和檢索到的信息,都堆積在了單一的上下文中。
在處理長程任務(wù)中,這種模式下的Agent就會面臨「認(rèn)知空間窒息」和「不可逆的噪聲污染」挑戰(zhàn)。
最終,AI推理能力下降,難以完成長程、復(fù)雜的研究任務(wù)。
當(dāng)面對極端復(fù)雜、需要長遠規(guī)劃的研究任務(wù)時,「深度模式」(Heavy Mode)便會啟動。
具體來說,模型會將一個龐大任務(wù)分解為一系列「研究輪次」:
- 在每一輪開始,Agent僅從上一輪的信息中提取最精華的結(jié)論,構(gòu)建一個全新的、精簡的工作空間。
- 在這個專注的工作空間里,Agent分析問題,將關(guān)鍵發(fā)現(xiàn)整合進一個不斷演變的核心報告中。
- 最后,它決定下一步是繼續(xù)收集信息,還是給出最終答案。
這種「綜合-重構(gòu)」的迭代過程,讓Agent在執(zhí)行超長期任務(wù)時,始終能保持清晰的「認(rèn)知焦點」和高質(zhì)量的推理能力。

更進一步,團隊還提出了Research-Synthesis框架:
讓多個IterResearch Agent并行研究同一問題,最后將其報告和結(jié)論整合,從而獲得更全面、更準(zhǔn)確的答案。
這一模式下,通義30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基準(zhǔn)上,性能再破紀(jì)錄。

AI智能體自我進化
端到端訓(xùn)練技術(shù)革新
如果說數(shù)據(jù)和推理模式是「招式」,那么訓(xùn)練流程就是「心法」。
團隊打通了「Agentic CPT→ SFT→ Agentic RL」端到端全鏈路,首次提出了兩階段的智能體增量預(yù)訓(xùn)練,引領(lǐng)了智能體訓(xùn)練的新范式。
此外,其基于ReAct框架的強化學(xué)習(xí)環(huán)節(jié),最能體現(xiàn)其深厚的系統(tǒng)工程能力。

團隊坦言,通過強化學(xué)習(xí)構(gòu)建高質(zhì)量Agent,是一項復(fù)雜的系統(tǒng)工程挑戰(zhàn)。
如果將開發(fā)過程視為一個「強化學(xué)習(xí)」循環(huán),其組件中任何不穩(wěn)定,或是魯棒性不足之處,都可能導(dǎo)致錯誤的「獎勵」信號。
那么,在強化學(xué)習(xí)過程中,團隊如何在算法和基礎(chǔ)設(shè)施上取得突破?
- 算法是核心
針對算法,基于GRPO定制優(yōu)化,嚴(yán)格遵循on-policy訓(xùn)練范式,確保信號匹配模型能力。
與此同時,采取一個token級策略梯度損失函數(shù),以優(yōu)化訓(xùn)練目標(biāo)。結(jié)合留一法 (leave-one-out) 策略,降低優(yōu)勢估計方差。
為了避免「格式崩潰」現(xiàn)象,團隊還進行多種策略的負(fù)樣本篩選,比如排除過長未能生成答案的樣本。
此外,通過增大批次(batch size)和組規(guī)模(group size),維持較小方差,提供充足監(jiān)督信號。

如上圖動態(tài)指標(biāo)顯示,獎勵持續(xù)震蕩上升。同時,策略熵(policy entropy)保持較高水平,說明模型在持續(xù)探索進化,避免了過早收斂。
這得益于Web環(huán)境的非平穩(wěn)性,形成了魯棒自適應(yīng)策略,無需額外正則化。
算法穩(wěn)定搞定了,就一切萬事大吉了嗎?顯然不是。
- 基礎(chǔ)設(shè)施更關(guān)鍵
團隊分享了一個至關(guān)重要的洞見:
算法固然重要,但并非成功的唯一決定因素。數(shù)據(jù)質(zhì)量和訓(xùn)練環(huán)境的穩(wěn)定性,可能是決定強化學(xué)習(xí)項目成敗的更關(guān)鍵一環(huán)。
一個極具說服力的現(xiàn)象是,團隊曾嘗試直接在人工標(biāo)注的BrowseComp測試集上訓(xùn)練模型來驗證算法,結(jié)果其表現(xiàn)遠不如使用自研合成數(shù)據(jù)訓(xùn)練的效果。
由此,他們推測,這是因為合成數(shù)據(jù)提供了一致性更高的潛在分布,使模型能進行更有效的學(xué)習(xí)和擬合。
相較之下,規(guī)模有限、含有更多噪聲的人工數(shù)據(jù),反而讓模型難以提煉和泛化。

為了實現(xiàn)穩(wěn)定、高效的強化學(xué)習(xí),他們構(gòu)建了一套全棧式的基礎(chǔ)設(shè)施「護城河」:
- 仿真訓(xùn)練環(huán)境:利用離線維基百科和自定義工具套件,創(chuàng)建了一個經(jīng)濟高效、快速可控的模擬訓(xùn)練平臺,擺脫了對昂貴且不穩(wěn)定的實時Web API的依賴。
- 工具沙盒:通過緩存結(jié)果、失敗重試、飽和式響應(yīng)等機制,為智能體提供了快速魯棒的交互環(huán)境,防止工具的偶然錯誤破壞其學(xué)習(xí)軌跡。
- 自動數(shù)據(jù)管理:在訓(xùn)練動態(tài)的指導(dǎo)下實時優(yōu)化數(shù)據(jù)集,通過全自動數(shù)據(jù)合成和數(shù)據(jù)漏斗,形成「數(shù)據(jù)生成」與「模型訓(xùn)練」之間的正向循環(huán)。
- On-policy的異步框架:基于rLLM實現(xiàn),讓多個智能體實例并行與環(huán)境交互,獨立生成軌跡,極大提升了訓(xùn)練效率。
通過這一系列措施,阿里團隊實現(xiàn)了智能體強化訓(xùn)練的「閉環(huán)」,讓模型從一個基座模型開始,通過預(yù)訓(xùn)練、微調(diào),最終在強化學(xué)習(xí)中實現(xiàn)自我進化。
這套全棧方案,恰恰為解決復(fù)雜任務(wù)的AI智能體訓(xùn)練樹立了全新范式。
「高德行程規(guī)劃」和「律師小助理」雙開花
過去半年,通義DeepResearch團隊在Deep Research研發(fā)中不斷深耕,每月一篇新作,全部斬獲SOTA。

通義DeepResearch團隊技術(shù)報告矩陣
除了技術(shù)報告誠意滿滿,通義DeepResearch團隊一口氣連發(fā)六篇技術(shù)報告,除了延續(xù)Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外,更是全新推出Agent系列的AgentFounder和AgentScaler!
這些重磅研究,并非是實驗室的「花瓶」,它們早已走向落地,賦能阿里旗下多個產(chǎn)品。
比如,每個人都能感知的案例——高德「小高老師」。可能你還不知道的是,其背后就是通義DeepResearch提供的加持。

前段時間,高德暑期大版本V16,重點全面推出「地圖導(dǎo)航+本地生活」場景。
通義團隊和高德深度合作,在上述導(dǎo)航和本地生活場景中構(gòu)建集成Deep Research能力的垂類智能體。
在規(guī)劃決策中,通義團隊基于Qwen模型微調(diào)構(gòu)建精通地圖領(lǐng)域的復(fù)雜「POI推理Agent」,一個超懂地圖的智能助手。
它能一鍵get各種復(fù)雜需求,比如地理區(qū)域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。

舉個例子,當(dāng)你輸入一長串要求——
我想在西湖邊上找家評分4.5以上的浙菜館,得有兒童餐,而且從地鐵站走過去不能超過1公里。
AI能夠立即挑出最合適的點,連怎么走都可以安排得明明白白。
再比如,假設(shè)想去奧森Citywalk,高德AI瞬間就能制定出三種攻略。
打開每一種攻略,可以看到,它會幫你做出詳細(xì)的時間規(guī)劃,貼心地推薦餐飲、游玩景點等。

通義出模型,高德出工具和Agent鏈路,由此打造出了「小德助手」驚艷的體驗。
在法律領(lǐng)域,通義DeepResearch能力也深度融合到了「通義法?!怪?,一個原生法律智能體。
它集問答、案例檢索、合同審查、文書起草于一身,可以滿足法律用戶的需求。
升級后,基于創(chuàng)新性Agentic架構(gòu)和迭代式規(guī)劃(Iterative Planning),「通義法?!笵eepResearch大幅升級。
如今,它能夠執(zhí)行多步查詢,依托真實判例、法規(guī)和解讀,提供可追溯分析。
通過PK,「通義法?!乖谌蠛诵木S度——答案要點質(zhì)量、案例引用質(zhì)量、法條引用質(zhì)量上,超越了OpenAI、Claude家的Deep Research。

總結(jié)
總而言之,通義DeepResearch的開源,無疑是AI社區(qū)的一大福音,人人可構(gòu)建專屬的深度研究智能體。
它證明了,輕量模型在「深度研究」領(lǐng)域中也能稱霸。
它很慷慨,大方分享其背后技術(shù)秘方——合成數(shù)據(jù)+強化學(xué)習(xí)是訓(xùn)練模型的未來。
下一個爆款A(yù)PP,或許有天,正是通義DeepResearch打造的。





























