偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="pp6gd"></nobr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

阿里王牌Agent橫掃SOTA，全棧開源力壓OpenAI！博士級難題一鍵搞定

2025-09-18 12:39:10

人工智能新聞

阿里昨晚放大招，正式開源通義DeepResearch，一舉登頂碾壓OpenAI、DeepSeek。模型、框架、方案全部開源，背后核心技術(shù)報告一同公開了。

阿里又雙叒叕上大分了！

就在昨天，阿里旗下首個深度研究Agent模型——通義DeepResearch正式開源。

在多項權(quán)威基準(zhǔn)上，通義DeepResearch狂飆SOTA，僅依靠30B參數(shù)（激活3B）就能大殺四方！

在號稱人類最后的考試榜單HLE（Humanity's Last Exam）中，通義DeepResearch更是拿下了32.9%的最高分，超越DeepSeek-V3.1（29.8%）和OpenAI DeepResearch（26.6%），霸榜全球第一！

在OpenAI提出的超高難度BrowseComp榜單上，通義DeepResearch以43.4%的準(zhǔn)確率領(lǐng)跑開源榜單。

值得一提的是，模型、框架、方案全面開源，開發(fā)者即可在Hugging Face、GitHub下載。

目前，GitHub項目已狂攬7.2k星。

項目地址：https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址：https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技術(shù)博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

這波充滿了誠意的開源操作和出色性能，直接點燃了AI圈！

不僅引來廣大網(wǎng)友們紛紛致謝，甚至Hugging Face聯(lián)合創(chuàng)始人兼CEO Clem Delangue和斯坦福NLP實驗室等科技大V在第一時間進行轉(zhuǎn)發(fā)關(guān)注。

不止于問答：AI的「研究員」時代

我們已經(jīng)習(xí)慣了AI的有問必答，但如果問題本身就無比復(fù)雜呢？

AI Deep Research 給出了答案。它徹底告別了「一問一答」的模式，進化為一位真正的「研究員」。面對一個棘手的問題，它會自主規(guī)劃一條完整的研究路徑，像人類專家一樣工作：

深度搜尋—多源交叉—結(jié)構(gòu)化歸納—報告生成

你得到的，將是一份真正能解決問題的方案：論據(jù)有源可溯，過程清晰可復(fù)現(xiàn)，結(jié)論擲地有聲。

通義DeepResearch既可以是你的資深研究員，也能是你的高效私人助手，其首要任務(wù)便是將宏大問題精巧地拆解為一系列邏輯清晰的子任務(wù)。

隨后，它為每個環(huán)節(jié)自主調(diào)用代碼分析、論文檢索、網(wǎng)頁訪問等工具，以層層遞進、自主循環(huán)的方式完成整個研究鏈路。

說多無用，不如看一些直觀的演示。

假設(shè)你正在考慮出售房子，想要了解所在地區(qū)最近樓盤的銷售情況，直接找通義DeepResearch——

我住在夏威夷的珍珠城，位于瓦胡島上。

我知道附近有兩處房產(chǎn)于2022年售出，分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。

請找出這兩處房產(chǎn)中2022年售價更高的那套，并告訴我其成交金額。

通義DeepResearch分了四步思考：

想要完成任務(wù)，第一步就是拆解指令，然后「聯(lián)網(wǎng)」抓取數(shù)據(jù)，查詢2022年房產(chǎn)銷售記錄，并提取相應(yīng)的銷售價格。

搜索之后，并非一下得出結(jié)果，而是在多個來源中，反復(fù)核查確認(rèn)。

在生活規(guī)劃和日常決策過程中，通義DeepResearch主要調(diào)用「聯(lián)網(wǎng)搜索」工具，準(zhǔn)確完成了任務(wù)。

過程

回答

再來看一個比較專的領(lǐng)域——法律，通義DeepResearch的表現(xiàn)又如何？

舉個栗子，生活中的法律糾紛經(jīng)常見，自己又不懂法，想要解決難題扔給AI就好了。

假設(shè)一個人恰好遇到了「原告要求退還出資，但自己又欠了一屁股債，還有很多債權(quán)人」的難題，那么原告是否違反資本維持原則？

在行動之前，通義DeepResearch大腦已經(jīng)有了完整的構(gòu)思，從問題拆解到工具使用。

接下來，就會看到通義用上了各種工具，獲取法條、案例，并查找學(xué)術(shù)觀點，最終收集所有可靠信息。

可以看到，通義執(zhí)行任務(wù)的整個過程非?？b密，方便后期回溯。

過程

回答

再比如，有一個博士級跨學(xué)科的難題，自己拿不準(zhǔn)，可以請教通義。

考慮這樣一個「星座」的數(shù)學(xué)模型：在一小片天區(qū)內(nèi)，每顆亮于某一特定星等的恒星，都與其最近的鄰居（按二維歐幾里得距離計算）連接一條邊。

假設(shè)恒星在天空中均勻分布，那么平均每個星座（即連通子圖）包含多少顆恒星？

此處，思考過程省略億字......

但從通義的表現(xiàn)中，看得出每一步的計算和思考，都是建立在深度搜索、查詢，反復(fù)驗證的過程之上。

除了常用的搜索、瀏覽工具，它還借用「Python解釋器」、「谷歌學(xué)術(shù)」等工具幫自己理解，最后給出詳細(xì)的報告。

那么，通義DeepResearch團隊是如何煉成「超級研究大腦」？深入技術(shù)細(xì)節(jié)，讓我們一一拆解。

從零開始的數(shù)據(jù)煉金術(shù)

高質(zhì)量數(shù)據(jù)，是大模型的核心，也仍然是智能體的生命之源。

通義DeepResearch團隊在反復(fù)試錯和探索下，構(gòu)建出一套完備的「智能體合成數(shù)據(jù)」體系，貫穿預(yù)訓(xùn)練與后訓(xùn)練的完整訓(xùn)練鏈路。

這個策略的終極目標(biāo)，是擺脫對昂貴且稀缺的人工標(biāo)注數(shù)據(jù)的依賴，用「機器生產(chǎn)」的方式，源源不斷地創(chuàng)造出比人類標(biāo)注質(zhì)量更高、規(guī)模更龐大的訓(xùn)練「教材」。

第一步：智能體增量預(yù)訓(xùn)練數(shù)據(jù)合成

在預(yù)訓(xùn)練過程中，傳統(tǒng)模型更像是一次性填鴨式教學(xué)，仍然是「記住知識」。

團隊首次引入了「Agentic CPT」（增量預(yù)訓(xùn)練）的概念，教會模型「使用知識」，并且構(gòu)造了一個能夠持續(xù)進化和擴展的智能體預(yù)訓(xùn)練數(shù)據(jù)合成方法AgentFounder。

構(gòu)建開放世界記憶

團隊首先將海量知識文檔、網(wǎng)頁爬蟲數(shù)據(jù)、知識圖譜，以及模型后訓(xùn)練產(chǎn)生的思考軌跡和工具使用記錄，全部匯集起來，構(gòu)建了一個龐大的、以實體為核心的「開放世界知識記憶庫」。

接著，從這個記憶庫中抽取知識點，模擬真實世界中千奇百怪的場景，自動生成無數(shù)「問題-答案」對。

動作合成

更近一步，他們構(gòu)建了三種類型的「動作數(shù)據(jù)」，具體包含規(guī)劃、推理和決策動作。

這種方法讓模型在離線狀態(tài)下，就能探索海量的推理路徑，而無需昂貴的在線API調(diào)用，大大提升了訓(xùn)練效率和深度。

尤其是，對于「決策動作」合成，會將軌跡重構(gòu)為多步驟決策過程，充分探索有效的問題解決路徑，讓模型決策能力大幅提升。

第二步：全自動高質(zhì)量數(shù)據(jù)合成

基礎(chǔ)打好后，如何讓模型「百尺竿頭，更進一步」？

在后訓(xùn)練階段，團隊又開發(fā)了一套全自動的合成數(shù)據(jù)生成方案，直接產(chǎn)出比人工標(biāo)注質(zhì)量還高的數(shù)據(jù)集。

從最早的WebWalker，到后來更系統(tǒng)的WebSailor，WebShaper，最后的WebSailor V2這一方案不斷迭代。

每一步，都Scaling了數(shù)據(jù)的質(zhì)量和規(guī)模。

為了生成復(fù)雜的問答對數(shù)據(jù)，他們開創(chuàng)了一個全新流程：

確保數(shù)據(jù)真實

從真實網(wǎng)站數(shù)據(jù)中提取信息，用上隨機游走構(gòu)建知識圖譜、表格數(shù)據(jù)融合等方式，保證了問題的「原汁原味」。

人為制造「迷霧」

接著，策略性地隱藏或模糊問題中的關(guān)鍵信息，或以其他方式增加問題的不確定性，來提升問題的難度。

團隊甚至將回答難度，建模為一系列可控的「原子操作」，由此一來，可以精準(zhǔn)控制問題的復(fù)雜度。

杜絕「抄近道」

為了防止模型「偷懶」找捷徑，團隊還基于集合論把信息搜索問題形式化建模。

這不僅能生成更高質(zhì)量的問題，還解決了合成數(shù)據(jù)難以驗證答案正確性的行業(yè)難題。

打造「博士級」難題

此外，還開發(fā)了一個專用于生成跨科學(xué)知識、多步推理的「博士級」研究難題的自動化數(shù)據(jù)流程。

它讓一個配備網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索等工具的Agent，在一個循環(huán)中不斷深化和擴展問題，像滾雪球一樣讓任務(wù)難度可控升級。

兩種推理模式，征服長任務(wù)

擁有了頂級的「教材」，還需要高效的學(xué)習(xí)和思考方式。

通義DeepResearch模型同時支持兩種推理模式：一個是原生的ReAct Mode，另一個是基于上下文管理的Heavy Mode。

經(jīng)典模式：ReAct Mode

在標(biāo)準(zhǔn)任務(wù)中，模型采用經(jīng)典的ReAct（思考-行動-觀察）模式，性能超乎想象。

它就像一個直覺敏銳的行動派，憑借128K的超長上下文，可以進行多輪次的快速交互，高效解決問題。

這種通用、可拓展的推理模式，盡管簡單，但其是原生模型Agentic能力的直接體現(xiàn)。

深度模式：Heavy Mode

放眼全世界，谷歌、OpenAI、xAI等大廠都在「深度研究」上展開布局，緊追當(dāng)前Agent熱點。

但是，他們大都采用了「單窗口、線性累加」信息處理模式，弊端就是信息一多，「AI大腦」就不夠用了。

因為，所有中間思路和檢索到的信息，都堆積在了單一的上下文中。

在處理長程任務(wù)中，這種模式下的Agent就會面臨「認(rèn)知空間窒息」和「不可逆的噪聲污染」挑戰(zhàn)。

最終，AI推理能力下降，難以完成長程、復(fù)雜的研究任務(wù)。

當(dāng)面對極端復(fù)雜、需要長遠規(guī)劃的研究任務(wù)時，「深度模式」（Heavy Mode）便會啟動。

具體來說，模型會將一個龐大任務(wù)分解為一系列「研究輪次」：

在每一輪開始，Agent僅從上一輪的信息中提取最精華的結(jié)論，構(gòu)建一個全新的、精簡的工作空間。
在這個專注的工作空間里，Agent分析問題，將關(guān)鍵發(fā)現(xiàn)整合進一個不斷演變的核心報告中。
最后，它決定下一步是繼續(xù)收集信息，還是給出最終答案。

這種「綜合-重構(gòu)」的迭代過程，讓Agent在執(zhí)行超長期任務(wù)時，始終能保持清晰的「認(rèn)知焦點」和高質(zhì)量的推理能力。

更進一步，團隊還提出了Research-Synthesis框架：

讓多個IterResearch Agent并行研究同一問題，最后將其報告和結(jié)論整合，從而獲得更全面、更準(zhǔn)確的答案。

這一模式下，通義30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基準(zhǔn)上，性能再破紀(jì)錄。

AI智能體自我進化

端到端訓(xùn)練技術(shù)革新

如果說數(shù)據(jù)和推理模式是「招式」，那么訓(xùn)練流程就是「心法」。

團隊打通了「Agentic CPT→ SFT→ Agentic RL」端到端全鏈路，首次提出了兩階段的智能體增量預(yù)訓(xùn)練，引領(lǐng)了智能體訓(xùn)練的新范式。

此外，其基于ReAct框架的強化學(xué)習(xí)環(huán)節(jié)，最能體現(xiàn)其深厚的系統(tǒng)工程能力。

團隊坦言，通過強化學(xué)習(xí)構(gòu)建高質(zhì)量Agent，是一項復(fù)雜的系統(tǒng)工程挑戰(zhàn)。

如果將開發(fā)過程視為一個「強化學(xué)習(xí)」循環(huán)，其組件中任何不穩(wěn)定，或是魯棒性不足之處，都可能導(dǎo)致錯誤的「獎勵」信號。

那么，在強化學(xué)習(xí)過程中，團隊如何在算法和基礎(chǔ)設(shè)施上取得突破？

算法是核心

針對算法，基于GRPO定制優(yōu)化，嚴(yán)格遵循on-policy訓(xùn)練范式，確保信號匹配模型能力。

與此同時，采取一個token級策略梯度損失函數(shù)，以優(yōu)化訓(xùn)練目標(biāo)。結(jié)合留一法 (leave-one-out) 策略，降低優(yōu)勢估計方差。

為了避免「格式崩潰」現(xiàn)象，團隊還進行多種策略的負(fù)樣本篩選，比如排除過長未能生成答案的樣本。

此外，通過增大批次（batch size）和組規(guī)模（group size），維持較小方差，提供充足監(jiān)督信號。

如上圖動態(tài)指標(biāo)顯示，獎勵持續(xù)震蕩上升。同時，策略熵（policy entropy）保持較高水平，說明模型在持續(xù)探索進化，避免了過早收斂。

這得益于Web環(huán)境的非平穩(wěn)性，形成了魯棒自適應(yīng)策略，無需額外正則化。

算法穩(wěn)定搞定了，就一切萬事大吉了嗎？顯然不是。

基礎(chǔ)設(shè)施更關(guān)鍵

團隊分享了一個至關(guān)重要的洞見：

算法固然重要，但并非成功的唯一決定因素。數(shù)據(jù)質(zhì)量和訓(xùn)練環(huán)境的穩(wěn)定性，可能是決定強化學(xué)習(xí)項目成敗的更關(guān)鍵一環(huán)。

一個極具說服力的現(xiàn)象是，團隊曾嘗試直接在人工標(biāo)注的BrowseComp測試集上訓(xùn)練模型來驗證算法，結(jié)果其表現(xiàn)遠不如使用自研合成數(shù)據(jù)訓(xùn)練的效果。

由此，他們推測，這是因為合成數(shù)據(jù)提供了一致性更高的潛在分布，使模型能進行更有效的學(xué)習(xí)和擬合。

相較之下，規(guī)模有限、含有更多噪聲的人工數(shù)據(jù)，反而讓模型難以提煉和泛化。

為了實現(xiàn)穩(wěn)定、高效的強化學(xué)習(xí)，他們構(gòu)建了一套全棧式的基礎(chǔ)設(shè)施「護城河」：

仿真訓(xùn)練環(huán)境：利用離線維基百科和自定義工具套件，創(chuàng)建了一個經(jīng)濟高效、快速可控的模擬訓(xùn)練平臺，擺脫了對昂貴且不穩(wěn)定的實時Web API的依賴。
工具沙盒：通過緩存結(jié)果、失敗重試、飽和式響應(yīng)等機制，為智能體提供了快速魯棒的交互環(huán)境，防止工具的偶然錯誤破壞其學(xué)習(xí)軌跡。
自動數(shù)據(jù)管理：在訓(xùn)練動態(tài)的指導(dǎo)下實時優(yōu)化數(shù)據(jù)集，通過全自動數(shù)據(jù)合成和數(shù)據(jù)漏斗，形成「數(shù)據(jù)生成」與「模型訓(xùn)練」之間的正向循環(huán)。
On-policy的異步框架：基于rLLM實現(xiàn)，讓多個智能體實例并行與環(huán)境交互，獨立生成軌跡，極大提升了訓(xùn)練效率。

通過這一系列措施，阿里團隊實現(xiàn)了智能體強化訓(xùn)練的「閉環(huán)」，讓模型從一個基座模型開始，通過預(yù)訓(xùn)練、微調(diào)，最終在強化學(xué)習(xí)中實現(xiàn)自我進化。

這套全棧方案，恰恰為解決復(fù)雜任務(wù)的AI智能體訓(xùn)練樹立了全新范式。

「高德行程規(guī)劃」和「律師小助理」雙開花

過去半年，通義DeepResearch團隊在Deep Research研發(fā)中不斷深耕，每月一篇新作，全部斬獲SOTA。

通義DeepResearch團隊技術(shù)報告矩陣

除了技術(shù)報告誠意滿滿，通義DeepResearch團隊一口氣連發(fā)六篇技術(shù)報告，除了延續(xù)Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外，更是全新推出Agent系列的AgentFounder和AgentScaler！

這些重磅研究，并非是實驗室的「花瓶」，它們早已走向落地，賦能阿里旗下多個產(chǎn)品。

比如，每個人都能感知的案例——高德「小高老師」。可能你還不知道的是，其背后就是通義DeepResearch提供的加持。

前段時間，高德暑期大版本V16，重點全面推出「地圖導(dǎo)航+本地生活」場景。

通義團隊和高德深度合作，在上述導(dǎo)航和本地生活場景中構(gòu)建集成Deep Research能力的垂類智能體。

在規(guī)劃決策中，通義團隊基于Qwen模型微調(diào)構(gòu)建精通地圖領(lǐng)域的復(fù)雜「POI推理Agent」，一個超懂地圖的智能助手。

它能一鍵get各種復(fù)雜需求，比如地理區(qū)域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。

舉個例子，當(dāng)你輸入一長串要求——

我想在西湖邊上找家評分4.5以上的浙菜館，得有兒童餐，而且從地鐵站走過去不能超過1公里。

AI能夠立即挑出最合適的點，連怎么走都可以安排得明明白白。

再比如，假設(shè)想去奧森Citywalk，高德AI瞬間就能制定出三種攻略。

打開每一種攻略，可以看到，它會幫你做出詳細(xì)的時間規(guī)劃，貼心地推薦餐飲、游玩景點等。

通義出模型，高德出工具和Agent鏈路，由此打造出了「小德助手」驚艷的體驗。

在法律領(lǐng)域，通義DeepResearch能力也深度融合到了「通義法?！怪?，一個原生法律智能體。

它集問答、案例檢索、合同審查、文書起草于一身，可以滿足法律用戶的需求。

升級后，基于創(chuàng)新性Agentic架構(gòu)和迭代式規(guī)劃（Iterative Planning），「通義法?！笵eepResearch大幅升級。

如今，它能夠執(zhí)行多步查詢，依托真實判例、法規(guī)和解讀，提供可追溯分析。

通過PK，「通義法?！乖谌蠛诵木S度——答案要點質(zhì)量、案例引用質(zhì)量、法條引用質(zhì)量上，超越了OpenAI、Claude家的Deep Research。

總結(jié)

總而言之，通義DeepResearch的開源，無疑是AI社區(qū)的一大福音，人人可構(gòu)建專屬的深度研究智能體。

它證明了，輕量模型在「深度研究」領(lǐng)域中也能稱霸。

它很慷慨，大方分享其背后技術(shù)秘方——合成數(shù)據(jù)+強化學(xué)習(xí)是訓(xùn)練模型的未來。

下一個爆款A(yù)PP，或許有天，正是通義DeepResearch打造的。

責(zé)任編輯：張燕妮來源：新智元

AI 模型開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="fco0r"></dfn>

<big id="fco0r"></big>