偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

通義DeepResearch開源發(fā)布:首個(gè)匹敵OpenAI的全棧Web Agent

人工智能 開源
通義DeepResearch重磅開源!全球首個(gè)性能匹敵OpenAI的全棧Web Agent,登頂HLE、BrowseComp等四大權(quán)威基準(zhǔn)。完整公開訓(xùn)練方法論,推動(dòng)自主智能體民主化。

大家好,我是肆〇柒。在AI飛速發(fā)展的今天,AI Agent正經(jīng)歷從簡(jiǎn)單對(duì)話機(jī)器人向自主智能體的重大轉(zhuǎn)變。就在上周,通義實(shí)驗(yàn)室(Tongyi Lab)開源了最新的研究成果——通義DeepResearch,并隨開源發(fā)布了六篇論文,被社區(qū)戲稱為“腹瀉式發(fā)論文”。

通義DeepResearch是全球首個(gè)在性能上全面對(duì)標(biāo)OpenAI DeepResearch、并在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中登頂?shù)娜_源Web Agent。他們不僅開源了模型,更首次完整公開了從數(shù)據(jù)合成到強(qiáng)化學(xué)習(xí)的全套訓(xùn)練方法論,為整個(gè)AI社區(qū)提供了可復(fù)現(xiàn)、可擴(kuò)展的Agent構(gòu)建方法論,推動(dòng)了自主智能體技術(shù)的民主化進(jìn)程。

通義DeepResearch在多個(gè)極高難度的信息檢索和推理任務(wù)中取得了最先進(jìn)的(SOTA)成績(jī):Humanity's Last Exam (HLE):32.9,BrowseComp-EN:45.3,BrowseComp-ZH:49.5,xBench-DeepSearch:75.0,全面超越了目前所有的閉源及開源Deep Research智能體(Agent)。

本文下面會(huì)簡(jiǎn)單介紹一下這一創(chuàng)新技術(shù)的架構(gòu)、訓(xùn)練方法和實(shí)際應(yīng)用,揭示如何打造一個(gè)真正具備深度研究能力的AI智能體。

通義DeepResearch:從Chatbot到Autonomous Agent的躍遷

AI Agent的演進(jìn)歷程

傳統(tǒng)的聊天機(jī)器人(Chatbot)主要專注于單輪或有限多輪對(duì)話,缺乏主動(dòng)獲取信息和執(zhí)行復(fù)雜任務(wù)的能力。而自主智能體(Autonomous Agent)則能夠理解復(fù)雜問題、規(guī)劃行動(dòng)路徑、調(diào)用工具、收集信息并進(jìn)行深度推理,最終給出高質(zhì)量答案。

通義DeepResearch正是這一演進(jìn)的關(guān)鍵里程碑。它不僅能夠理解自然語言指令,還能在開放的Web環(huán)境中自主導(dǎo)航、檢索信息、整合多源數(shù)據(jù)并進(jìn)行復(fù)雜推理,為用戶提供遠(yuǎn)超傳統(tǒng)聊天機(jī)器人的深度研究能力。

性能突破與行業(yè)領(lǐng)先

通義DeepResearch在多個(gè)權(quán)威基準(zhǔn)測(cè)試中展現(xiàn)出卓越性能,特別是在處理需要多步推理、信息整合和復(fù)雜決策的任務(wù)上:

Fig1: 通義DeepResearch性能指標(biāo)對(duì)比

通義DeepResearch性能指標(biāo)對(duì)比

從圖表可見,通義DeepResearch在Humanity's Last Exam (HLE)、BrowseComp-EN、BrowseComp-ZH和xBench-DeepSearch等關(guān)鍵基準(zhǔn)測(cè)試中均取得了領(lǐng)先成績(jī),全面超越了當(dāng)前所有閉源及開源解決方案。這些成績(jī)證明了通義DeepResearch不僅在技術(shù)上實(shí)現(xiàn)了突破,更在實(shí)際應(yīng)用中展現(xiàn)出強(qiáng)大能力。值得注意的是,這些指標(biāo)均是在公開可驗(yàn)證的基準(zhǔn)測(cè)試中取得的,為行業(yè)提供了客觀的性能參考。

全棧開源的技術(shù)價(jià)值

與市場(chǎng)上其他Deep Research解決方案不同,通義DeepResearch不僅提供了高性能模型,還完整分享了一套可落地的高水平Agent構(gòu)建方法論。從數(shù)據(jù)合成、Agentic增量預(yù)訓(xùn)練(CPT)、有監(jiān)督微調(diào)(SFT)冷啟動(dòng),到強(qiáng)化學(xué)習(xí)(RL)的全套流程,這一全棧開源策略為整個(gè)AI社區(qū)提供了寶貴的實(shí)踐參考,加速了自主智能體技術(shù)的普及和創(chuàng)新。

Agentic CPT(智能體增量預(yù)訓(xùn)練)作為這一方法論的核心環(huán)節(jié),是一種專門為Agent能力設(shè)計(jì)的預(yù)訓(xùn)練階段,旨在賦予模型基本的工具使用和環(huán)境交互能力。通過與后訓(xùn)練過程中源源不斷生產(chǎn)的數(shù)據(jù)形成數(shù)據(jù)飛輪,Agentic CPT為后續(xù)的SFT冷啟動(dòng)和強(qiáng)化學(xué)習(xí)奠定了堅(jiān)實(shí)基礎(chǔ)。

技術(shù)突破:基于合成數(shù)據(jù)的增量預(yù)訓(xùn)練和后訓(xùn)練

智能體增量預(yù)訓(xùn)練(Agentic CPT)的創(chuàng)新

在傳統(tǒng)大模型訓(xùn)練流程中,預(yù)訓(xùn)練階段主要關(guān)注語言理解和生成能力,而缺乏對(duì)工具使用和環(huán)境交互的專門訓(xùn)練。通義DeepResearch提出了智能體增量預(yù)訓(xùn)練(Agentic Continual Pre-training, Agentic CPT)階段,為后訓(xùn)練提供一個(gè)強(qiáng)大的Agent基座模型。

這一創(chuàng)新的關(guān)鍵在于AgentFounder——一套支持大規(guī)模持續(xù)擴(kuò)展的智能體預(yù)訓(xùn)練數(shù)據(jù)合成方案。AgentFounder與后訓(xùn)練過程中源源不斷生產(chǎn)的數(shù)據(jù)形成數(shù)據(jù)飛輪,不斷優(yōu)化模型能力。

SFT冷啟動(dòng)作為有監(jiān)督微調(diào)的初始階段,通過高質(zhì)量示例引導(dǎo)模型形成基本能力,是連接預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的重要橋梁。在通義DeepResearch的訓(xùn)練流程中,SFT冷啟動(dòng)確保了模型在進(jìn)入強(qiáng)化學(xué)習(xí)前已具備基礎(chǔ)的工具使用和推理能力。

數(shù)據(jù)重組與問題構(gòu)建

通義DeepResearch的數(shù)據(jù)合成方法基于廣泛收集和持續(xù)更新的知識(shí)文檔、公開爬蟲數(shù)據(jù)、知識(shí)圖譜以及后訓(xùn)練數(shù)據(jù)。其核心是以實(shí)體為錨定構(gòu)建開放世界知識(shí)記憶,然后基于采樣的實(shí)體和相關(guān)知識(shí)構(gòu)造多風(fēng)格的(問題,答案)對(duì)。

Fig2: 軌跡合成過程示意圖軌跡合成過程示意圖

如圖所示,該方法能夠覆蓋智能體面臨的真實(shí)場(chǎng)景,包括單步規(guī)劃、推理動(dòng)作和多步?jīng)Q策動(dòng)作。特別值得一提的是,通義DeepResearch能夠在離線環(huán)境下大規(guī)模探索潛在的推理-動(dòng)作空間,無需依賴額外商業(yè)工具API調(diào)用,大大降低了數(shù)據(jù)合成成本。這一創(chuàng)新使數(shù)據(jù)合成過程更加高效可控,為模型訓(xùn)練提供了豐富多樣的訓(xùn)練樣本。

High-quality QA數(shù)據(jù)生成流程

在建立了強(qiáng)大的基座模型后,高質(zhì)量的后訓(xùn)練數(shù)據(jù)成為進(jìn)一步提升Agent能力的關(guān)鍵。通義DeepResearch開發(fā)了一套端到端的合成數(shù)據(jù)生成解決方案,無需人工干預(yù)即可構(gòu)建超越人類質(zhì)量的數(shù)據(jù)集。這一流程經(jīng)歷了從WebWalker(網(wǎng)頁點(diǎn)擊流逆向工程Benchmark)到WebSailor和WebSailor-V2(基于圖譜的合成方法),再到WebShaper(形式化的任務(wù)建模)的長(zhǎng)期迭代。

基于知識(shí)圖譜的數(shù)據(jù)構(gòu)建

其核心技術(shù)包括基于知識(shí)圖譜隨機(jī)游走和表格數(shù)據(jù)融合構(gòu)建真實(shí)信息結(jié)構(gòu)。該流程首先通過在高度互聯(lián)的知識(shí)圖譜隨機(jī)游走和基于表格數(shù)據(jù)融合同構(gòu)表構(gòu)建,將來自真實(shí)網(wǎng)站數(shù)據(jù)整合,并確保信息結(jié)構(gòu)的真實(shí)性。然后,對(duì)子圖和子表進(jìn)行采樣,生成初始問題和答案。

問題難度控制機(jī)制

通過策略性混淆問題信息增加難度是提升模型能力的關(guān)鍵。該方法基于組合泛化的理論框架,將問答難度正式建模為一系列可控的"原子操作"(例如,合并具有相似屬性的實(shí)體),這些操作基于實(shí)體關(guān)系,使我們能夠系統(tǒng)地增加問題復(fù)雜性。

形式化建模提升數(shù)據(jù)質(zhì)量

為了進(jìn)一步減少問答系統(tǒng)的信息結(jié)構(gòu)與推理結(jié)構(gòu)之間的不一致性,通義DeepResearch提出了一種基于集合論的信息搜索問題形式化建模。這種建模使問題能夠以可控方式擴(kuò)展,最大限度地減少了推理捷徑和結(jié)構(gòu)冗余,從而進(jìn)一步提升了問題質(zhì)量。此外,這種形式還能高效地驗(yàn)證問答的正確性,有效解決了信息搜索合成數(shù)據(jù)難以驗(yàn)證的挑戰(zhàn)。

學(xué)術(shù)數(shù)據(jù)構(gòu)建流程

此外,通義DeepResearch還開發(fā)了一個(gè)自動(dòng)化學(xué)術(shù)數(shù)據(jù)構(gòu)建流程,以擴(kuò)大博士級(jí)研究問題的規(guī)模。該引擎基于多學(xué)科知識(shí)庫,生成需要多源推理的"種子"問答對(duì)。然后,每個(gè)種子都會(huì)進(jìn)入一個(gè)自我引導(dǎo)的"迭代復(fù)雜性升級(jí)"循環(huán),其中,一個(gè)問題構(gòu)建代理配備了一套強(qiáng)大的工具,包括網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索和Python執(zhí)行環(huán)境。在每次迭代中,代理都會(huì)擴(kuò)展知識(shí)邊界,深化概念抽象,甚至構(gòu)建計(jì)算任務(wù),從而形成一個(gè)演化循環(huán),上一輪的輸出成為下一輪更復(fù)雜的輸入,確保任務(wù)難度的可控且系統(tǒng)地升級(jí)。

融合多樣推理模式

為了激發(fā)模型的初始能力,通義DeepResearch基于ReAct和IterResearch框架構(gòu)建了高質(zhì)量訓(xùn)練數(shù)據(jù):

  • ReAct模式:提供基礎(chǔ)的多輪推理能力,增強(qiáng)模型遵循結(jié)構(gòu)化格式的能力
  • IterResearch模式:通過動(dòng)態(tài)重構(gòu)精簡(jiǎn)工作空間,釋放模型的全部推理潛力

這種多模式融合的數(shù)據(jù)構(gòu)建方法,使模型在訓(xùn)練初期就掌握了多樣化的推理策略,為后續(xù)的強(qiáng)化學(xué)習(xí)奠定了堅(jiān)實(shí)基礎(chǔ)。通過拒絕采樣的方式構(gòu)建的軌跡數(shù)據(jù),確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量和多樣性。

創(chuàng)新的Rollout模式:ReAct與深度模式

ReAct模式:簡(jiǎn)潔高效的推理基礎(chǔ)

通義DeepResearch的ReAct模式嚴(yán)格遵循"思考-行動(dòng)-觀察"的循環(huán),通過多次迭代來解決問題。模型支持128K上下文長(zhǎng)度,可以處理大量交互輪次,完全實(shí)現(xiàn)與環(huán)境交互的可擴(kuò)展性。

選擇ReAct模式很大程度上受到了"The Bitter Lesson"的影響——利用可擴(kuò)展計(jì)算的通用方法最終將優(yōu)于依賴復(fù)雜人工知識(shí)和設(shè)計(jì)的方法。ReAct的簡(jiǎn)單性和通用性為模型的內(nèi)在能力和訓(xùn)練流程的有效性提供了最清晰的基準(zhǔn)。在實(shí)際應(yīng)用中,基礎(chǔ)的ReAct模式無需任何提示工程即可充分展現(xiàn)模型固有能力,為用戶提供高效的問題解決體驗(yàn)。

深度模式:突破認(rèn)知瓶頸的創(chuàng)新

針對(duì)極端復(fù)雜的多步研究任務(wù),通義DeepResearch開發(fā)了"深度模式",基于全新的IterResearch范式。這一模式解決了Agent在處理長(zhǎng)程任務(wù)時(shí)面臨的兩大挑戰(zhàn):認(rèn)知瓶頸和上下文噪聲污染。

Fig3: IterResearch范式工作流程IterResearch范式工作流程

如圖所示,IterResearch將多步研究任務(wù)解構(gòu)為一系列研究回合。在每一輪中,Agent僅使用上一輪最重要的輸出重建精簡(jiǎn)工作空間,在此專注環(huán)境中分析問題、整合關(guān)鍵發(fā)現(xiàn)并決定下一步行動(dòng)。這種"綜合與重構(gòu)"的迭代過程使Agent能在長(zhǎng)期任務(wù)中保持清晰的認(rèn)知焦點(diǎn),有效避免了傳統(tǒng)方法中上下文不斷累積導(dǎo)致的信息過載問題。

Research-Synthesis框架:并行探索的智慧

在IterResearch基礎(chǔ)上,通義DeepResearch進(jìn)一步提出了Research-Synthesis框架,通過并行使用多個(gè)IterResearch Agent探索同一問題,最終整合它們的報(bào)告和結(jié)論。

Fig4: Research-Synthesis框架架構(gòu)Research-Synthesis框架架構(gòu)

這種并行結(jié)構(gòu)使模型能夠在有限上下文窗口內(nèi)考慮更廣泛的研究路徑,顯著提升復(fù)雜問題的解決能力。當(dāng)面對(duì)需要多角度分析、多源信息整合的深度研究任務(wù)時(shí),Research-Synthesis框架能夠發(fā)揮出最大優(yōu)勢(shì)。通過多個(gè)Agent實(shí)例的并行探索和最終整合,系統(tǒng)能夠發(fā)現(xiàn)更全面、更準(zhǔn)確的解決方案,大大提升了在極端復(fù)雜任務(wù)上的表現(xiàn)。

端到端Agent訓(xùn)練流程:從預(yù)訓(xùn)練到強(qiáng)化學(xué)習(xí)

通義DeepResearch建立了完整的智能體模型訓(xùn)練范式,下面簡(jiǎn)單說明了如何通過Agentic CPT → Agentic SFT → Agentic RL的無縫連接,為AI Agent創(chuàng)建端到端訓(xùn)練循環(huán)。

訓(xùn)練流程全景

通義DeepResearch建立了一套完整的智能體模型訓(xùn)練范式,將Agentic CPT → Agentic SFT → Agentic RL無縫連接,形成端到端訓(xùn)練循環(huán)。

Fig5: 通義DeepResearch端到端訓(xùn)練流程通義DeepResearch端到端訓(xùn)練流程

這一流程從預(yù)訓(xùn)練開始,通過增量預(yù)訓(xùn)練賦予模型基本的工具使用能力;然后通過監(jiān)督微調(diào)實(shí)現(xiàn)能力冷啟動(dòng);最后通過強(qiáng)化學(xué)習(xí)使模型進(jìn)行自我進(jìn)化,不斷提升解決復(fù)雜任務(wù)的能力。如圖所示,數(shù)據(jù)飛輪機(jī)制確保了各階段之間的有效銜接和持續(xù)優(yōu)化,形成了一個(gè)閉環(huán)的訓(xùn)練系統(tǒng)。

基于On-Policy策略的智能體強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是提升Agent性能的關(guān)鍵環(huán)節(jié),但也面臨諸多挑戰(zhàn)。通義DeepResearch在這一領(lǐng)域取得了顯著突破:

1. 算法優(yōu)化:基于GRPO進(jìn)行定制優(yōu)化,采用token級(jí)別的策略梯度損失函數(shù),使用留一法降低優(yōu)勢(shì)估計(jì)方差,并選擇性排除某些負(fù)樣本以提高訓(xùn)練穩(wěn)定性。

2. 訓(xùn)練動(dòng)態(tài):訓(xùn)練過程指標(biāo)顯示,模型學(xué)習(xí)效果顯著,獎(jiǎng)勵(lì)持續(xù)上升,策略熵維持在較高水平,表明模型持續(xù)進(jìn)行有效探索。

3. 數(shù)據(jù)質(zhì)量?jī)?yōu)先:研究發(fā)現(xiàn),合成數(shù)據(jù)比人工標(biāo)注數(shù)據(jù)(如BrowseComp測(cè)試集)更能有效提升模型性能。這是因?yàn)楹铣蓴?shù)據(jù)提供了一致性更高的分布,而人工標(biāo)注數(shù)據(jù)含有更多噪聲且規(guī)模有限。

Fig6: 強(qiáng)化學(xué)習(xí)訓(xùn)練曲線強(qiáng)化學(xué)習(xí)訓(xùn)練曲線

如圖所示,訓(xùn)練曲線清晰地展示了模型在強(qiáng)化學(xué)習(xí)過程中的持續(xù)進(jìn)步。獎(jiǎng)勵(lì)值的穩(wěn)定上升表明模型正在有效學(xué)習(xí),而策略熵的穩(wěn)定維持則表明模型保持了良好的探索能力,避免了過早收斂。這種訓(xùn)練動(dòng)態(tài)驗(yàn)證了我們方法的有效性。

高穩(wěn)定性基礎(chǔ)設(shè)施

為支持強(qiáng)化學(xué)習(xí)訓(xùn)練,通義DeepResearch構(gòu)建了四大關(guān)鍵基礎(chǔ)設(shè)施:

1. 仿真訓(xùn)練環(huán)境:利用離線維基百科數(shù)據(jù)庫和自定義工具套件創(chuàng)建模擬環(huán)境,避免依賴實(shí)時(shí)Web API帶來的高成本和不一致性。通過SailorFog-QA-V2流程,為該環(huán)境生成專屬的高質(zhì)量數(shù)據(jù),創(chuàng)建了一個(gè)經(jīng)濟(jì)高效、快速可控的平臺(tái)。

2. 穩(wěn)定高效的工具沙盒:通過緩存結(jié)果、重試失敗調(diào)用和飽和式響應(yīng)處理并發(fā)和故障,為Agent提供快速魯棒的交互環(huán)境。這一沙盒確保了工具調(diào)用的穩(wěn)定性,防止工具錯(cuò)誤響應(yīng)破壞學(xué)習(xí)軌跡。

3. 自動(dòng)數(shù)據(jù)管理:在訓(xùn)練動(dòng)態(tài)指導(dǎo)下實(shí)時(shí)優(yōu)化數(shù)據(jù),通過全自動(dòng)數(shù)據(jù)合成和數(shù)據(jù)漏斗動(dòng)態(tài)調(diào)整訓(xùn)練集,形成數(shù)據(jù)生成與模型訓(xùn)練的正向循環(huán)。數(shù)據(jù)質(zhì)量直接決定了模型是否能通過自我探索提升分布外泛化能力。

4. On-Policy異步框架:基于rLLM實(shí)現(xiàn)異步強(qiáng)化學(xué)習(xí)訓(xùn)練推理框架,支持多個(gè)Agent實(shí)例并行與環(huán)境交互。這種框架確保了訓(xùn)練效率和穩(wěn)定性,使強(qiáng)化學(xué)習(xí)過程更加高效。

這些基礎(chǔ)設(shè)施共同構(gòu)成了智能體強(qiáng)化訓(xùn)練的"閉環(huán)",確保了訓(xùn)練過程的穩(wěn)定性和高效性。從基座模型開始,通過Agentic持續(xù)預(yù)訓(xùn)練初始化工具使用技能,然后使用高質(zhì)量數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)實(shí)現(xiàn)冷啟動(dòng),最后通過on-policy強(qiáng)化學(xué)習(xí)使模型進(jìn)行自我進(jìn)化,這一全棧方法為訓(xùn)練能夠在動(dòng)態(tài)環(huán)境中穩(wěn)健解決復(fù)雜任務(wù)的AI代理提供了全新范例。

實(shí)際應(yīng)用與行業(yè)影響

高德地圖:地圖導(dǎo)航智能體

高德App作為通義在集團(tuán)內(nèi)長(zhǎng)期共建的重點(diǎn)客戶,其"地圖導(dǎo)航+本地生活"的業(yè)務(wù)場(chǎng)景具備構(gòu)建Deep Research類Agent的理想條件。通義團(tuán)隊(duì)與高德團(tuán)隊(duì)合作,"通義團(tuán)隊(duì)提供Deep Research模型+高德團(tuán)隊(duì)提供工具和Agent鏈路",共同打造了高德App中助手"高德小德"的復(fù)雜查詢體驗(yàn)。

Fig7: 高德小德復(fù)雜查詢界面高德小德復(fù)雜查詢界面

高德小德的復(fù)雜查詢功能使用戶能夠提出多條件導(dǎo)航需求,如"找一家有停車位、評(píng)分4.5以上、人均100元左右的川菜館"。系統(tǒng)能自動(dòng)完成多步信息檢索與綜合判斷,無需用戶分步查詢。這一應(yīng)用利用純agentic+ReAct執(zhí)行復(fù)雜推理的垂類Deep Research技術(shù),為用戶提供更精準(zhǔn)、更全面的導(dǎo)航和本地生活服務(wù),在地圖行業(yè)內(nèi)樹立了新的標(biāo)桿。通過深度研究能力,高德小德能理解用戶隱含需求,提供超出簡(jiǎn)單關(guān)鍵詞匹配的智能服務(wù)。

通義法睿:法律Deep Research

作為大模型原生的"法律智能體",通義法睿集法律問答、案例法條檢索、合同審查、文書閱讀和起草等功能于一體,全面滿足法律用戶需求。

Fig8: 通義法睿法律研究界面 通義法睿法律研究界面

依托創(chuàng)新的Agentic架構(gòu)與迭代式規(guī)劃(Iterative Planning)技術(shù),通義法睿實(shí)現(xiàn)了權(quán)威類案精準(zhǔn)檢索、法條智能匹配與專業(yè)觀點(diǎn)深度融合。在法律問答的深度研究三大核心維度——答案要點(diǎn)質(zhì)量、案例引用質(zhì)量和法條引用質(zhì)量上,通義法睿均領(lǐng)先行業(yè),為法律從業(yè)者提供了可追溯、高可信的分析服務(wù)。

通義法睿能夠處理復(fù)雜的法律咨詢,例如:"我被公司無故解雇,但簽了競(jìng)業(yè)協(xié)議,現(xiàn)在想入職競(jìng)爭(zhēng)對(duì)手,可能面臨什么法律風(fēng)險(xiǎn)?"系統(tǒng)會(huì)自動(dòng)檢索相關(guān)勞動(dòng)法條款、類似判例,并分析競(jìng)業(yè)協(xié)議的具體內(nèi)容,提供全面的法律風(fēng)險(xiǎn)評(píng)估。這種深度研究能力使法律專業(yè)人士能夠更高效地獲取精準(zhǔn)信息,提升工作效率和決策質(zhì)量。

未來展望與系列工作

當(dāng)前局限與改進(jìn)方向

盡管通義DeepResearch取得了階段性成績(jī),但仍面臨三個(gè)關(guān)鍵挑戰(zhàn):

1. 上下文長(zhǎng)度限制:當(dāng)前128k的上下文在處理極端復(fù)雜長(zhǎng)程推理任務(wù)時(shí)仍顯不足,未來將探索擴(kuò)展上下文窗口的有效方法,并研究更精細(xì)的上下文管理策略。

2. 訓(xùn)練流程可擴(kuò)展性:在遠(yuǎn)超30B參數(shù)規(guī)模的模型上尚未充分驗(yàn)證,計(jì)劃在更大規(guī)模模型上測(cè)試流程有效性,驗(yàn)證方法論的普適性。

3. 強(qiáng)化學(xué)習(xí)效率:將通過引入partial rollouts等技術(shù)提升RL框架效率,這需要攻克離線訓(xùn)練面臨的分布偏移問題,提高訓(xùn)練穩(wěn)定性和效率。

通義DeepResearch家族系列

通義DeepResearch擁有豐富的Deep Research Agent家族,每個(gè)成員都專注于解決特定領(lǐng)域的深度研究挑戰(zhàn):

Fig9: 通義DeepResearch家族系列

通義團(tuán)隊(duì)在過去六個(gè)月持續(xù)發(fā)布技術(shù)報(bào)告,目前已發(fā)布多篇重要研究成果,不斷推動(dòng)Deep Research領(lǐng)域的發(fā)展。這些工作共同構(gòu)成了一個(gè)完整的Deep Research生態(tài)系統(tǒng),為解決不同復(fù)雜度和領(lǐng)域的問題提供了針對(duì)性解決方案。

通義DeepResearch的發(fā)布標(biāo)志著AI Agent技術(shù)進(jìn)入了一個(gè)新階段。它不僅在性能上達(dá)到行業(yè)領(lǐng)先水平,更重要的是提供了完整的開源解決方案和方法論,為整個(gè)AI社區(qū)貢獻(xiàn)了寶貴的知識(shí)和實(shí)踐經(jīng)驗(yàn)。

通過從Chatbot到Autonomous Agent的躍遷,通義DeepResearch展示了AI技術(shù)如何真正賦能各行各業(yè),解決實(shí)際問題。無論是地圖導(dǎo)航還是法律研究,通義DeepResearch都證明了深度研究型智能體的巨大價(jià)值和潛力。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-09-18 09:56:47

2025-09-30 01:33:00

2024-05-09 11:52:30

通義大模型通義

2025-09-18 12:39:10

2025-04-21 08:35:00

OpenAI智能體編程

2023-09-17 12:21:21

RemixNext.js

2025-09-23 09:33:10

2023-12-01 13:36:01

阿里云通義千問

2023-05-17 10:05:56

2025-07-23 05:00:00

2025-02-27 09:45:50

2025-09-26 01:22:00

2021-06-17 10:28:42

谷歌開源轉(zhuǎn)譯器

2011-12-23 14:05:08

Ruby on RaiSDK人人網(wǎng)

2009-02-12 11:11:07

MoonlightSilverlightMono

2025-07-22 11:56:26

2022-04-13 08:00:00

Hilla開發(fā)Java

2025-10-22 07:59:49

2025-09-29 14:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)