阿里通義DeepResearch曉讀:開源AI研究員Agent模型新標桿!
上周我?guī)团笥岩?guī)劃香港三日游,她對著20多篇攻略抓狂:“一會兒說迪士尼要早去,一會兒說淺水灣下午才好看,帶寵物還得找酒店,我這腦子根本記不??!” 其實不止旅游,寫論文時翻十幾篇文獻、查法律案例時核對法條、甚至幫老板整理行業(yè)報告——我們都曾陷入“信息雜亂、整理費勁、還容易出錯”的困境。
巧了,我剛啃完阿里團隊發(fā)布的Tongyi DeepResearch技術報告,這東西簡直是“AI版研究員”:能自己搜網頁、整理信息、甚至像人一樣分步驟解決復雜問題,關鍵是全開源(普通人也能改能用),在多個 benchmark 上還超過了OpenAI的DeepResearch。今天就聊聊這東西到底咋回事,以及它能幫我們解決哪些實際麻煩。
圖片
一、先搞懂:我們?yōu)樯缎枰皶约鹤鲅芯俊钡腁I?
在說技術前,先掰扯個核心問題:傳統(tǒng)AI(比如你常用的聊天機器人)查資料時,到底差在哪兒?
舉個例子:你讓傳統(tǒng)AI“規(guī)劃香港三日游,要帶寵物”。它可能會給你列幾個景點,但不會主動查“香港哪些酒店允許帶寵物”,也不會算“從迪士尼到淺水灣的交通時間會不會趕”——更要命的是,要是信息過時了(比如某個景點閉館),它根本不知道去更新。
這背后有兩個大痛點:
? “只會背書,不會動手”:傳統(tǒng)AI的知識停留在訓練數據里,不會主動用工具(比如搜網頁、查數據庫)獲取新信息;
? “信息堆成山,不會整理”:就算能搜到信息,也會把所有內容堆給你——就像把20篇攻略的文字全復制粘貼,你還得自己挑重點,這跟沒幫一樣。
而Tongyi DeepResearch要解決的,就是讓AI從“被動問答”變成“主動研究員”:不僅能自己找信息,還能把信息按邏輯整理好,甚至根據你的需求調整方案。
二、拆解核心:這AI是怎么“學會做研究”的?
要讓AI具備“研究員能力”,不是簡單喂數據就行。阿里團隊設計了一套“從上學到上班”的全流程訓練方法——我用“培養(yǎng)一個實習生”的比喻,給你講清楚這三步核心操作。
圖片
1. 第一步:Agentic CPT——先給AI“打基礎”(相當于實習生入職前的培訓)
想讓實習生做研究,得先教他基礎知識吧?AI也一樣。這里的“Agentic CPT”(智能體持續(xù)預訓練),就是給AI補“研究基本功”。
圖片
但跟傳統(tǒng)“亂喂數據”不同,阿里團隊搞了個叫AgentFounder的工具,把數據整理得特別有條理:
? 先收集“原材料”:包括網頁爬的資料、知識圖譜(比如“香港景點”的關聯(lián)信息)、之前AI查東西的記錄(比如搜“迪士尼開放時間”的結果);
? 再做成“知識卡片”:把這些原材料按“實體”分類——比如“香港故宮文化博物館”這張卡片,會標好位置、開放時間、附近交通、游客評價,相當于給每個知識點貼了標簽;
? 最后出“練習題”:從卡片里隨機抽內容,生成“問答對”——比如“香港故宮文化博物館附近有哪些地鐵站?”“去那里玩需要預約嗎?”,讓AI反復練習“找信息、答問題”的能力。
我覺得這步最妙的是“數據飛輪”:AI后續(xù)做研究的記錄,又能反過來變成新的“知識卡片”,相當于實習生一邊工作一邊學新東西,越練越熟練。
2. 第二步:SFT——師傅帶徒弟,教AI“按步驟做事”(相當于實習生跟著老員工學流程)
光有基礎知識不夠,還得教AI“怎么做具體任務”。這步叫SFT(監(jiān)督微調),就像老員工帶著實習生做項目,把“正確流程”演示給它看。
團隊用了兩種“教學方法”:
? ReAct框架:相當于“按食譜做飯”——先“思考”(比如“用戶要帶寵物去香港,得先查寵物友好酒店”),再“行動”(比如“搜‘香港寵物友好酒店 2025’”),最后“觀察”(比如“找到3家酒店,記錄地址和價格”),一步一步來,確保AI不跳步;
? IterResearch框架:更高級的“項目管理”——比如規(guī)劃旅游時,AI會先把任務拆成“選景點→查交通→定酒店”,每完成一步就整理一次信息,避免把所有東西堆在一起。
舉個實際場景:用IterResearch教AI規(guī)劃香港三日游,它會先列“必去景點清單”,再查每個景點的交通是否順路,然后根據“帶寵物”的需求篩選酒店,每一步都把結果整理成“小報告”,最后再匯總成完整行程。這種方式能避免AI“想到哪兒做到哪兒”,跟我們真實做規(guī)劃的邏輯一模一樣。
3. 第三步:RL——像教練一樣,幫AI“糾錯優(yōu)化”(相當于實習生做完項目,老板給反饋)
就算教了流程,AI也會犯錯——比如漏查某個景點的開放時間,或者選的酒店離景點太遠。這時候就需要RL(強化學習),相當于給AI配個“教練”,根據結果打分,讓它越做越好。
圖片
團隊在這里搞了兩個關鍵創(chuàng)新,我用“體育訓練”打比方:
? GRPO算法:相當于“針對性訓練計劃”——不是讓AI盲目練,而是盯著它“當前最該改的問題”。比如AI總漏查“寵物友好”這個需求,就專門給它加這類訓練題,確保學的都是有用的;
? 負樣本篩選:相當于“不練錯誤動作”——如果AI的某個操作完全沒用(比如反復搜同一個過期信息),就不讓它再學這種錯誤,避免“越練越錯”。
最讓我驚訝的是訓練效果:AI的“獎勵分”一直在漲,而且“探索欲”沒降(專業(yè)叫“政策熵”高)——也就是說,它不僅越做越好,還愿意嘗試新方法,不會僵在一個流程里。
三、兩種工作模式:應付日常需求,還是攻堅復雜任務?
訓練好的AI,有兩種“干活方式”,就像我們用“記事本”和“專業(yè)軟件”的區(qū)別,能應對不同場景。
1. Native ReAct Mode:簡單直接,應付日常查資料
這種模式適合“快速找答案”,比如“肆月河豚餐廳有什么推薦菜?”“香港故宮文化博物館幾點開門?”。
它的邏輯特別簡單:嚴格按“思考→行動→觀察”循環(huán)來,不用額外設置。比如你問“肆月河豚的全河豚宴有什么特色”,AI會先想“需要查這家餐廳的菜單和介紹”,然后搜相關信息,最后整理出“融合宋代飲食文化,用詞牌名命名菜品,有刺身、紅燒河豚等”——整個過程就像你自己查資料,但快10倍。
而且它的“記憶力”很好(上下文長度128K),能處理多輪對話。比如你接著問“這家店適合商務宴請嗎?”,它不用再重新搜,直接從之前的信息里找答案,相當于“記住了你之前問的事”。
2. Heavy Mode:深度研究,搞定復雜任務
如果遇到“需要分步驟、多信息整合”的事,比如“寫一篇關于‘香港旅游業(yè)2025趨勢’的報告”“查一個復雜的法律案例并引用法條”,就得用Heavy Mode了。
圖片
它的核心是解決一個大問題:傳統(tǒng)AI處理復雜任務時,會把所有信息堆在“腦子”里,導致“記混、漏看”(專業(yè)叫“認知窒息”)。而Heavy Mode像“研究員整理文件”:
? 把任務拆成“研究輪次”:比如寫報告時,先拆成“查2025香港旅游數據→分析游客偏好→總結趨勢”;
? 每輪只看“當前需要的信息”:比如分析游客偏好時,只調出“游客調查數據”,不看其他無關信息;
? 同步寫“研究報告”:每輪結束后,把關鍵結論整理進報告,最后匯總成完整結果。
更厲害的是“Research-Synthesis框架”:相當于“多個研究員分工合作”——比如查法律案例時,3個AI分別查“相關法條”“類似案例”“判決結果”,最后由1個AI匯總成完整分析,不僅快,還能避免遺漏。
我之前用它試了“查一個勞動合同糾紛案例”,AI不僅找到了相關法條,還標了具體條款編號,甚至對比了3個類似案例的判決結果——這要是人工做,至少得半天,AI半小時就搞定了。
圖片
四、真能落地嗎?看兩個實際案例
技術說得再好聽,不如看實際能用在哪。報告里提了兩個已經落地的案例,特別貼近生活。
1. 高德“小高”:會“懂你需求”的旅游規(guī)劃師
阿里和高德合作的“小高”AI助手,就是用了Tongyi DeepResearch的技術。比如你說“幫我規(guī)劃香港三日游,帶寵物,每天景點不超過4個,交通時間要短”,它會:
圖片
? 先篩選“寵物友好”的景點和酒店(比如排除不允許寵物進入的博物館);
? 按“順路”原則安排每天行程(比如第一天把中環(huán)的香港公園、天星小輪放一起,避免跨區(qū)跑);
? 計算每個景點的交通時間(比如從迪士尼到大埔海濱公園要多久,會不會趕不上日落);
? 最后出一份帶時間、交通方式、注意事項的完整行程,甚至能整合用戶評論(比如“這家酒店寵物設施好,但早餐一般”)。
比你自己翻攻略強太多——它不僅“會搜”,還“會替你著想”。
2. 法瑞(FaRui):能“引用法條”的法律助手
對于需要精準度的場景,比如法律查案,Tongyi DeepResearch也能用上。法瑞(FaRui)法律AI能:
圖片
? 自主搜“類似案例”“相關法條”;
? 準確引用法條編號和案例名稱(避免人工引用時出錯);
? 整理成“分析報告”,標注每個結論的依據。
報告里有組數據很直觀:在“法條引用質量”上,Tongyi DeepResearch得81.01分,比OpenAI的75.83分高5分多;“案例引用質量”更明顯,64.26分 vs OpenAI的57.56分——這意味著它的法律分析更靠譜,能幫律師省不少核對時間。
五、現在還差點啥?AI研究員的“待辦清單”
作為研究員,我得客觀說:Tongyi DeepResearch不是“完美工具”,還有三個要補的“功課”。
? “記憶力”還不夠長:目前128K的上下文長度,處理單篇論文或短期行程夠,但要是處理“整本學術專著”“跨季度的項目報告”,可能就裝不下所有信息了——相當于你用記事本寫長文章,翻頁太麻煩。
? “規(guī)模驗證”沒做完:現在用的是30B參數的模型(可以理解為“中等規(guī)?!保?,更大規(guī)模的模型(比如100B以上)能不能用這套訓練方法,還沒驗證——就像一款手機在小屏幕上好用,大屏能不能適配,得再測。
? “訓練效率”要提升:目前的RL訓練比較費時間,要是想讓AI學新領域(比如醫(yī)療研究),得等很久——相當于實習生學新業(yè)務太慢,需要更高效的“培訓方法”。
我們團隊討論時也覺得,這些不是“硬傷”,而是接下來要優(yōu)化的方向。比如上下文長度,已經有團隊在試“動態(tài)擴展”技術,未來可能像“無限擴容的文件夾”,裝多少信息都不怕。
六、總結:這不是“AI助手”,是“AI同事”
聊到這兒,你可能發(fā)現了:Tongyi DeepResearch的核心不是“幫你查資料”,而是“像同事一樣,獨立完成研究任務”——它有基礎能力(CPT)、懂流程(SFT)、能優(yōu)化(RL),還能根據任務選工具(兩種模式)。
更重要的是它“開源”——這意味著不是阿里自己用,普通人、小公司也能改:比如教育機構可以改成“AI助教”,幫學生整理知識點;企業(yè)可以改成“行業(yè)研究員”,幫員工分析市場數據。
最后想跟你聊個話題:如果這種“AI研究員”再成熟一點,你最想讓它幫你做什么?是寫報告、查資料,還是規(guī)劃更復雜的事?歡迎在評論區(qū)聊聊你的想法。
參考資料
? 標題:Tongyi DeepResearch: A New Era of Open-Source AI Researchers
? 作者:Tongyi DeepResearch Team (Alibaba)
? 鏈接:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
































