偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="c8oc5"></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

阿里通義DeepResearch曉讀：開源AI研究員Agent模型新標桿！

作者：旺知識 2025-09-30 01:33:00

Tongyi DeepResearch要解決的，就是讓AI從“被動問答”變成“主動研究員”：不僅能自己找信息，還能把信息按邏輯整理好，甚至根據你的需求調整方案。

上周我?guī)团笥岩?guī)劃香港三日游，她對著20多篇攻略抓狂：“一會兒說迪士尼要早去，一會兒說淺水灣下午才好看，帶寵物還得找酒店，我這腦子根本記不??！” 其實不止旅游，寫論文時翻十幾篇文獻、查法律案例時核對法條、甚至幫老板整理行業(yè)報告——我們都曾陷入“信息雜亂、整理費勁、還容易出錯”的困境。

巧了，我剛啃完阿里團隊發(fā)布的Tongyi DeepResearch技術報告，這東西簡直是“AI版研究員”：能自己搜網頁、整理信息、甚至像人一樣分步驟解決復雜問題，關鍵是全開源（普通人也能改能用），在多個 benchmark 上還超過了OpenAI的DeepResearch。今天就聊聊這東西到底咋回事，以及它能幫我們解決哪些實際麻煩。

圖片

一、先搞懂：我們?yōu)樯缎枰皶约鹤鲅芯俊钡腁I？

在說技術前，先掰扯個核心問題：傳統(tǒng)AI（比如你常用的聊天機器人）查資料時，到底差在哪兒？

舉個例子：你讓傳統(tǒng)AI“規(guī)劃香港三日游，要帶寵物”。它可能會給你列幾個景點，但不會主動查“香港哪些酒店允許帶寵物”，也不會算“從迪士尼到淺水灣的交通時間會不會趕”——更要命的是，要是信息過時了（比如某個景點閉館），它根本不知道去更新。

這背后有兩個大痛點：

? “只會背書，不會動手”：傳統(tǒng)AI的知識停留在訓練數據里，不會主動用工具（比如搜網頁、查數據庫）獲取新信息；

? “信息堆成山，不會整理”：就算能搜到信息，也會把所有內容堆給你——就像把20篇攻略的文字全復制粘貼，你還得自己挑重點，這跟沒幫一樣。

而Tongyi DeepResearch要解決的，就是讓AI從“被動問答”變成“主動研究員”：不僅能自己找信息，還能把信息按邏輯整理好，甚至根據你的需求調整方案。

二、拆解核心：這AI是怎么“學會做研究”的？

要讓AI具備“研究員能力”，不是簡單喂數據就行。阿里團隊設計了一套“從上學到上班”的全流程訓練方法——我用“培養(yǎng)一個實習生”的比喻，給你講清楚這三步核心操作。

圖片

1. 第一步：Agentic CPT——先給AI“打基礎”（相當于實習生入職前的培訓）

想讓實習生做研究，得先教他基礎知識吧？AI也一樣。這里的“Agentic CPT”（智能體持續(xù)預訓練），就是給AI補“研究基本功”。

圖片

但跟傳統(tǒng)“亂喂數據”不同，阿里團隊搞了個叫AgentFounder的工具，把數據整理得特別有條理：

? 先收集“原材料”：包括網頁爬的資料、知識圖譜（比如“香港景點”的關聯(lián)信息）、之前AI查東西的記錄（比如搜“迪士尼開放時間”的結果）；

? 再做成“知識卡片”：把這些原材料按“實體”分類——比如“香港故宮文化博物館”這張卡片，會標好位置、開放時間、附近交通、游客評價，相當于給每個知識點貼了標簽；

? 最后出“練習題”：從卡片里隨機抽內容，生成“問答對”——比如“香港故宮文化博物館附近有哪些地鐵站？”“去那里玩需要預約嗎？”，讓AI反復練習“找信息、答問題”的能力。

我覺得這步最妙的是“數據飛輪”：AI后續(xù)做研究的記錄，又能反過來變成新的“知識卡片”，相當于實習生一邊工作一邊學新東西，越練越熟練。

2. 第二步：SFT——師傅帶徒弟，教AI“按步驟做事”（相當于實習生跟著老員工學流程）

光有基礎知識不夠，還得教AI“怎么做具體任務”。這步叫SFT（監(jiān)督微調），就像老員工帶著實習生做項目，把“正確流程”演示給它看。

團隊用了兩種“教學方法”：

? ReAct框架：相當于“按食譜做飯”——先“思考”（比如“用戶要帶寵物去香港，得先查寵物友好酒店”），再“行動”（比如“搜‘香港寵物友好酒店 2025’”），最后“觀察”（比如“找到3家酒店，記錄地址和價格”），一步一步來，確保AI不跳步；

? IterResearch框架：更高級的“項目管理”——比如規(guī)劃旅游時，AI會先把任務拆成“選景點→查交通→定酒店”，每完成一步就整理一次信息，避免把所有東西堆在一起。

舉個實際場景：用IterResearch教AI規(guī)劃香港三日游，它會先列“必去景點清單”，再查每個景點的交通是否順路，然后根據“帶寵物”的需求篩選酒店，每一步都把結果整理成“小報告”，最后再匯總成完整行程。這種方式能避免AI“想到哪兒做到哪兒”，跟我們真實做規(guī)劃的邏輯一模一樣。

3. 第三步：RL——像教練一樣，幫AI“糾錯優(yōu)化”（相當于實習生做完項目，老板給反饋）

就算教了流程，AI也會犯錯——比如漏查某個景點的開放時間，或者選的酒店離景點太遠。這時候就需要RL（強化學習），相當于給AI配個“教練”，根據結果打分，讓它越做越好。

圖片

團隊在這里搞了兩個關鍵創(chuàng)新，我用“體育訓練”打比方：

? GRPO算法：相當于“針對性訓練計劃”——不是讓AI盲目練，而是盯著它“當前最該改的問題”。比如AI總漏查“寵物友好”這個需求，就專門給它加這類訓練題，確保學的都是有用的；

? 負樣本篩選：相當于“不練錯誤動作”——如果AI的某個操作完全沒用（比如反復搜同一個過期信息），就不讓它再學這種錯誤，避免“越練越錯”。

最讓我驚訝的是訓練效果：AI的“獎勵分”一直在漲，而且“探索欲”沒降（專業(yè)叫“政策熵”高）——也就是說，它不僅越做越好，還愿意嘗試新方法，不會僵在一個流程里。

三、兩種工作模式：應付日常需求，還是攻堅復雜任務？

訓練好的AI，有兩種“干活方式”，就像我們用“記事本”和“專業(yè)軟件”的區(qū)別，能應對不同場景。

1. Native ReAct Mode：簡單直接，應付日常查資料

這種模式適合“快速找答案”，比如“肆月河豚餐廳有什么推薦菜？”“香港故宮文化博物館幾點開門？”。

它的邏輯特別簡單：嚴格按“思考→行動→觀察”循環(huán)來，不用額外設置。比如你問“肆月河豚的全河豚宴有什么特色”，AI會先想“需要查這家餐廳的菜單和介紹”，然后搜相關信息，最后整理出“融合宋代飲食文化，用詞牌名命名菜品，有刺身、紅燒河豚等”——整個過程就像你自己查資料，但快10倍。

而且它的“記憶力”很好（上下文長度128K），能處理多輪對話。比如你接著問“這家店適合商務宴請嗎？”，它不用再重新搜，直接從之前的信息里找答案，相當于“記住了你之前問的事”。

2. Heavy Mode：深度研究，搞定復雜任務

如果遇到“需要分步驟、多信息整合”的事，比如“寫一篇關于‘香港旅游業(yè)2025趨勢’的報告”“查一個復雜的法律案例并引用法條”，就得用Heavy Mode了。

圖片

它的核心是解決一個大問題：傳統(tǒng)AI處理復雜任務時，會把所有信息堆在“腦子”里，導致“記混、漏看”（專業(yè)叫“認知窒息”）。而Heavy Mode像“研究員整理文件”：

? 把任務拆成“研究輪次”：比如寫報告時，先拆成“查2025香港旅游數據→分析游客偏好→總結趨勢”；

? 每輪只看“當前需要的信息”：比如分析游客偏好時，只調出“游客調查數據”，不看其他無關信息；

? 同步寫“研究報告”：每輪結束后，把關鍵結論整理進報告，最后匯總成完整結果。

更厲害的是“Research-Synthesis框架”：相當于“多個研究員分工合作”——比如查法律案例時，3個AI分別查“相關法條”“類似案例”“判決結果”，最后由1個AI匯總成完整分析，不僅快，還能避免遺漏。

我之前用它試了“查一個勞動合同糾紛案例”，AI不僅找到了相關法條，還標了具體條款編號，甚至對比了3個類似案例的判決結果——這要是人工做，至少得半天，AI半小時就搞定了。

圖片

四、真能落地嗎？看兩個實際案例

技術說得再好聽，不如看實際能用在哪。報告里提了兩個已經落地的案例，特別貼近生活。

1. 高德“小高”：會“懂你需求”的旅游規(guī)劃師

阿里和高德合作的“小高”AI助手，就是用了Tongyi DeepResearch的技術。比如你說“幫我規(guī)劃香港三日游，帶寵物，每天景點不超過4個，交通時間要短”，它會：

圖片

? 先篩選“寵物友好”的景點和酒店（比如排除不允許寵物進入的博物館）；

? 按“順路”原則安排每天行程（比如第一天把中環(huán)的香港公園、天星小輪放一起，避免跨區(qū)跑）；

? 計算每個景點的交通時間（比如從迪士尼到大埔海濱公園要多久，會不會趕不上日落）；

? 最后出一份帶時間、交通方式、注意事項的完整行程，甚至能整合用戶評論（比如“這家酒店寵物設施好，但早餐一般”）。

比你自己翻攻略強太多——它不僅“會搜”，還“會替你著想”。

2. 法瑞（FaRui）：能“引用法條”的法律助手

對于需要精準度的場景，比如法律查案，Tongyi DeepResearch也能用上。法瑞（FaRui）法律AI能：

圖片

? 自主搜“類似案例”“相關法條”；

? 準確引用法條編號和案例名稱（避免人工引用時出錯）；

? 整理成“分析報告”，標注每個結論的依據。

報告里有組數據很直觀：在“法條引用質量”上，Tongyi DeepResearch得81.01分，比OpenAI的75.83分高5分多；“案例引用質量”更明顯，64.26分 vs OpenAI的57.56分——這意味著它的法律分析更靠譜，能幫律師省不少核對時間。

五、現在還差點啥？AI研究員的“待辦清單”

作為研究員，我得客觀說：Tongyi DeepResearch不是“完美工具”，還有三個要補的“功課”。

? “記憶力”還不夠長：目前128K的上下文長度，處理單篇論文或短期行程夠，但要是處理“整本學術專著”“跨季度的項目報告”，可能就裝不下所有信息了——相當于你用記事本寫長文章，翻頁太麻煩。

? “規(guī)模驗證”沒做完：現在用的是30B參數的模型（可以理解為“中等規(guī)?！保?，更大規(guī)模的模型（比如100B以上）能不能用這套訓練方法，還沒驗證——就像一款手機在小屏幕上好用，大屏能不能適配，得再測。

? “訓練效率”要提升：目前的RL訓練比較費時間，要是想讓AI學新領域（比如醫(yī)療研究），得等很久——相當于實習生學新業(yè)務太慢，需要更高效的“培訓方法”。

我們團隊討論時也覺得，這些不是“硬傷”，而是接下來要優(yōu)化的方向。比如上下文長度，已經有團隊在試“動態(tài)擴展”技術，未來可能像“無限擴容的文件夾”，裝多少信息都不怕。

六、總結：這不是“AI助手”，是“AI同事”

聊到這兒，你可能發(fā)現了：Tongyi DeepResearch的核心不是“幫你查資料”，而是“像同事一樣，獨立完成研究任務”——它有基礎能力（CPT）、懂流程（SFT）、能優(yōu)化（RL），還能根據任務選工具（兩種模式）。

更重要的是它“開源”——這意味著不是阿里自己用，普通人、小公司也能改：比如教育機構可以改成“AI助教”，幫學生整理知識點；企業(yè)可以改成“行業(yè)研究員”，幫員工分析市場數據。

最后想跟你聊個話題：如果這種“AI研究員”再成熟一點，你最想讓它幫你做什么？是寫報告、查資料，還是規(guī)劃更復雜的事？歡迎在評論區(qū)聊聊你的想法。

參考資料

? 標題：Tongyi DeepResearch: A New Era of Open-Source AI Researchers

? 作者：Tongyi DeepResearch Team (Alibaba)

? 鏈接：https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

責任編輯：武曉燕來源：旺知識

AI 開源 Agent模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營