通義DeepResearch開源:300億參數(shù)只激活30億,3分鐘寫完萬字文獻(xiàn)綜述!
在當(dāng)今信息爆炸的時代,快速準(zhǔn)確地獲取和整合復(fù)雜信息成為了一項極具挑戰(zhàn)性的任務(wù)。無論是學(xué)術(shù)研究、市場分析還是政策制定,都需要對海量數(shù)據(jù)進(jìn)行深度挖掘和分析。阿里巴巴推出的通義DeepResearch項目,正是為了解決這一痛點,它作為一款開源的深度研究智能體,能夠高效地完成長周期、多步驟的信息檢索和推理任務(wù)。
一、項目概述
通義DeepResearch是一個開源的深度研究智能體,擁有300億參數(shù),每次激活30億參數(shù)。它專為長周期、深度信息檢索任務(wù)設(shè)計,支持ReAct模式和深度模式(Heavy Mode),后者通過迭代研究范式(IterResearch)提升復(fù)雜推理能力。該項目采用全流程合成數(shù)據(jù)方案,無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集,突破智能體能力上限。訓(xùn)練流程涵蓋智能體持續(xù)預(yù)訓(xùn)練(Agentic CPT)、監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL),形成完整的端到端訓(xùn)練鏈路。
圖片
二、核心功能
(一)長周期深度信息檢索
通義DeepResearch能夠處理多步驟的推理和規(guī)劃任務(wù),適用于學(xué)術(shù)研究、市場分析、政策制定等復(fù)雜場景。它可以在長時間內(nèi)持續(xù)搜索和整合信息,直到找到問題的答案。
(二)多模式推理支持
支持ReAct模式和深度模式。ReAct模式嚴(yán)格遵循“思考-行動-觀察”循環(huán),適合評估模型的核心能力;深度模式通過迭代研究范式(IterResearch)提升復(fù)雜推理能力。
(三)全流程合成數(shù)據(jù)生成
采用自研的全流程合成數(shù)據(jù)方案,無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集,支持從預(yù)訓(xùn)練到微調(diào)再到強化學(xué)習(xí)的完整訓(xùn)練鏈路,突破智能體能力上限。
(四)業(yè)務(wù)應(yīng)用賦能
目前已成功應(yīng)用于阿里巴巴內(nèi)部多個場景,如與高德地圖合作推出的AI原生出行Agent,可以結(jié)合實時數(shù)據(jù)為用戶提供精準(zhǔn)的出行建議和規(guī)劃;在法律領(lǐng)域,“通義法?!蹦軌蜃詣訖z索法條、類案和裁判文書,為法律從業(yè)者提供強大的生產(chǎn)力工具,提高法律研究和案件處理的效率。
(五)項目開源共建
項目完全開源,提供完整的代碼、模型和數(shù)據(jù);大家可以根據(jù)自己的需求對通義DeepResearch進(jìn)行定制和優(yōu)化,開發(fā)出更多具有創(chuàng)新性的應(yīng)用。推動深度研究智能體的發(fā)展和創(chuàng)新。
三、技術(shù)揭秘
(一)全流程合成數(shù)據(jù)方案
無需人工干預(yù),自動生成高質(zhì)量數(shù)據(jù)集,支持從預(yù)訓(xùn)練到微調(diào)再到強化學(xué)習(xí)的完整訓(xùn)練鏈路,突破智能體能力上限。
(二)迭代研究范式(IterResearch)
將復(fù)雜任務(wù)分解為多個研究回合,每個回合動態(tài)重構(gòu)精簡工作區(qū),通過“思考-綜合-行動”流程,提升復(fù)雜推理能力和決策質(zhì)量。
(三)端到端強化學(xué)習(xí)
采用定制化的強化學(xué)習(xí)算法,如Group Relative Policy Optimization (GRPO),確保學(xué)習(xí)信號與模型當(dāng)前能力精準(zhǔn)匹配,提升模型在動態(tài)環(huán)境中的適應(yīng)性和穩(wěn)定性。
(四)大規(guī)模持續(xù)預(yù)訓(xùn)練
利用持續(xù)更新的知識文檔、爬蟲數(shù)據(jù)、知識圖譜等構(gòu)建開放世界知識記憶,生成多風(fēng)格的(問題,答案)對,持續(xù)擴展模型能力。
(五)自動化數(shù)據(jù)管理
在訓(xùn)練動態(tài)的指導(dǎo)下實時優(yōu)化數(shù)據(jù),通過全自動數(shù)據(jù)合成和數(shù)據(jù)漏斗動態(tài)調(diào)整訓(xùn)練集,確保訓(xùn)練的穩(wěn)定性和性能提升。
(六)穩(wěn)定高效的工具沙盒
開發(fā)統(tǒng)一的沙盒環(huán)境,處理并發(fā)和故障,確保工具調(diào)用的穩(wěn)定性和可靠性,為智能體提供快速且魯棒的交互環(huán)境。
四、應(yīng)用場景
(一)學(xué)術(shù)研究
學(xué)術(shù)研究中,學(xué)者篩選整理海量文獻(xiàn)耗時艱巨。通義DeepResearch信息檢索整合能力強,能快速在學(xué)術(shù)數(shù)據(jù)庫等找相關(guān)文獻(xiàn),篩選分類、提取關(guān)鍵信息,快速整理文獻(xiàn)綜述。助學(xué)者高效完成研究,節(jié)省時間精力,投入創(chuàng)新研究,提升效率。
(二)市場分析
競爭激烈的商業(yè)環(huán)境下,企業(yè)需把握市場動態(tài)、了解對手及行業(yè)趨勢以制定精準(zhǔn)策略。通義DeepResearch可深入分析市場數(shù)據(jù),整合行業(yè)報告、調(diào)研數(shù)據(jù)、企業(yè)財報等,提供全面的競爭對手分析,對比企業(yè)與對手在產(chǎn)品、份額、營銷等方面優(yōu)劣,結(jié)合行業(yè)趨勢助企業(yè)預(yù)測市場走向?;诜治鼋Y(jié)果,企業(yè)能制定更具針對性和前瞻性的策略,提升競爭力,實現(xiàn)可持續(xù)發(fā)展。
(三)法律研究
法律研究與實踐需深入分析大量法條、類案和裁判文書。通義DeepResearch在法律研究表現(xiàn)出色,如“通義法?!笨勺詣訖z索法律數(shù)據(jù)庫,快速定位相關(guān)資料,還能深度歸納分析、提取關(guān)鍵信息、建立知識體系,為法律從業(yè)者提供高效工具,提升辦案時獲取依據(jù)、推理論證的效率與質(zhì)量。
(四)出行規(guī)劃
出行規(guī)劃需考慮交通、天氣、個人偏好等多因素,要實時處理大量數(shù)據(jù)。通義DeepResearch與高德地圖合作推出AI原生出行Agent,結(jié)合交通、地圖、天氣等數(shù)據(jù),依用戶出發(fā)地、目的地和時間,綜合考量交通方式優(yōu)劣,推薦最優(yōu)出行方案,保障用戶最短時間到達(dá),還提供實時路況與預(yù)警,讓出行更便捷高效。
(五)復(fù)雜信息檢索
當(dāng)今信息時代,跨領(lǐng)域研究、政策制定等領(lǐng)域的研究與決策需復(fù)雜信息檢索整合,任務(wù)涉及多領(lǐng)域知識,需多步驟推理規(guī)劃。通義DeepResearch適用于此類任務(wù),能依用戶需求制定檢索策略,經(jīng)多輪檢索推理縮小范圍,快速獲取整合信息,有機結(jié)合不同領(lǐng)域、來源信息,為用戶提供全面準(zhǔn)確信息支持,助其明智決策。
五、快速使用
(一)環(huán)境搭建
1. 安裝依賴
確保已安裝Python 3.10.0版本,使用`conda`或`virtualenv`創(chuàng)建獨立環(huán)境。
conda create -n react_infer_env pythnotallow=3.10.0
conda activate react_infer_env2. 安裝必需的依賴
pip install -r requirements.txt(二)配置環(huán)境
1. 復(fù)制環(huán)境文件
將`.env.example`復(fù)制為`.env`,并根據(jù)實際情況填寫API密鑰和配置。
cp .env.example .env2. 準(zhǔn)備評估數(shù)據(jù):支持JSON和JSONL兩種格式的輸入文件。
- JSONL格式(推薦):
```
{"question": "What is the capital of France?", "answer": "Paris"}
{"question": "Explain quantum computing", "answer": ""}
```- JSON格式:
```
[
{"question": "What is the capital of France?", "answer": "Paris"},
{"question": "Explain quantum computing", "answer": ""}
]
```(三)運行推理腳本
1. 配置推理腳本
打開`run_react_infer.sh`,根據(jù)注釋修改`MODEL_PATH`、`DATASET`和`OUTPUT_PATH`等變量。
2. 運行推理腳本
執(zhí)行以下命令運行推理腳本:
bash run_react_infer.sh3. 使用OpenRouter API調(diào)用模型
如果需要通過OpenRouter API調(diào)用模型,需在`inference/react_agent.py`中設(shè)置API密鑰和URL,并將模型名稱更改為`alibaba/tongyi-deepresearch-30b-a3b`。
六、結(jié)語
通義DeepResearch作為一款開源的深度研究智能體,憑借其強大的功能和先進(jìn)的技術(shù),為復(fù)雜信息檢索和多步推理任務(wù)提供了全新的解決方案。它不僅在學(xué)術(shù)研究、市場分析、法律研究和出行規(guī)劃等場景中展現(xiàn)出巨大的應(yīng)用價值,還通過開源的方式鼓勵開發(fā)者參與共建,共同推動深度研究智能體的發(fā)展和創(chuàng)新。
項目地址
項目官網(wǎng):https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Github倉庫:https://github.com/Alibaba-NLP/DeepResearch
HuggingFace模型庫:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B





























