偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="tftou"></table>

<table id="tftou"></table>

<wbr id="tftou"><var id="tftou"></var></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通義DeepResearch開源：300億參數(shù)只激活30億，3分鐘寫完萬字文獻(xiàn)綜述！

作者：AGI小兵 2025-09-29 14:30:00

通義DeepResearch作為一款開源的深度研究智能體，憑借其強大的功能和先進(jìn)的技術(shù)，為復(fù)雜信息檢索和多步推理任務(wù)提供了全新的解決方案。它不僅在學(xué)術(shù)研究、市場分析、法律研究和出行規(guī)劃等場景中展現(xiàn)出巨大的應(yīng)用價值，還通過開源的方式鼓勵開發(fā)者參與共建，共同推動深度研究智能體的發(fā)展和創(chuàng)新。

在當(dāng)今信息爆炸的時代，快速準(zhǔn)確地獲取和整合復(fù)雜信息成為了一項極具挑戰(zhàn)性的任務(wù)。無論是學(xué)術(shù)研究、市場分析還是政策制定，都需要對海量數(shù)據(jù)進(jìn)行深度挖掘和分析。阿里巴巴推出的通義DeepResearch項目，正是為了解決這一痛點，它作為一款開源的深度研究智能體，能夠高效地完成長周期、多步驟的信息檢索和推理任務(wù)。

一、項目概述

通義DeepResearch是一個開源的深度研究智能體，擁有300億參數(shù)，每次激活30億參數(shù)。它專為長周期、深度信息檢索任務(wù)設(shè)計，支持ReAct模式和深度模式（Heavy Mode），后者通過迭代研究范式（IterResearch）提升復(fù)雜推理能力。該項目采用全流程合成數(shù)據(jù)方案，無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集，突破智能體能力上限。訓(xùn)練流程涵蓋智能體持續(xù)預(yù)訓(xùn)練（Agentic CPT）、監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL），形成完整的端到端訓(xùn)練鏈路。

圖片

二、核心功能

（一）長周期深度信息檢索

通義DeepResearch能夠處理多步驟的推理和規(guī)劃任務(wù)，適用于學(xué)術(shù)研究、市場分析、政策制定等復(fù)雜場景。它可以在長時間內(nèi)持續(xù)搜索和整合信息，直到找到問題的答案。

（二）多模式推理支持

支持ReAct模式和深度模式。ReAct模式嚴(yán)格遵循“思考-行動-觀察”循環(huán)，適合評估模型的核心能力；深度模式通過迭代研究范式（IterResearch）提升復(fù)雜推理能力。

（三）全流程合成數(shù)據(jù)生成

采用自研的全流程合成數(shù)據(jù)方案，無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集，支持從預(yù)訓(xùn)練到微調(diào)再到強化學(xué)習(xí)的完整訓(xùn)練鏈路，突破智能體能力上限。

（四）業(yè)務(wù)應(yīng)用賦能

目前已成功應(yīng)用于阿里巴巴內(nèi)部多個場景，如與高德地圖合作推出的AI原生出行Agent，可以結(jié)合實時數(shù)據(jù)為用戶提供精準(zhǔn)的出行建議和規(guī)劃；在法律領(lǐng)域，“通義法?！蹦軌蜃詣訖z索法條、類案和裁判文書，為法律從業(yè)者提供強大的生產(chǎn)力工具，提高法律研究和案件處理的效率。

（五）項目開源共建

項目完全開源，提供完整的代碼、模型和數(shù)據(jù)；大家可以根據(jù)自己的需求對通義DeepResearch進(jìn)行定制和優(yōu)化，開發(fā)出更多具有創(chuàng)新性的應(yīng)用。推動深度研究智能體的發(fā)展和創(chuàng)新。

三、技術(shù)揭秘

（一）全流程合成數(shù)據(jù)方案

無需人工干預(yù)，自動生成高質(zhì)量數(shù)據(jù)集，支持從預(yù)訓(xùn)練到微調(diào)再到強化學(xué)習(xí)的完整訓(xùn)練鏈路，突破智能體能力上限。

（二）迭代研究范式（IterResearch）

將復(fù)雜任務(wù)分解為多個研究回合，每個回合動態(tài)重構(gòu)精簡工作區(qū)，通過“思考-綜合-行動”流程，提升復(fù)雜推理能力和決策質(zhì)量。

（三）端到端強化學(xué)習(xí)

采用定制化的強化學(xué)習(xí)算法，如Group Relative Policy Optimization (GRPO)，確保學(xué)習(xí)信號與模型當(dāng)前能力精準(zhǔn)匹配，提升模型在動態(tài)環(huán)境中的適應(yīng)性和穩(wěn)定性。

（四）大規(guī)模持續(xù)預(yù)訓(xùn)練

利用持續(xù)更新的知識文檔、爬蟲數(shù)據(jù)、知識圖譜等構(gòu)建開放世界知識記憶，生成多風(fēng)格的（問題，答案）對，持續(xù)擴展模型能力。

（五）自動化數(shù)據(jù)管理

在訓(xùn)練動態(tài)的指導(dǎo)下實時優(yōu)化數(shù)據(jù)，通過全自動數(shù)據(jù)合成和數(shù)據(jù)漏斗動態(tài)調(diào)整訓(xùn)練集，確保訓(xùn)練的穩(wěn)定性和性能提升。

（六）穩(wěn)定高效的工具沙盒

開發(fā)統(tǒng)一的沙盒環(huán)境，處理并發(fā)和故障，確保工具調(diào)用的穩(wěn)定性和可靠性，為智能體提供快速且魯棒的交互環(huán)境。

四、應(yīng)用場景

（一）學(xué)術(shù)研究

學(xué)術(shù)研究中，學(xué)者篩選整理海量文獻(xiàn)耗時艱巨。通義DeepResearch信息檢索整合能力強，能快速在學(xué)術(shù)數(shù)據(jù)庫等找相關(guān)文獻(xiàn)，篩選分類、提取關(guān)鍵信息，快速整理文獻(xiàn)綜述。助學(xué)者高效完成研究，節(jié)省時間精力，投入創(chuàng)新研究，提升效率。

（二）市場分析

競爭激烈的商業(yè)環(huán)境下，企業(yè)需把握市場動態(tài)、了解對手及行業(yè)趨勢以制定精準(zhǔn)策略。通義DeepResearch可深入分析市場數(shù)據(jù)，整合行業(yè)報告、調(diào)研數(shù)據(jù)、企業(yè)財報等，提供全面的競爭對手分析，對比企業(yè)與對手在產(chǎn)品、份額、營銷等方面優(yōu)劣，結(jié)合行業(yè)趨勢助企業(yè)預(yù)測市場走向?；诜治鼋Y(jié)果，企業(yè)能制定更具針對性和前瞻性的策略，提升競爭力，實現(xiàn)可持續(xù)發(fā)展。

（三）法律研究

法律研究與實踐需深入分析大量法條、類案和裁判文書。通義DeepResearch在法律研究表現(xiàn)出色，如“通義法?！笨勺詣訖z索法律數(shù)據(jù)庫，快速定位相關(guān)資料，還能深度歸納分析、提取關(guān)鍵信息、建立知識體系，為法律從業(yè)者提供高效工具，提升辦案時獲取依據(jù)、推理論證的效率與質(zhì)量。

（四）出行規(guī)劃

出行規(guī)劃需考慮交通、天氣、個人偏好等多因素，要實時處理大量數(shù)據(jù)。通義DeepResearch與高德地圖合作推出AI原生出行Agent，結(jié)合交通、地圖、天氣等數(shù)據(jù)，依用戶出發(fā)地、目的地和時間，綜合考量交通方式優(yōu)劣，推薦最優(yōu)出行方案，保障用戶最短時間到達(dá)，還提供實時路況與預(yù)警，讓出行更便捷高效。

（五）復(fù)雜信息檢索

當(dāng)今信息時代，跨領(lǐng)域研究、政策制定等領(lǐng)域的研究與決策需復(fù)雜信息檢索整合，任務(wù)涉及多領(lǐng)域知識，需多步驟推理規(guī)劃。通義DeepResearch適用于此類任務(wù)，能依用戶需求制定檢索策略，經(jīng)多輪檢索推理縮小范圍，快速獲取整合信息，有機結(jié)合不同領(lǐng)域、來源信息，為用戶提供全面準(zhǔn)確信息支持，助其明智決策。

五、快速使用

（一）環(huán)境搭建

1. 安裝依賴

確保已安裝Python 3.10.0版本，使用`conda`或`virtualenv`創(chuàng)建獨立環(huán)境。

conda create -n react_infer_env pythnotallow=3.10.0
conda activate react_infer_env

2. 安裝必需的依賴

pip install -r requirements.txt

（二）配置環(huán)境

1. 復(fù)制環(huán)境文件

將`.env.example`復(fù)制為`.env`，并根據(jù)實際情況填寫API密鑰和配置。

cp .env.example .env

2. 準(zhǔn)備評估數(shù)據(jù)：支持JSON和JSONL兩種格式的輸入文件。

JSONL格式（推薦）：

```
{"question": "What is the capital of France?", "answer": "Paris"}
{"question": "Explain quantum computing", "answer": ""}
```

JSON格式：

```
[
{"question": "What is the capital of France?", "answer": "Paris"},
{"question": "Explain quantum computing", "answer": ""}
]
```

（三）運行推理腳本

1. 配置推理腳本

打開`run_react_infer.sh`，根據(jù)注釋修改`MODEL_PATH`、`DATASET`和`OUTPUT_PATH`等變量。

2. 運行推理腳本

執(zhí)行以下命令運行推理腳本：

bash run_react_infer.sh

3. 使用OpenRouter API調(diào)用模型

如果需要通過OpenRouter API調(diào)用模型，需在`inference/react_agent.py`中設(shè)置API密鑰和URL，并將模型名稱更改為`alibaba/tongyi-deepresearch-30b-a3b`。

六、結(jié)語

通義DeepResearch作為一款開源的深度研究智能體，憑借其強大的功能和先進(jìn)的技術(shù)，為復(fù)雜信息檢索和多步推理任務(wù)提供了全新的解決方案。它不僅在學(xué)術(shù)研究、市場分析、法律研究和出行規(guī)劃等場景中展現(xiàn)出巨大的應(yīng)用價值，還通過開源的方式鼓勵開發(fā)者參與共建，共同推動深度研究智能體的發(fā)展和創(chuàng)新。

項目地址

項目官網(wǎng)：https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Github倉庫：https://github.com/Alibaba-NLP/DeepResearch

HuggingFace模型庫：https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

責(zé)任編輯：武曉燕來源：小兵的AI視界

智能體深度模式 ReAct模式

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營