一篇大模型Agentic框架到應(yīng)用最新綜述

首篇系統(tǒng)拆解“大模型Agentic推理框架”的綜述:不聊訓(xùn)練,只聊“怎么把 LLM 組織成會思考、會協(xié)作、會調(diào)工具的Agent”,并橫跨科學(xué)發(fā)現(xiàn)、醫(yī)療、軟件工程、社會經(jīng)濟(jì)模擬四大戰(zhàn)場,給出統(tǒng)一語言、統(tǒng)一視角、統(tǒng)一評測。
為什么值得關(guān)注?

圖 1:LLM 代理框架論文&引用爆發(fā)式增長(2023 起跳)
維度 | 過去 | 這篇綜述 |
視角 | 模型中心(怎么訓(xùn)) | 框架中心(怎么搭) |
分類 | 零散案例 | 三級遞進(jìn) taxonomy |
評測 | 各玩各的 | 跨領(lǐng)域統(tǒng)一指標(biāo)/數(shù)據(jù)集 |
場景 | 單點(diǎn)應(yīng)用 | 4 大場景 30+ 子任務(wù)全覆蓋 |
一、統(tǒng)一語言:把“代理推理”形式化
論文先給出一套通用符號(表 1)與通用算法 1,任何框架都可看成:
初始上下文 → 多步動作(推理/工具/反思)→ 終止條件 → 輸出

Alg-1 通用推理循環(huán)

Table1 符號
三級遞進(jìn) taxonomy

總覽
圖 2:單智能體 → 工具 → 多智能體,能力逐級疊加
層級 | 關(guān)鍵問題 | 代表技巧 |
單智能體 | 如何自己想的更好 | 角色扮演、鏈?zhǔn)剿伎肌⒆晕揖珶?/p> |
工具-based | 如何會調(diào)外部資源 | API/插件/中間件、工具選擇、并行調(diào)用 |
多智能體 | 如何組隊(duì)協(xié)作 | 中央/分布式/層級架構(gòu)、合作-競爭-談判 |
1. 單智能體:Prompt 工程 + 自我提升

Fig-3 Prompt 四象限
圖 3:角色、環(huán)境、任務(wù)、示例四維 Prompt 工程

Fig-4 自我提升三范式
圖 4:反思、迭代優(yōu)化、交互學(xué)習(xí)
案例速覽
- Reflexion:失敗 → 文字反思 → 更新上下文 → 重試
- Self-Refine:生成→批評→重寫,直到滿足自定義標(biāo)準(zhǔn) ??
2. 工具-based:讓 LLM“長手腳”

Fig-5 工具流水線
圖 5:集成 → 選擇 → 使用
子維度 | 技巧 |
集成 | API(REST)、插件(本地 RAG)、中間件(統(tǒng)一封裝) |
選擇 | 零樣本推理 / 規(guī)則映射 / 在線學(xué)習(xí) |
使用 | 順序鏈、并行批、迭代微調(diào) |
名場面
- ChemCrow:18 種化學(xué)工具鏈?zhǔn)秸{(diào)用,自主合成有機(jī)催化劑
- LLM-Compiler:并行調(diào)度 10+ API, latency ↓40%
3. 多智能體:組隊(duì)打副本

Fig-6 組織×交互雙軸
圖 6:組織架構(gòu)(中央/分布式/層級)× 交互協(xié)議(合作/競爭/談判)
組織 | 適用場景 | 案例 |
中央 | 全局最優(yōu)、嚴(yán)格管控 | MetaGPT(模擬軟件公司) |
分布式 | 魯棒、容錯(cuò) | MADebate(多代理辯論) |
層級 | 流程清晰、SOP 嚴(yán)格 | ChatDev(瀑布式開發(fā)) |
四大應(yīng)用場景全景

Fig-7 應(yīng)用地圖
圖 7:科學(xué)發(fā)現(xiàn) / 醫(yī)療 / 軟件工程 / 社會經(jīng)濟(jì)模擬 細(xì)分任務(wù)一覽
1. 科學(xué)發(fā)現(xiàn)

子領(lǐng)域 | 代理技巧 | 代表工作 |
數(shù)學(xué) | 多代理 Lean4 證明 | MA-LoT、ProverAgent |
天文 | 光譜→假設(shè)流水線 | AstroAgents |
地學(xué) | GIS 工具鏈 + MCTS | GeoAgent、GeoMap-Agent |
生化 | 分子設(shè)計(jì)、量子化學(xué) | ChemCrow、El Agente |
評測速覽
- 指標(biāo):藥物相似性、合成可及性、結(jié)合親和力
- 數(shù)據(jù)集:MoleculeNet、CrossDocked、CheMBL

表3. 生物化學(xué)和材料科學(xué)中代理推理框架的評估策略概覽。
2. 醫(yī)療

場景 | 關(guān)鍵能力 | 案例 |
診斷助手 | 多科會診辯論 | MedAgents、RareAgents |
臨床管理 | 試驗(yàn)預(yù)測、用藥推薦 | ClinicalAgent、TxAgent |
環(huán)境模擬 | 可進(jìn)化代理醫(yī)院 | Agent Hospital、AI Hospital |
評測速覽
- 基準(zhǔn):MedQA、PubMedQA、MIMIC-IV、MVME
- 指標(biāo):診斷準(zhǔn)確率、安全率、人類一致性

3. 軟件工程
任務(wù) | 代理策略 | 案例 |
代碼生成 | 多角色 TDD | AgentCoder、MapCoder |
程序修復(fù) | 故障定位→補(bǔ)丁→驗(yàn)證 | RepairAgent、OrcaLoca |
全生命周期 | 模擬軟件公司 SOP | MetaGPT、ChatDev |

4. 社會經(jīng)濟(jì)模擬

方向 | 代理能力 | 案例 |
社會 | 沙盒行為涌現(xiàn) | Generative Agents、SocioVerse(10 M 用戶) |
經(jīng)濟(jì) | 股票市場仿真 | StockAgent、FinRobot |

https://arxiv.org/pdf/2508.17692
LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios本文轉(zhuǎn)載自??PaperAgent??

















