偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

浙大&通義全面評測智能體復雜任務規(guī)劃能力,18主流大模型全不及格|ICLR2025

人工智能 新聞
浙大通義聯(lián)合發(fā)布WorfBench——一個涵蓋多場景和復雜圖結構工作流的統(tǒng)一基準,以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。

大模型智能體正在迅速發(fā)展,能力已不再局限于 API 調用。

諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執(zhí)行復雜操作。

在處理這類復雜任務的過程中,大模型智能體將問題分解為可執(zhí)行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。

現(xiàn)有的數(shù)據(jù)集和評估框架存在明顯局限性:要么僅關注規(guī)劃任務的端到端性能,要么在場景覆蓋范圍、工作流結構的復雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對于推動大模型智能體在真實場景中的應用和性能提升至關重要。

為解決上述問題,浙大通義聯(lián)合發(fā)布WorfBench——一個涵蓋多場景和復雜圖結構工作流的統(tǒng)一基準,以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現(xiàn)有評估體系的空白,還為未來大模型智能體在復雜任務中的應用提供了重要的參考。

該工作已被人工智能頂級會議ICLR 2025錄用。

WorfBench構建與評估

WorfBench利用GPT自動化構建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數(shù)據(jù)集。作者將工作流建模為有向無環(huán)圖(DAG),以更精確地表示現(xiàn)實世界中的復雜串行或并行智能體工作流。

為了確保數(shù)據(jù)質量,作者引入了節(jié)點鏈作為中間結構,并采用拓撲排序(Topological Sorting)算法對圖結構進行質量過濾,并在測試集上進行人工驗證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規(guī)劃和圖規(guī)劃能力。

基準評測結果

作者在WorfBench上對18種不同規(guī)模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結果顯示,與線性結構相比,模型在圖結構工作流預測上的能力遠未達到現(xiàn)實需求,即使是性能卓越的GPT-4,其圖結構工作流的平均性能也僅為52.47%。

此外,作者還對兩個開源模型進行了訓練,并在OOD任務上評估其泛化能力。結果表明,盡管在訓練集上表現(xiàn)出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅通過數(shù)據(jù)擬合目前仍難以實現(xiàn)結構化工作流規(guī)劃能力的有效學習。

工作流生成分析

通過對實驗結果的深入分析,作者發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練數(shù)據(jù)的規(guī)模和質量有關。

此外,作者還發(fā)現(xiàn),即使提供標簽節(jié)點鏈以簡化圖結構預測任務,模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復雜性在于對任務依賴關系的理解。

進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規(guī)范性四個方面。這些錯誤大多源于模型對環(huán)境知識的缺乏。

因此,未來的研究方向可能包括優(yōu)化提示策略、采用多智能體架構,以及將世界知識或世界模型更深入地融入大模型中,以提升其對現(xiàn)實世界的理解能力。

工作流知識增強智能體

作者探討了工作流在智能體規(guī)劃中的重要作用。研究發(fā)現(xiàn),工作流不僅可以作為一種流程先驗知識直接指導智能體的規(guī)劃過程,幫助其在復雜任務中更高效地執(zhí)行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,通過為智能體提供更相關的API選擇,減輕其在多步任務中的負擔。

此外,工作流的圖結構特性能夠實現(xiàn)并行任務執(zhí)行,顯著減少推理時間,同時減少智能體在規(guī)劃過程中的步驟數(shù),提升任務完成效率。這些結果表明,工作流不僅是連接任務與具體執(zhí)行動作的橋梁,還能顯著提升智能體在復雜任務中的表現(xiàn)和效率。

論文鏈接: https://arxiv.org/abs/2410.07869 

代碼鏈接: https://github.com/zjunlp/WorfBench

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-17 13:09:14

2025-05-23 08:47:00

2025-05-30 09:17:00

2025-04-18 09:13:00

2010-04-20 21:48:48

2011-12-14 20:23:31

HTC

2024-11-04 12:48:12

2024-12-12 08:49:37

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應聘者

2025-04-25 09:05:00

2025-05-22 09:07:00

2024-03-11 00:40:00

AI研究

2025-02-25 10:04:10

2023-06-05 10:01:18

模型測評

2025-03-03 11:16:18

2025-05-15 03:25:00

2025-02-07 15:00:00

語音識別算法AI

2025-02-27 14:10:00

模型AI訓練

2024-06-13 09:20:26

點贊
收藏

51CTO技術棧公眾號