偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="7q3kq"><meter id="7q3kq"></meter></thead><bdo id="7q3kq"></bdo>

<abbr id="7q3kq"></abbr>

<big id="7q3kq"></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Agent RL和智能體自我進化的關鍵一步：TaskCraft實現(xiàn)復雜智能體任務的自動生成

2025-07-04 16:46:57

人工智能新聞

OPPO 研究院的研究者提出了 TaskCraft，一個面向智能體任務的自動化生成框架，旨在高效構建具備可擴展難度、多工具協(xié)同與可驗證執(zhí)行路徑的智能體任務實例。

近年來，基于智能體的強化學習（Agent + RL）與智能體優(yōu)化（Agent Optimization）在學術界引發(fā)了廣泛關注。然而，實現(xiàn)具備工具調(diào)用能力的端到端智能體訓練，首要瓶頸在于高質量任務數(shù)據(jù)的極度稀缺。當前如 GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構建過程中高度依賴人工標注，因而在規(guī)模與任務復雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務，GAIA 則僅提供約 500 條多工具協(xié)同任務樣本。與基礎大模型訓練中動輒萬級以上的指令數(shù)據(jù)相比，差距十分顯著。

盡管在基礎模型階段，像 self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語言模型（LLM）成功構建了大規(guī)模的指令型數(shù)據(jù)，有效提升了模型的通用性和泛化能力，但在智能體（Agent）場景下，這類靜態(tài)指令數(shù)據(jù)卻難以滿足實際需求。原因在于，復雜的智能體任務通常需要模型與環(huán)境進行持續(xù)的動態(tài)交互，同時涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性，導致其在智能體訓練中遷移性差、適用性有限。

為應對上述挑戰(zhàn)，OPPO 研究院的研究者提出了 TaskCraft，一個面向智能體任務的自動化生成框架，旨在高效構建具備可擴展難度、多工具協(xié)同與可驗證執(zhí)行路徑的智能體任務實例。TaskCraft 通過統(tǒng)一的流程化建構機制，擺脫了對人工標注的依賴，能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具（如 URL、PDF、HTML、Image 等）的復雜任務場景，并支持任務目標的自動驗證，確保數(shù)據(jù)質量與執(zhí)行閉環(huán)。基于該框架，研究團隊構建并開源了一個包含約 41,000 條智能體任務的合成數(shù)據(jù)集，顯著擴展了現(xiàn)有 Agent 數(shù)據(jù)資源的規(guī)模與多樣性，為后續(xù)通用智能體的訓練與評估提供了有力支撐。

論文標題：TaskCraft: Automated Generation of Agentic Tasks
論文地址：https://arxiv.org/abs/2506.10055
Github：https://github.com/OPPO-PersonalAI/TaskCraft
數(shù)據(jù)集：https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分：第一部分 生成簡單且可驗證的原子任務；第二部分 通過深度拓展和寬度拓展，不斷構建新的原子任務，使復雜性逐步提升。

原子任務的生成

原子結構生成示意圖

可以簡單理解為，從原始數(shù)據(jù)中提取核心問題，然后確保問題必須通過特定工具來解決。整個流程包含以下四個關鍵步驟：

1.收集信息：系統(tǒng)從多種來源（網(wǎng)頁、PDF、圖片等）提取信息。例如，企業(yè)財報、一張統(tǒng)計圖或一篇新聞文章。

2.識別關鍵內(nèi)容: 利用LLM從這些文檔中提取候選結論，比如：2025 年蘋果公司總收入為 383.3 億美元

3.生成問題：LLM需要將這些候選結論轉換為工具回答的問題。例如：“在財務報告《Apple 2025 年度報告》中，2025 年的總收入是多少？”（答案：383.3 億美元）

4.驗證任務：每個原子任務被保留必須滿足以下兩個條件：

必須依賴工具才能解答（ LLM 無法直接推導答案）。
必須經(jīng)過 Agent 驗證，確保能夠順利執(zhí)行任務。

任務拓展

任務拓展旨在將一個簡單任務逐步演化為更具層次和挑戰(zhàn)性的復雜任務，使 Agent 必須通過多個步驟才能完成任務。拓展方式主要包括深度拓展與寬度拓展。

深度拓展示意圖

其中，深度拓展的目標是為了構建可被拆解為一系列相互依賴的任務。每一步都依賴前一步的結果，從而構建出一條多步推理鏈。其主要包括以下四步：

1.確認主任務與拓展標識符：拓展標識符一般是具有強特殊性的文本，往往作為獲取工具上下文的輸入關鍵字。例如對于任務：“電影《星際穿越》的導演是誰？”（答案：克里斯托弗·諾蘭），其中的拓展標識符是:《星際穿越》。

2.執(zhí)行Agent搜索，構造新的輔助原子任務：Search Agent以拓展標識符為線索執(zhí)行搜索，并從搜索結果中構造一個新的原子任務，其答案即為該拓展標識符。例如：“哪部美國著名科幻電影是在 2014 年 11 月 7 日上映的？”（答案：《星際穿越》）

3.合并輔助原子任務，更新主任務：將輔助原子任務與原主任務進行融合，構建一個邏輯連貫的復合任務。例如：“2014 年 11 月 7 日上映的美國著名科幻電影，它的導演是誰？“（答案：克里斯托弗·諾蘭）

4.驗證任務合理性：為了規(guī)避對合并問題的整體驗證，研究者采用了多種規(guī)則對合并后的主任務進行語義驗證，包括：超集驗證、關系驗證、信息泄露驗證、替換合理性驗證等。

而寬度拓展則是通過選擇兩個（或多個）結構兼容的原子任務，這些任務應來自同一信息源（如同一篇網(wǎng)頁或 PDF），且答案之間不存在因果依賴。使用 LLM 將多個任務的語義合并成一個自然、流暢且具備完整性的新任務。

寬度拓展示意圖

通過 Prompt Learning 提升任務生成效率

在 TaskCraft 的任務構建流程中，Prompt 的設計起到了至關重要的作用。研究團隊采用了自舉式 few-shot 提示優(yōu)化機制，基于生成的任務數(shù)據(jù)對提示進行了迭代優(yōu)化，從而實現(xiàn)了提示模板的自我進化。如表1，實驗結果顯示，原子任務的生成通過率從初始的 54.9% 提高至 68.1%，同時平均生成時間減少了近 20%。在深度拓展任務中，6 輪任務擴展的成功率由 41% 提升至 51.2%，進一步驗證了生成數(shù)據(jù)在提升任務構建質量與效率方面的顯著效果。

表1 Prompt Learning實驗結果

對智能體基礎模型進行SFT訓練

其次，研究團隊進一步評估了 TaskCraft 所生成任務數(shù)據(jù)在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎，研究者基于三個典型的多跳問答數(shù)據(jù)集（HotpotQA、Musique 和 Bamboogle）的訓練集，生成了約32k條多跳任務以及軌跡，并利用這些生成數(shù)據(jù)對模型進行監(jiān)督微調(diào)（SFT）。如表2，實驗結果表明，經(jīng)過微調(diào)后，Base 模型的平均性能提升了 14%，Instruct 模型提升了 6%，說明 TaskCraft 生成的數(shù)據(jù)在增強大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外，當這些微調(diào)模型與強化學習方法 Search-R1 相結合時，模型性能進一步提升，進一步證明 TaskCraft 所生成的任務數(shù)據(jù)不僅能用于監(jiān)督學習，也可作為強化學習的優(yōu)質訓練起點。

表2 監(jiān)督微調(diào)效果

此外，你可能會好奇：引入搜索 Agent 是否真的有必要？為此，研究團隊設計了一項對比實驗，比較了兩種任務構建方式的效果：一是直接使用 GPT-4.1 基于某個結論生成任務，另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務。結果如表 3 所示，TaskCraft 構建范式在多項指標上表現(xiàn)更優(yōu)。

表3任務構建范式的有效性分析

相比之下，TaskCraft 生成的任務具有顯著更高的通過率，驗證時間更短，且工具使用次數(shù)更符合“原子任務”的定義（理論最優(yōu)為：一次輸入索引 + 一次目標工具調(diào)用）。此外，任務的工具調(diào)用次數(shù)也更穩(wěn)定，方差更小，反映出 TaskCraft 在保持原子任務難度的一致性方面具備更強的優(yōu)勢。

原子數(shù)據(jù)域分布

基于 TaskCraft，研究者構建了一個包含約 41,000 個 agentic 任務的大規(guī)模數(shù)據(jù)集，為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評估提供了堅實的基礎。該數(shù)據(jù)集覆蓋多個工具使用場景，包括網(wǎng)頁搜索、PDF 閱讀、圖像理解等，任務結構層次豐富，難度可控，支持原子級任務和多跳復雜任務。由于所有任務都附帶了真實的執(zhí)行軌跡，不僅可以進行監(jiān)督式微調(diào)（SFT），還能為強化學習（RL）提供高質量的訓練數(shù)據(jù)起點。這使得該數(shù)據(jù)集可廣泛應用于智能體基礎模型的能力增強、Agent 推理策略的評估，以及多工具調(diào)用環(huán)境下的泛化能力測試。

責任編輯：張燕妮來源：機器之心

智能體模型 AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營