偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="bbhfg"><p id="bbhfg"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)

發(fā)布于 2024-9-24 14:45

瀏覽

0收藏

Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)-AI.x社區(qū)

今天我要跟大家分享一篇很有意思的論文,題目是《Agent Workflow Memory》,也就是"Agent工作流記憶"。這篇論文提出了一種新方法,讓AI助手(我們稱之為Agent)能更好地完成復(fù)雜的網(wǎng)頁任務(wù)。

背景:AI助手的挑戰(zhàn)

首先,我們來聊聊這個研究的背景?，F(xiàn)在的AI技術(shù)已經(jīng)非常強大了,特別是像GPT這樣的大語言模型(LLM),它們可以進行對話、回答問題,甚至可以幫我們完成一些簡單的任務(wù)。但是,當(dāng)面對復(fù)雜的、需要多個步驟才能完成的任務(wù)時,AI助手還是會遇到不少困難。

舉個例子,假設(shè)我們讓AI助手幫我們在網(wǎng)上訂一張從北京到上海的機票。這個任務(wù)看似簡單,但實際上涉及很多步驟:

打開航空公司網(wǎng)站

選擇出發(fā)地和目的地

選擇日期

篩選合適的航班

填寫乘客信息

選擇座位

支付訂單

對于人類來說,我們可能已經(jīng)訂過很多次機票了,這些步驟我們爛熟于心。但對AI助手來說,每次執(zhí)行這樣的任務(wù)都像是全新的體驗。它可能會在某些步驟卡住,或者忘記了重要的步驟。

Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)-AI.x社區(qū)

研究人員發(fā)現(xiàn),現(xiàn)有的AI助手主要有兩個問題:

缺乏可重用的工作流程:AI助手無法像人類那樣,從過去的經(jīng)驗中提取出通用的工作流程,并在新任務(wù)中靈活運用。
無法從失敗中學(xué)習(xí):每次執(zhí)行任務(wù)時,AI助手都是從頭開始,無法利用之前成功或失敗的經(jīng)驗來改進自己的表現(xiàn)。

研究目標(biāo):讓AI助手更聰明

基于這些挑戰(zhàn),研究者提出了一個非常有趣的想法:能不能讓AI助手也像人類一樣,能夠?qū)W習(xí)、記憶和使用工作流程呢?

這就是本篇論文的核心目標(biāo):開發(fā)一種方法,讓AI助手能夠從過去的經(jīng)驗中提取出可重用的工作流程,并在未來的任務(wù)中靈活運用這些工作流程。

研究者們希望通過這種方法,AI助手可以:

更高效地完成復(fù)雜任務(wù)
在不同的網(wǎng)站和領(lǐng)域之間更好地泛化
隨著經(jīng)驗的積累不斷提升自己的能力

那么他們是如何實現(xiàn)這個目標(biāo)的呢?這就要說到本文的核心方法了:Agent Workflow Memory(AWM),也就是"Agent工作流記憶"。

AWM的核心思想:工作流記憶

Agent Workflow Memory (AWM)的核心思想是讓AI助手能夠像人類一樣,從過去的經(jīng)驗中學(xué)習(xí)、記憶和使用工作流程。但什么是"工作流"呢?讓我們先來理解這個概念。

什么是工作流?

Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)-AI.x社區(qū)

在AWM中,工作流(Workflow)是指完成某個任務(wù)或子任務(wù)的一系列步驟。它包含兩個主要部分:

工作流描述(Workflow Description): 一段簡短的文本,描述這個工作流的目標(biāo)或功能。
工作流軌跡(Workflow Trajectory): 一系列具體的步驟,包括觀察環(huán)境、推理和執(zhí)行動作。

舉個例子,假設(shè)我們有一個"搜索產(chǎn)品"的工作流,它可能看起來像這樣:

## 工作流描述: 在電商網(wǎng)站搜索特定產(chǎn)品

工作流軌跡:
1. [觀察] 當(dāng)前頁面顯示搜索框
2. [推理] 我需要在搜索框中輸入產(chǎn)品名稱
3. [動作] 在搜索框中輸入"{產(chǎn)品名稱}"
4. [觀察] 搜索結(jié)果頁面加載完成
5. [推理] 我需要查看搜索結(jié)果并選擇最相關(guān)的產(chǎn)品
6. [動作] 點擊最相關(guān)的產(chǎn)品鏈接

這個工作流描述了在電商網(wǎng)站搜索產(chǎn)品的通用步驟,可以適用于多種不同的產(chǎn)品和網(wǎng)站。

AWM的工作原理

現(xiàn)在我們了解了工作流的概念,讓我們來看看AWM是如何工作的。AWM的核心流程包括三個主要步驟:

工作流提取(Workflow Induction)
工作流整合(Workflow Integration)
工作流使用(Workflow Utilization)

讓我們逐一詳細(xì)了解這些步驟。

1. 工作流提取 (Workflow Induction)

在這個步驟中,AWM會從AI助手過去執(zhí)行任務(wù)的經(jīng)驗中提取出可重用的工作流。這個過程可以通過兩種方式進行:

a) 基于規(guī)則的提取: 使用預(yù)定義的規(guī)則來識別和提取常見的行為模式。b) 基于語言模型的提取: 使用大型語言模型(如GPT)來分析和總結(jié)任務(wù)執(zhí)行過程,生成抽象的工作流。

研究者發(fā)現(xiàn),基于語言模型的提取方法通常能產(chǎn)生更抽象、更通用的工作流,因此在實驗中表現(xiàn)更好。

工作流提?。╓orkflow Induction）是AWM方法的核心步驟之一，論文中詳細(xì)描述了兩種主要的實現(xiàn)方式：基于規(guī)則的方法和基于語言模型的方法。我們來深入了解一下這兩種方法的具體實現(xiàn)細(xì)節(jié)。

1. 基于規(guī)則的方法（Rule-based Induction）

基于規(guī)則的方法主要包括兩個步驟：經(jīng)驗去重和無效動作過濾。

1.1 經(jīng)驗去重

目的：從多個相似的任務(wù)執(zhí)行經(jīng)驗中提取出獨特的工作流。

實現(xiàn)步驟：

提取動作序列：

例如，從軌跡CLICK('12') → CLICK('30') → TYPE('44', "cat") 中提取出CLICK → CLICK → TYPE。

按動作序列分組：

將具有相同動作序列的經(jīng)驗分到一組。

隨機選擇：

從每組中隨機選擇n個經(jīng)驗（默認(rèn)n=1）作為該組的代表。

（針對WebArena）額外的模板去重：

如果有任務(wù)模板信息，再按模板分組。
從每個模板組中隨機選擇n個經(jīng)驗（默認(rèn)n=1）。

1.2 無效動作過濾

目的：移除無法在環(huán)境中成功執(zhí)行的動作步驟。

實現(xiàn)步驟：

設(shè)定規(guī)則：

例如，CLICK和TYPE動作的第一個參數(shù)必須是字符串格式的整數(shù)（代表環(huán)境中元素的ID）。

應(yīng)用規(guī)則：

遍歷每個動作，檢查是否符合規(guī)則。
移除不符合規(guī)則的動作。

生成最終工作流：

保留經(jīng)過過濾后的有效動作序列作為工作流。

示例：輸入軌跡：CLICK(12) → CLICK('12') → CLICK('30') → TYPE(44, "cat") → TYPE('44', "cat")?輸出工作流：CLICK('12') → CLICK('30') → TYPE('44', "cat")

2. 基于語言模型的方法（LM-based Induction）

基于語言模型的方法利用大型語言模型（如GPT）來生成更抽象、更通用的工作流。

2.1 提示工程（Prompt Engineering）

研究者設(shè)計了特殊的提示模板，引導(dǎo)語言模型從給定的任務(wù)經(jīng)驗中提取工作流。

提示模板的關(guān)鍵點：

任務(wù)描述：要求模型從給定的網(wǎng)頁導(dǎo)航任務(wù)列表中提取常見工作流。
輸入格式說明：每個任務(wù)包含一個自然語言指令和一系列解決任務(wù)的動作。
輸出要求：

找出多個任務(wù)中重復(fù)出現(xiàn)的動作子集。

將每個重復(fù)子集提取為一個工作流。

每個工作流應(yīng)該是常用的子例程，至少包含兩個步驟。

使用描述性變量名代替具體的輸入文本或按鈕字符串。

Given a list of web navigation tasks, your task is to extract the common workflows.
Each given task contains a natural language instruction, and a series of actions to solve the task. You need to find the repetitive subset of actions across multiple tasks, and extract each of them out as a workflow.
Each workflow should be a commonly reused sub-routine of the tasks. Do not generate similar or overlapping workflows. Each workflow should have at least two steps. Represent the non-fixed elements (input text, button strings) with descriptive variable names as shown in the example.

2.2 工作流生成

語言模型基于提供的任務(wù)經(jīng)驗和提示，生成抽象的工作流。

生成的工作流通常包含：

工作流描述：簡要說明工作流的目標(biāo)或功能。
工作流軌跡：包含多個步驟，每個步驟包括：

環(huán)境描述：當(dāng)前網(wǎng)頁狀態(tài)的文本描述。

推理過程：解釋為什么要執(zhí)行下一步動作。

具體動作：可執(zhí)行的程序化動作。

示例工作流：

## 在電商網(wǎng)站搜索產(chǎn)品

工作流描述：此工作流用于在電商網(wǎng)站上搜索特定產(chǎn)品。

工作流軌跡：
[環(huán)境描述] 當(dāng)前頁面顯示搜索框。
[推理] 我需要在搜索框中輸入產(chǎn)品名稱。
[動作] fill('搜索框ID', '{產(chǎn)品名稱}')

[環(huán)境描述] 搜索結(jié)果頁面已加載。
[推理] 我需要點擊最相關(guān)的產(chǎn)品鏈接。
[動作] click('{最相關(guān)產(chǎn)品鏈接ID}')

3. 兩種方法的比較

研究者發(fā)現(xiàn)，基于語言模型的方法通常能產(chǎn)生更好的結(jié)果：

更抽象：生成的工作流更容易泛化到不同的任務(wù)和網(wǎng)站。
更細(xì)粒度：能夠捕捉到更精細(xì)的操作模式。
更靈活：可以根據(jù)上下文生成適應(yīng)性更強的工作流。

然而，基于規(guī)則的方法也有其優(yōu)勢：

計算效率高：不需要大型語言模型，處理速度更快。
確定性：結(jié)果更可預(yù)測，便于調(diào)試和優(yōu)化。

在實際應(yīng)用中，研究者主要使用基于語言模型的方法，因為它能產(chǎn)生更高質(zhì)量、更通用的工作流，從而在各種測試場景中取得更好的性能。

通過這種精心設(shè)計的工作流提取過程，AWM能夠從AI助手的歷史經(jīng)驗中學(xué)習(xí)到有用的操作模式，這些模式后續(xù)可以被用來指導(dǎo)AI助手更有效地完成新的任務(wù)。這就是AWM方法效果顯著的關(guān)鍵所在。

2. 工作流整合 (Workflow Integration)

一旦提取出工作流,AWM會將這些工作流整合到AI助手的記憶中。這個過程就像是給AI助手一本"操作手冊",里面包含了各種常見任務(wù)的執(zhí)行步驟。

3. 工作流使用 (Workflow Utilization)

當(dāng)AI助手面對新任務(wù)時,它會先查閱自己的"操作手冊",看看有沒有適用的工作流。如果找到了相關(guān)的工作流,AI助手就會參考這個工作流來執(zhí)行任務(wù),而不是從零開始摸索。

AWM的兩種工作模式

AWM有兩種主要的工作模式:離線模式(Offline)和在線模式(Online)。

離線模式(AWM Offline):

在任務(wù)執(zhí)行之前,使用已有的訓(xùn)練數(shù)據(jù)來提取工作流。
適用于有大量高質(zhì)量訓(xùn)練數(shù)據(jù)的場景。
優(yōu)點是可以提前準(zhǔn)備好工作流,執(zhí)行任務(wù)時更快。

在線模式(AWM Online):

在執(zhí)行任務(wù)的過程中實時提取和使用工作流。
適用于沒有現(xiàn)成訓(xùn)練數(shù)據(jù),或者任務(wù)環(huán)境經(jīng)常變化的場景。
優(yōu)點是可以不斷學(xué)習(xí)和適應(yīng)新的任務(wù)環(huán)境。

這兩種模式各有優(yōu)勢,研究者在不同的實驗場景中都進行了測試。

到這里,我們已經(jīng)對AWM的核心思想和工作原理有了基本的了解。在下一部分,我們將看看研究者是如何評估AWM的效果的,以及它在實際任務(wù)中表現(xiàn)如何。

AWM的實驗評估

研究者們?yōu)榱巳鏈y試AWM的效果,選擇了兩個主要的網(wǎng)頁導(dǎo)航基準(zhǔn)測試:WebArena和Mind2Web。這兩個測試集涵蓋了各種不同類型的網(wǎng)頁任務(wù),從簡單的信息查找到復(fù)雜的多步驟操作都有。讓我們來看看AWM在這些測試中的表現(xiàn)。

Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)-AI.x社區(qū)

WebArena測試

## shopping: Browse Products in a Specific Category
To browse products in a specific category, I need to navigate to the relevant main category. I will start by hovering over the main category menu item to reveal the subcategories.
hover(’main category id’)
To browse products in the specific subcategory, I need to click on the subcategory link. click(’subcategory id’)

WebArena是一個包含812個網(wǎng)頁導(dǎo)航任務(wù)的測試集,涉及5個不同的網(wǎng)站,包括電子商務(wù)、社交論壇、軟件開發(fā)協(xié)作平臺和內(nèi)容管理系統(tǒng)等。這個測試的特點是它可以嚴(yán)格評估AI助手執(zhí)行任務(wù)的功能正確性。

實驗設(shè)置

研究者使用了GPT-4作為基礎(chǔ)模型,采用AWM的在線模式(AWM Online)進行測試。這意味著AI助手在執(zhí)行測試任務(wù)的過程中,會不斷學(xué)習(xí)和使用新的工作流。

主要結(jié)果

整體成功率:

AWM: 35.5%
基準(zhǔn)方法(BrowserGym): 23.5%
相對提升: 51.1%

平均步驟數(shù):

AWM: 5.9步
基準(zhǔn)方法: 7.9步

這些結(jié)果表明,AWM不僅顯著提高了任務(wù)完成的成功率,還減少了完成任務(wù)所需的步驟數(shù),使AI助手的操作更加高效。

跨模板泛化能力

研究者還專門測試了AWM在不同任務(wù)模板之間的泛化能力。結(jié)果顯示,即使面對全新的任務(wù)類型,AWM仍然保持了較高的成功率(33.2%),遠(yuǎn)超基準(zhǔn)方法(20.5%)。

Mind2Web測試

# travel: enter flight locations
Given that you are on the flight booking page, this workflow enters the departure and destination city/airport for your flight.
[link] From Departure Airport or City Your Origin ? > CLICK [textbox] Origin City or Airport ? > TYPE: {your-origin-city}
[link] {best-popup-option} ? > CLICK
[link] To Destination Airport or City Your Destination ? > CLICK [textbox] Destination City or Airport ? > TYPE: {your-destination-city} [link] {best-popup-option} ? > CLICK

Mind2Web是另一個重要的測試集,它強調(diào)了跨任務(wù)、跨網(wǎng)站和跨領(lǐng)域的泛化能力。這個測試集包含了1000多個任務(wù),涉及200多個不同的網(wǎng)站和多個領(lǐng)域(如旅行、購物、社交媒體等)。

實驗設(shè)置

研究者在Mind2Web上同時測試了AWM的離線模式(AWM Offline)和在線模式(AWM Online)。

主要結(jié)果

跨任務(wù)測試:

AWM Offline (GPT-4): 45.1% 步驟成功率
基準(zhǔn)方法(MindAct): 36.2% 步驟成功率
相對提升: 24.6%

跨網(wǎng)站測試:

AWM Online: 33.9% 步驟成功率
基準(zhǔn)方法: 30.1% 步驟成功率
絕對提升: 3.8個百分點

跨領(lǐng)域測試:

AWM Online: 35.5% 步驟成功率
基準(zhǔn)方法: 18.6% 步驟成功率
絕對提升: 16.9個百分點

這些結(jié)果清楚地表明,AWM在各種不同的場景下都能顯著提升AI助手的表現(xiàn),特別是在跨領(lǐng)域的任務(wù)中,improvement非常顯著。

結(jié)果分析

通過這些實驗,我們可以得出以下幾個重要的結(jié)論:

顯著提升性能: AWM無論在哪種測試場景下,都能顯著提升AI助手的任務(wù)完成能力。
更高效的執(zhí)行: 使用AWM的AI助手通常能用更少的步驟完成任務(wù),這說明它學(xué)會了更有效的操作方式。
強大的泛化能力: AWM展現(xiàn)出了優(yōu)秀的跨任務(wù)、跨網(wǎng)站和跨領(lǐng)域泛化能力,這意味著它學(xué)到的工作流具有廣泛的適用性。
在線學(xué)習(xí)的優(yōu)勢: 在一些場景下,特別是面對全新的領(lǐng)域時,AWM的在線模式表現(xiàn)得更好,說明實時學(xué)習(xí)和適應(yīng)的能力非常重要。
基礎(chǔ)模型的重要性: 實驗結(jié)果顯示,使用更強大的基礎(chǔ)模型(如從GPT-3.5升級到GPT-4)可以進一步提升AWM的效果。

本文轉(zhuǎn)載自 ??芝士AI吃魚??，作者：芝士AI吃魚

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

吳恩達深度剖析：AI Agent 工作流的演進與前景

wsp_ping ? 8618瀏覽 ? 0回復(fù)
可信Agent構(gòu)建之道：AI如何重塑工作流？

ermulong ? 2587瀏覽 ? 0回復(fù)
可信Agent構(gòu)建之道：AI如何重塑工作流？

xuxiangda ? 2606瀏覽 ? 0回復(fù)
Agent planning終篇：打造更聰明的智能體！

探索AGI ? 3657瀏覽 ? 0回復(fù)
Agent的進化：RAISE如何讓AI更聰明？

探索AGI ? 3523瀏覽 ? 0回復(fù)
大模型之視頻圖像生成之工作流——ComfyUI和AI煉丹師

AI探索時代 ? 4990瀏覽 ? 0回復(fù)
再談大模型工作流技術(shù)之——ComfyUI框架

AI探索時代 ? 9629瀏覽 ? 0回復(fù)
記一次ComfyUI工作流bug查找過程

AI探索時代 ? 3238瀏覽 ? 0回復(fù)
深度解析 REAcT Agent 的實現(xiàn)：利用 LlamaIndex 和 Gemini 提升智能代理工作流

Halo咯咯 ? 7773瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐

AI博物院 ? 2680瀏覽 ? 0回復(fù)
4種革新性AI Agent工作流設(shè)計模式全解析

大語言模型論文跟蹤 ? 3351瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐

AI博物院 ? 4419瀏覽 ? 0回復(fù)
COZE應(yīng)用：3分鐘用字節(jié)“扣子”打造股票AI分析工作流

風(fēng)云2002_1 ? 5198瀏覽 ? 0回復(fù)
Agent只是手段，工作流才是內(nèi)容！

51CTO技術(shù)棧 ? 2308瀏覽 ? 0回復(fù)
什么是工作流？如何創(chuàng)建和編排AI智能體工作流

數(shù)字化助推器 ? 6948瀏覽 ? 0回復(fù)
智能體（Agent）的三種表現(xiàn)類型：聊天助手、工作流與對話流

九歌AI大模型 ? 2327瀏覽 ? 0回復(fù)
AI Agents-5 | AI工作流與代理的深度剖析：從原理到實戰(zhàn)應(yīng)用

Halo咯咯 ? 2134瀏覽 ? 0回復(fù)
如何在Dify工作流節(jié)點中使用Coze的插件商店

九歌AI大模型 ? 3183瀏覽 ? 0回復(fù)
六款必知的AI Agent工作流，優(yōu)缺點解析

小虎哦哦 ? 1552瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從百度到豆包：搜索游戲規(guī)則的變革 3天前發(fā)布
AI Agent vs Agentic AI：你真的分得清這兩個概念嗎？ 2025-06-27 06:20:47發(fā)布

熱門推薦

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

重磅！英偉達宣布H20芯片即將恢復(fù)對華銷售，并計劃推出全新GPU 0回復(fù)

將智能植根于運動之中——從AI模型到具身智能的下一個躍遷 0回復(fù)

實測AntV Chart MCP 和DataV Atlas GIS MCP 1回復(fù)

RAG：7個檢索增強生成技術(shù)的解析（含實現(xiàn)代碼） 0回復(fù)

上一篇： P-RAG: 漸進式檢索增強生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用

下一篇： Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

社區(qū)精華內(nèi)容

目錄

<legend id="ixov6"><track id="ixov6"></track></legend><style id="ixov6"></style>

<xmp id="ixov6"><style id="ixov6"></style></xmp>

<sub id="ixov6"></sub>