偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從零拆解一款爆火Agent智能體,四步學會設計自主決策Agent

人工智能
browser-use 在實現(xiàn)上還有一些其他值得學習的細節(jié),比如:有些 Action 執(zhí)行后可能導致頁面變化,這時候會中斷任務,重新生成新 Action。

以前我們開發(fā)的大多數(shù)智能體是固定的工作流模式,很少有按照下面的框架,開發(fā)具有自主決策自主使用工具的智能體。

圖片圖片

前兩天,我分享了一款可以自動使用瀏覽器完成簡單任務的開源Agent——browser-use

圖片圖片

上面演示的是它自動搜索 ‘渡碼’,并打開了我的博客。

browser-use 是一款開源 Agent,在 GitHub 上有 1.5w star,一條命令就可以在本地安裝使用,門檻非常低。

圖片圖片

自從上次分享完之后,我的職業(yè)病就犯了,總想拆解一下看看是怎么實現(xiàn)的,所以就有了今天這篇文章。

browser-use 只用了一條提示詞完成了上面第一張圖中 Agent 的四個模塊——Memory、Planning、Tools和Action。

這條提示詞在源文件 prompts.py 中,有130行。

圖片圖片

雖然提示詞有點長,但不用擔心,按照上面四個模塊拆解完就會發(fā)現(xiàn)如此清晰、簡單。

圖片

上面這段提示詞是對四個模塊的定義,下面我們一個一個來說。

Memory(記憶) - 記錄已經(jīng)完成的任務和接下來要進行的任務。

"memory": "Description of what has been done and what you need to remember until the end of the task",

我把上面‘打開博客’案例的執(zhí)行過程記錄了下來,可以看到 Memory 實際的栗子

'memory': "Baidu is open, ready to search for '渡碼'."

Planning(規(guī)劃)- 根據(jù)當前頁面(網(wǎng)頁)判斷上一步執(zhí)行是否成功,生成接下來應該執(zhí)行的任務。

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not",
"next_goal": "What needs to be done with the next actions"

這里包含兩部分,第一步是 evaluation_previous_goal 判斷之前任務是否成功,之前的任務是什么,可以在記憶中獲取,這就解釋了為什么第一張圖中 Memory 有一條虛線指向 Planning。

之前任務狀態(tài)決定了下一個任務的規(guī)劃,如果之前任務失敗則重試,如果成功則規(guī)劃新任務。

實際的栗子:

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',
'next_goal': "Input '渡碼' into the search box and submit the search."

Tools(工具)- browser-use 定義了15個可以操作網(wǎng)頁的工具。

圖片圖片

工具的定義會放在提示詞中,以便大模型選擇。每一個工具都有對應的代碼用于完成具體的任務。

圖片圖片

Action(行動)- 根據(jù) Planning 生成一系列具體的行動

直接上栗子:

'action': [{'input_text': {'index': 12, 'text': '渡碼'}}, {'click_element': {'index': 13}}]

這個例子中,有兩個行動,第一步,在頁面元素標號12的地方(搜索框)輸入‘渡碼’;第二步,在頁面元素標號13的地方(搜索按鈕)點擊,完成搜索。

只不過巧合的是,在 browser-use 中所有 Action 都是用 Tools 完成。

有些朋友可能會有疑問,這些標號是怎么來的。

browser-use 是通過分析頁面 HTML 代碼,識別出頁面中的組件(元素),并給每個組件設置一個標號。

圖片圖片

在這個頁面中,可以看到五顏六色的標記框和框上的標號,這就是 browser-use 識別的。

最終這些信息會轉(zhuǎn)成 ‘1[:]<a name="tj_settingicon">設置</a>’ 這種格式的文本,追加到提示詞中,送入大模型

圖片圖片

這樣,大模型就能知道頁面長什么樣,從而可以規(guī)劃任務。

我覺得這個思路非常值得學習,正是由于大模型具備強大的理解能力,才能用幾行文本就代替一個復雜的頁面,將一件看似復雜的事情大大簡化。

browser-use 在實現(xiàn)上還有一些其他值得學習的細節(jié),比如:有些 Action 執(zhí)行后可能導致頁面變化,這時候會中斷任務,重新生成新 Action。

再比如,支持視覺大模型,上傳整個網(wǎng)頁截圖,可以讓大模型更好理解頁面,從而更好地規(guī)劃任務。感興趣的朋友可以下載源碼繼續(xù)研究。

另外,最近看到智能體一個新趨勢——主動學習。依賴這項能力,Genius智能體僅用10%的數(shù)據(jù)和2小時訓練就在經(jīng)典游戲Pong中超越頂尖人類玩家和其他AI模型。

我在工作中搭建智能體也深有體會,由于工作中是私有場景,智能體不理解你的業(yè)務,所以就無法給你做出正確的 Planning,這時候智能體自主學習能力就很有必要了。

最后,發(fā)放一波紅包封面,是的,你沒猜錯,用AI生成的。

責任編輯:武曉燕 來源: 渡碼
相關推薦

2025-02-24 13:46:40

2024-07-08 09:49:54

2025-07-28 07:00:00

2025-04-28 09:10:00

智能體Agent工作流

2025-01-23 00:00:01

2024-05-11 08:27:41

Agent智能體GPT

2025-03-07 09:08:43

2025-06-10 04:00:00

2024-05-29 12:13:50

2023-12-26 12:12:01

模型訓練

2025-07-04 16:46:57

智能體模型AI

2025-09-30 07:16:59

2023-08-29 13:45:55

AI智能

2025-05-22 07:40:32

2025-05-27 02:00:00

2025-08-11 09:16:00

2022-02-25 00:04:35

智能推薦產(chǎn)品

2024-10-18 15:20:00

點贊
收藏

51CTO技術棧公眾號