偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<sub id="ymunt"><rt id="ymunt"></rt></sub>}

<blockquote id="ymunt"><p id="ymunt"></p></blockquote>

<sub id="ymunt"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

從零拆解一款爆火Agent智能體，四步學會設計自主決策Agent

作者：渡碼 2025-01-26 10:25:53

browser-use 在實現(xiàn)上還有一些其他值得學習的細節(jié)，比如：有些 Action 執(zhí)行后可能導致頁面變化，這時候會中斷任務，重新生成新 Action。

以前我們開發(fā)的大多數(shù)智能體是固定的工作流模式，很少有按照下面的框架，開發(fā)具有自主決策和自主使用工具的智能體。

圖片

前兩天，我分享了一款可以自動使用瀏覽器完成簡單任務的開源Agent——browser-use。

圖片

上面演示的是它自動搜索 ‘渡碼’，并打開了我的博客。

browser-use 是一款開源 Agent，在 GitHub 上有 1.5w star，一條命令就可以在本地安裝使用，門檻非常低。

圖片

自從上次分享完之后，我的職業(yè)病就犯了，總想拆解一下看看是怎么實現(xiàn)的，所以就有了今天這篇文章。

browser-use 只用了一條提示詞完成了上面第一張圖中 Agent 的四個模塊——Memory、Planning、Tools和Action。

這條提示詞在源文件 prompts.py 中，有130行。

圖片

雖然提示詞有點長，但不用擔心，按照上面四個模塊拆解完就會發(fā)現(xiàn)如此清晰、簡單。

上面這段提示詞是對四個模塊的定義，下面我們一個一個來說。

Memory（記憶） - 記錄已經(jīng)完成的任務和接下來要進行的任務。

"memory": "Description of what has been done and what you need to remember until the end of the task",

我把上面‘打開博客’案例的執(zhí)行過程記錄了下來，可以看到 Memory 實際的栗子

'memory': "Baidu is open, ready to search for '渡碼'."

Planning（規(guī)劃）- 根據(jù)當前頁面（網(wǎng)頁）判斷上一步執(zhí)行是否成功，生成接下來應該執(zhí)行的任務。

"evaluation_previous_goal": "Success|Failed|Unknown - Analyze the current elements and the image to check if the previous goals/actions are successful like intended by the task. Ignore the action result. The website is the ground truth. Also mention if something unexpected happened like new suggestions in an input field. Shortly state why/why not",
"next_goal": "What needs to be done with the next actions"

這里包含兩部分，第一步是 evaluation_previous_goal 判斷之前任務是否成功，之前的任務是什么，可以在記憶中獲取，這就解釋了為什么第一張圖中 Memory 有一條虛線指向 Planning。

之前任務狀態(tài)決定了下一個任務的規(guī)劃，如果之前任務失敗則重試，如果成功則規(guī)劃新任務。

實際的栗子：

'evaluation_previous_goal': 'Success - Baidu was successfully opened in a new tab.',
'next_goal': "Input '渡碼' into the search box and submit the search."

Tools（工具）- browser-use 定義了15個可以操作網(wǎng)頁的工具。

圖片

工具的定義會放在提示詞中，以便大模型選擇。每一個工具都有對應的代碼用于完成具體的任務。

圖片

Action（行動）- 根據(jù) Planning 生成一系列具體的行動

直接上栗子：

'action': [{'input_text': {'index': 12, 'text': '渡碼'}}, {'click_element': {'index': 13}}]

這個例子中，有兩個行動，第一步，在頁面元素標號12的地方（搜索框）輸入‘渡碼’；第二步，在頁面元素標號13的地方（搜索按鈕）點擊，完成搜索。

只不過巧合的是，在 browser-use 中所有 Action 都是用 Tools 完成。

有些朋友可能會有疑問，這些標號是怎么來的。

browser-use 是通過分析頁面 HTML 代碼，識別出頁面中的組件（元素），并給每個組件設置一個標號。

圖片

在這個頁面中，可以看到五顏六色的標記框和框上的標號，這就是 browser-use 識別的。

最終這些信息會轉(zhuǎn)成 ‘1[:]<a name="tj_settingicon">設置</a>’ 這種格式的文本，追加到提示詞中，送入大模型

圖片

這樣，大模型就能知道頁面長什么樣，從而可以規(guī)劃任務。

我覺得這個思路非常值得學習，正是由于大模型具備強大的理解能力，才能用幾行文本就代替一個復雜的頁面，將一件看似復雜的事情大大簡化。

browser-use 在實現(xiàn)上還有一些其他值得學習的細節(jié)，比如：有些 Action 執(zhí)行后可能導致頁面變化，這時候會中斷任務，重新生成新 Action。

再比如，支持視覺大模型，上傳整個網(wǎng)頁截圖，可以讓大模型更好理解頁面，從而更好地規(guī)劃任務。感興趣的朋友可以下載源碼繼續(xù)研究。

另外，最近看到智能體一個新趨勢——主動學習。依賴這項能力，Genius智能體僅用10%的數(shù)據(jù)和2小時訓練就在經(jīng)典游戲Pong中超越頂尖人類玩家和其他AI模型。

我在工作中搭建智能體也深有體會，由于工作中是私有場景，智能體不理解你的業(yè)務，所以就無法給你做出正確的 Planning，這時候智能體自主學習能力就很有必要了。

最后，發(fā)放一波紅包封面，是的，你沒猜錯，用AI生成的。

責任編輯：武曉燕來源：渡碼

Agent 智能體 Action

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="kolw5"><li id="kolw5"><menuitem id="kolw5"></menuitem></li></legend>