還拿不到Manus邀請碼?試試這幾款開箱即用的computer use智能體,附教程
我在今年1月初寫了2025年的AI Agent發(fā)展十三大趨勢,其中兩個趨勢是多Agent系統(tǒng)開始流行和GUI Agent產(chǎn)品得到更多應(yīng)用,沒想到來得這么快。
推薦閱讀:???智能體商用元年開啟,2025年AI Agent行業(yè)發(fā)展十三大趨勢??
最近幾天,集多Agent架構(gòu)、computer use、GUI智能體等技術(shù)和概念于一身的Manus,通過一些媒體、科技博主的報道和渲染,在 “比肩DeepSeek” “AI Agent 的GPT時刻” 等一浪強過一浪的聲浪中,Manus一夜出圈。
官方資料顯示,Manus通過多Agent架構(gòu)(Multiple Agent)將任務(wù)拆分為規(guī)劃、執(zhí)行、驗證等子模塊,每個Agent基于獨立的語言模型或強化學習模型,通過API協(xié)同工作,最終在虛擬機中調(diào)用工具(如編寫代碼、爬取數(shù)據(jù))完成任務(wù)。這些特性,是多智能體架構(gòu)的通性。
這樣的項目實現(xiàn),對于不懂代碼的可能很難。對于懂代碼的來說,好吧,來自知名多Agent架構(gòu)MetaGPT的3個小伙子僅用了3個小時就把Manus復(fù)現(xiàn)了。這個項目叫OpenManus,到這篇文章發(fā)布時已經(jīng)有16.3k stars了。Manus的出圈以及短期內(nèi)體驗,間接捧紅了這個同類型開源項目,潑天富貴就這樣簡單地轉(zhuǎn)移了。
項目地址:???https://github.com/mannaandpoem/OpenManus???
當然快速復(fù)現(xiàn)Manus的團隊不只一個,同樣是知名多Agent架構(gòu)的Camal團隊也僅用了0天就復(fù)刻了Manus,這個項目叫作owl,目前也有4K stars了。
項目地址:https://github.com/camel-ai/owl
也就在這幾天之內(nèi),已經(jīng)出現(xiàn)了多個復(fù)刻Manus的開源項目。3月這才剛開始,多智能體架構(gòu)、computer use、GUI智能體的概念就徹底爆發(fā)了。
再說回Manus。
在應(yīng)用場景方面,Manus覆蓋旅行規(guī)劃、股票分析、教育內(nèi)容生成等40余個領(lǐng)域。這么多場景任務(wù)都能實現(xiàn),再加上自主執(zhí)行的能力,當真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭,想不吸引人都難。
所以,其核心賣點在放在了“自主執(zhí)行”能力上與場景通用上。
Manus的核心架構(gòu)與Anthropic的“Computer Use”高度相似,依賴多Agent虛擬機環(huán)境完成任務(wù)?!白灾饕?guī)劃”能力則基于現(xiàn)有大語言模型(如GPT-4)的調(diào)用,很有可能在任務(wù)規(guī)劃模型上也用了DeepSeek,可以大大降低成本。
因為Manus沒有自研基礎(chǔ)大模型,而是通過整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實現(xiàn)功能,其核心架構(gòu)被定義為「虛擬機+多模型協(xié)同」的封裝模式?。這種做法,也就是業(yè)界所謂的“套殼”。
有業(yè)內(nèi)人士直言,Manus的核心能力,如任務(wù)拆解其實與Devin、Cursor等現(xiàn)有產(chǎn)品相似,其創(chuàng)新更多體現(xiàn)在工程封裝而非底層技術(shù)突破。
Manus號稱全球首款通用AI Agent,對于此只能說智者見智了。通用AI Agent意味著多場景匹配、跨場景應(yīng)用 多智能體協(xié)作乃至跨平臺應(yīng)用,背后需要強大算力和穩(wěn)定網(wǎng)絡(luò)的支撐,需要多重模型的綜合應(yīng)用,更需要對高并發(fā)支持。
LLM Based Agent,性能和功能取決于LLM的能力,理論上當前的大語言模型可以支撐通用AI Agent實現(xiàn),但在任務(wù)執(zhí)行時間 任務(wù)完成度上對用戶體驗是很大的考驗,一個復(fù)雜的任務(wù)可能會需要很長時間,一些用戶的體驗記錄也證實了這一點。
更長的任務(wù)執(zhí)行時間,意味著更多token的消耗。面對一個動輒需要數(shù)十分鐘才能完成任務(wù),token消耗會是一個無底洞,也就意味著更高的成本,這樣的性價比估計也只有特殊需求的企業(yè)能考慮了。至于有些視頻說的提交了任務(wù)明天等著任務(wù)完成,不怕燒錢的用戶當然也是沒問題的。
性價比與成效比,決定了很多大廠至今也沒有打出通用AI Agent的旗號,還是主要在攻擊垂直智能體,這也是近幾年智能體的主要發(fā)展方向。 讓人有些不爽的是,一邊轟轟烈烈的宣傳,一邊卻疑似卻搞起了饑餓營銷。現(xiàn)在,邀請碼仍一碼難求,當然也給了很多人炒作邀請碼的機會,商機無處不在。
邀請碼一碼難求的原因,或許是申請的人太多,也有可能是根本不想放碼。不放邀請碼的好處是體驗的人少負面評論少挨罵就少,壞處是因為大家體驗不到挨罵也不少。據(jù)說,就連一些力捧Mannus的AI大V和公知也有塌房的風險。
當然更有可能是官方目前購買的算力無法支撐這么多人同時體驗,畢竟高并發(fā)需要大算力和強網(wǎng)絡(luò)。
不過也沒有關(guān)系,既然還拿不到邀請碼體驗不了Manus,我們可以體驗幾個同類產(chǎn)品和項目。這里,王吉偉頻道就為大家介紹幾款computer use、GUI的開源項目。除了最后一個,都是開箱即用的。
1、Goole AI Studio
Google AI Studio 是一個集成了多種 AI 功能且易于使用的 AI 開發(fā)平臺,專注于簡化 AI 模型的創(chuàng)建、優(yōu)化和部署流程。它旨在降低 AI 開發(fā)的門檻,使開發(fā)者無需深厚的機器學習背景也能快速上手,同時為專業(yè)開發(fā)者提供強大的工具支持,以滿足復(fù)雜項目的需求,快速實現(xiàn) AI 驅(qū)動的創(chuàng)新項目。
想要在Google AI Studio體驗與程序互動很簡單,只需要點擊頁面左上角的實時流,右面設(shè)置欄模型默認Gemini 2.0 Flash,輸出格式選擇文本或者語音。
選擇想用的工具,再點擊頁面中下部的 共享屏幕 ,選擇與窗口、瀏覽器標簽頁或者整個屏幕活動,就可以進行交互了。
這里我選了一個名為 AI Agent的GPT時刻的瀏覽器標簽頁,并詢問Manus是什么,截圖如下。事實證明,語言交互體驗更好一些。
同樣大家還可以選擇與Gemini實時對話,或者與Gemini交流通過攝像頭觀察到的各種實物,未來應(yīng)用非常有想象空間。
在入門應(yīng)用程序中還有一個視頻分析器,怎么使用待大家自行探索。
對于一個相對成熟的網(wǎng)頁端AI應(yīng)用,應(yīng)用起來并不難,大家可以自行體驗,這里就不多做介紹了。當然對于開發(fā)人員,Google AI Studio 還可以開發(fā)出更多功能。
這個產(chǎn)品最大的痛點是需要科學上網(wǎng),相信聰明如你一定能解決這個問題。實在不方便的朋友,可以選擇體驗后面的幾個項目。
體驗地址:https://aistudio.google.com/prompts/new_chat
2、UI-TARS-desktop
UI-TARS Desktop 是由字節(jié)跳動開發(fā)的一款基于 UI-TARS(視覺 - 語言模型)的 GUI Agent應(yīng)用程序,它允許用戶通過自然語言控制計算機。
該應(yīng)用支持跨平臺(Windows/MacOS)、實時反饋、本地處理等特性,還提供云部署和本地部署指南。用戶可通過自然語言指令完成截圖、鼠標鍵盤操作等任務(wù),其模型有多種大小可供選擇,以適應(yīng)不同硬件配置。該項目在Github,目前已經(jīng)有3K star。
項目地址:https://github.com/bytedance/UI-TARS-desktop
這個項目提供了安裝程序,用戶可從項目發(fā)布頁面下載最新版本,MacOS系統(tǒng)和Windows系統(tǒng)都適用。
使用起來也很簡單,在下面的頁面根據(jù)自己的系統(tǒng)情況下載最新的0.06版本,安裝玩打開軟件程序。軟件長這樣,界面非常簡潔,很難跟智能體聯(lián)系到一塊。
下載頁面:https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6
當然,我也為不能下載的小伙伴準備了安裝包,后臺回復(fù) 0307 獲取。
想要體驗操控電腦的關(guān)鍵,是要調(diào)用字節(jié)開發(fā)的視覺語言模型UI-TARS。部署該模型有兩種方式,云部署和本地部署。
- 云部署 :推薦使用 HuggingFace 推理端點進行快速部署,提供了英文和中文的部署指南。
- 本地部署 [vLLM] :推薦使用 vLLM 進行快速部署和推理,需安裝 vllm>=0.6.1。項目提供了不同大小的模型供用戶根據(jù)硬件配置選擇,并給出了啟動 OpenAI 兼容 API 服務(wù)的命令。
本地部署對于沒有代碼基礎(chǔ)的朋友有些麻煩,這里我們選擇云部署。官方在Hugging Face 上提供了三種型號尺寸:2B、7B 和 72B。為了實現(xiàn)最佳性能,建議使用 7B-DPO 或 72B-DPO 型號(根據(jù)您的硬件配置)。
對于云部署,官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種,都需要充點小錢??紤]網(wǎng)絡(luò)速度、穩(wěn)定性以及充值方式,Huggingface被排除。剩下的兩個國內(nèi)云廠商,因為阿里云早有賬戶就選了阿里云。這里以UI-TARS-7B-DPO為例,教大家怎么通過魔搭進入阿里云PAI入口部署該模型。
通過下面網(wǎng)址,進入魔搭的模型信息界面。目前新用戶注冊,限時贈送100小時免費GPU算力,包含100小時32GB顯存GPU+長期免費CPU計算資源(不是廣告)。
???https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO???
鼠標劃到該頁面右上方的 部署 按鈕,點擊彈出的菜單,會進入阿里云PAI平臺的該模型界面,并自動進入UI-TARS-7B-DPO模型的部署頁面,頁面右半部分是部署操作菜單。如果沒有彈出部署菜單,點擊頁面右上角的部署按鈕。記得在頁面左上角,確認是不是要部署的模型。
模型部署頁面都保持默認就行,默認是一臺30G的Nvidia A10顯卡云主機。我們要做的,就是在這臺云主機上部署UI-TARS-7B-DPO模型。最后點擊模型部署頁面左下角的部署按鈕。進入部署頁面,等待幾分鐘。
點擊頁面左側(cè) 模型部署 下的 模型在線服務(wù),右面主體部分就會顯示你已經(jīng)部署好的主機。如果賬戶有錢,主機會處于啟動狀態(tài)。
這臺服務(wù)器機型,目前的費用是10.5元/小時,體驗完記得停止,不然會一直消費。我充了50元,但體驗完忘了關(guān)機,今天已經(jīng)因為欠費而停機。
阿里云充值頁面,如下:
???https://billing-cost.console.aliyun.com/fortune/fund-management/recharge???
下面說一下如何在UI-TARS-desktop調(diào)用UI-TARS模型。點擊 模型在線服務(wù) 頁面的你所部署主機的調(diào)用信息,會彈出調(diào)用信息的詳細頁面。
打開UI-TARS-desktop軟件程序,點擊右上角的 齒輪 按鈕,彈出模型設(shè)置窗口。
語言選中文,VLM Provider選vLLM。VLM Base URL一欄,填云主機的訪問地址。VLM API Key一欄,填寫云主機的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項,保持默認。
點擊左下角的 Save 按鈕,保存模型信息。關(guān)閉軟件,再次打開(這點很重要),就可以使用了。下面放兩個官方案例視頻,大家可以試著復(fù)現(xiàn)一下。
使用Web瀏覽器獲取 SF 的當前天氣
發(fā)送內(nèi)容為“hello world”的 Twitter
至于更多的玩法,就交給大家去探索了。
3、midscene
Midscene.js是一個Web 自動化開源項目,旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求,AI就能操作網(wǎng)頁、驗證內(nèi)容和提取數(shù)據(jù)。它支持多種模型,包括UI-TARS和Qwen2.5-VL等開源模型,適用于UI自動化場景。
項目特點包括自然語言交互、Chrome擴展體驗、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調(diào)試報告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區(qū)支持,方便開發(fā)者快速上手和深入開發(fā)。
項目地址:https://github.com/web-infra-dev/midscene?tab=readme-ov-file
UI-TARS在項目頁推薦用Midscene.js體驗?zāi)P偷腤eb自動化,開發(fā)者可以用自然語言對網(wǎng)頁進行控制和交互,能夠充分發(fā)揮UI-TARS的能力。
Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態(tài)模型。三種模型各有特點:
- GPT-4o:平衡模型,使用更多代幣。
- Qwen-2.5-VL:開源 VL 模型,性能與 GPT-4o 幾乎相同,使用阿里云服務(wù)時成本更低。
- UI-TARS:開源、端到端的 GUI Agent模型,擅長目標驅(qū)動任務(wù)和糾錯。
Qwen-2.5-VL目前還在優(yōu)惠期,免費贈送用戶1000000 token,當然體驗要用它了。下面,我來教大家如何使用Midscene.js調(diào)用Qwen-2.5-VL體驗大模型的網(wǎng)頁自動化操作。
首先,需要找到模型調(diào)用地址。通過下面網(wǎng)址,打開阿里云百煉大模型平臺,如果沒有注冊需要注冊成為阿里云用戶。
???https://bailian.console.aliyun.com/???
然后在模型廣場,找到通義千問2.5-VL-72B這個模型,點擊查看詳情。
在打開的模型詳情頁,我們可以看到模型介紹、計費詳情、免費額度、模型限流等模型信息。在 模型授權(quán)下面的模型調(diào)用選項,點擊右面的 授權(quán) 按鈕,在彈出的頁面點擊 確定 按鈕,即可完成模型授權(quán)。
點擊頁面上方的 API示例 ,在打開的頁面找到 使用SDK調(diào)用時需配置的base_url ,記住這個地址,可以臨時粘貼到文本編輯工具中。
在軟件程序中調(diào)用大模型,除了 base_url ,還需要知道API KEY。點擊頁面右上角的 查看我的API-KEY ,在彈出的的頁面,如果已經(jīng)創(chuàng)建了,點 查看 并復(fù)制API-KEY。
如果沒有創(chuàng)建,需要點擊 創(chuàng)建API-KEY 按鈕,創(chuàng)建一個新的API-KEY。在創(chuàng)建頁面,描述可以隨便填,點擊確定就好了。然后查看并復(fù)制你的API-KEY,也記住這一串密碼。
到這里,大模型調(diào)用的準備工作完成。接下來,進行Midscene.js的安裝、配置和使用。
用chrome瀏覽器或者egde瀏覽器覺得打開下面網(wǎng)址,安裝 Midscene.js的Chrome擴展程序。安裝擴展程序,需要科學上網(wǎng)。
???https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief???
安裝好以后,把Midscene.js擴展程序在工具欄中顯示。點擊Midscene.js打開瀏覽器側(cè)邊欄,第一次打開需要配置大模型信息。點擊 Click to set up 按鈕,打開模型信息輸入頁面(Env Config)。
還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎?這里只需要將下面的API-KEY改成你的就行。
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
OPENAI_API_KEY="你的API-KEY"
MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct"
MIDSCENE_USE_VLM_UI_TARS=1
如果使用之前在阿里云PAI平臺購買云主機配置的UI-TARS-7B-DPO模型,模型信息按下面配置:
OPENAI_BASE_URL="你的訪問地址/v1"
OPENAI_API_KEY="你的token密碼"
MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO"
MIDSCENE_USE_VLM_UI_TARS=1
這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框,點擊 save 按鈕保存。
配置完成后,可以立即體驗 Midscene。擴展中有三個主要選項卡,功能簡介如下:
- Action:使用 action 與網(wǎng)頁交互,例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。
- Query:使用 query 從 Web 頁面中提取 JSON 數(shù)據(jù),如 “extract the user id from the page, return in { id: string }”。
- Assert:使用 assert 驗證網(wǎng)頁,例如“the page title is ”Midscene”。
我們試一下Action功能。打開微博主頁,在Midscene的指令輸入框輸入 ”發(fā)一條新微博:大家好,我正在使用 Midscene的Action功能?!?/p>
操作過程見下圖,網(wǎng)頁周邊有藍色彩條,就是它在工作了。這個視頻動圖進行了加速,全程實際用時大概1分20秒。每完成一次任務(wù),Midscene都會生成一個任務(wù)流程視頻。
我們再體驗一下它的Query數(shù)據(jù)提取功能。打開小紅書主頁,在Midscene的指令輸入框輸入 ”提取頁面的前10條內(nèi)容的標題、用戶名和點贊數(shù)“。
同樣視頻動圖也加速了,執(zhí)行這個任務(wù),大概用了1分鐘40秒左右。
關(guān)于midscene的網(wǎng)頁自動化操作,大家可以試著解鎖其他技能。此外,Midscene Chrome 擴展還支持一種橋接模式,允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關(guān)于橋接模式的說明文檔,感興趣的小伙伴可以自行探索。
???https://midscenejs.com/bridge-mode-by-chrome-extension.html???
4、智譜GLM-PC
GLM-PC是智譜公司推出的一款基于多模態(tài)大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計算機,協(xié)助用戶高效完成各類電腦任務(wù),如文檔處理、網(wǎng)頁搜索、信息整理、社交互動等。
目前GLM-PC 已經(jīng)迭代升級到基于智譜多模態(tài)大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同時支持 Windows和Mac 系統(tǒng)。
開箱即用,是GLM-PC的主要特點,不需要再做大模型的適配。
大家可以通過以下網(wǎng)址,訪問GLM-PC官網(wǎng),下載適合自己系統(tǒng)的軟件版本,這里也附上安裝指南。
下載:https://cogagent.aminer.cn/home#/downloads
教學視頻:https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
需要說明的是,目前該產(chǎn)品還在內(nèi)測階段,需要申請內(nèi)測體驗資格。申請一般一天之內(nèi)通過,被加入白名單后就可以通過手機發(fā)送驗證碼登錄了。
申請體驗:https://www.wjx.cn/vm/YtHMOrW.aspx#
這里我用Windows 10來安裝和演示,安裝后打開軟件,軟件界面是這樣的。
下面開啟體驗時間。我們來根據(jù)官方的教學視頻,做一個案例復(fù)現(xiàn)。
GLM-PC有兩種模式,點擊 新建對話 按鈕后,會讓你選擇使用極速模式還是深度思考模式。
先體驗急速模式,打開小紅書,登錄賬號。在GLM-PC的對話框指派任務(wù),輸入指令:
打開這個網(wǎng)址「11 【2024款小米su7落地價與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】 ?? zd6bLT3R0aC1cgY ?? https://www.xiaohongshu.com/discovery/item/6710759d0000000024019e5a?source=webshare&xhsshare=pc_web&xsec_token=ABsV-IYvSAwtUlCA_lC0SCYnEhX-KO0eZCpFloefapQrE=&xsec_source=pc_share 」,把這個視頻的賬號昵稱、點贊、收藏、評論數(shù)據(jù),保存到新建Excel表中,保存命名為“小紅書數(shù)據(jù)”
任務(wù)執(zhí)行過程獲取了數(shù)據(jù),也打開了電腦上的WPS,但是卡在新建表格的循環(huán)中,沒有成功執(zhí)行任務(wù)。
再體驗深度思考模式。同樣的指令,輸入到對話框。
GLM-PC經(jīng)過指令分析后進行任務(wù)分解,然后執(zhí)行。會打開系統(tǒng)默認瀏覽器,打開小紅書網(wǎng)頁,然后按照分解的任務(wù)執(zhí)行。
任務(wù)執(zhí)行過程中,打開小紅書的操作可以看到,提取數(shù)據(jù)和把數(shù)據(jù)寫入Excel表格的過程看不見,但真的生成了表格并放到電腦桌面,任務(wù)執(zhí)行成功。全程大概用了50秒,執(zhí)行過程及結(jié)果見下圖,動圖有加速。
再來復(fù)現(xiàn)一個案例。還是在深度思考模式下,輸入以下指令:
在這個「https://www.dxsbb.com/news/277.html」六級詞匯里面找3個,然后把給每個詞造句,把詞匯和對應(yīng)的造句粘貼到新建Word文檔中,保存命名為“六級英語詞匯學習"
任務(wù)執(zhí)行完以后,可以在電腦桌面找到一個名為 六級詞匯 的word文檔,打開以后有相關(guān)內(nèi)容,執(zhí)行結(jié)果見下圖。
這個任務(wù)的執(zhí)行時間,大概用了1分3秒,動圖有加速。
測試多個案例后,一個簡單的體會是它需要清晰明確的指令,對于直接給出網(wǎng)址的操作很準確,但在本地其他軟件上的操作比如文本發(fā)送等還不是足夠精準,微信發(fā)送信息和文件的操作,我是一次沒有成功。但是在web頁的操作方面,比如小紅書的信息提取和保存,任務(wù)執(zhí)行尚可。
其他教學視頻的案例,大家可以自行去嘗試。如果這些教學案例都能實現(xiàn),就可以在他們的基礎(chǔ)上加一些料了,可以有更多玩法。
5、Open Manus
最后,再來體驗一下文章開頭提到的MateGPT團隊用3個小時開發(fā)復(fù)現(xiàn)Manus的項目Open Manus。這是一個無需邀請碼即可實現(xiàn)任何創(chuàng)意的項目,由 MetaGPT 的團隊成員在 3 小時內(nèi)完成開發(fā),是一個簡潔的實現(xiàn)方案。
對于這個已經(jīng)有16K stars的開源項目,為了滿足大家的好奇,這里也來簡單體驗一下。
雖然涉及到代碼,但Open Manus的部署相對簡單。只要你懂點代碼,并且電腦上裝有Anaconda,就可以通過以下步驟安裝。
安裝
創(chuàng)建新的 conda 環(huán)境:
conda create -n open_manus pythnotallow=3.12
conda activate open_manus
克隆倉庫:
git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus
安裝依賴:
pip install -r requirements.txt
配置
OpenManus 需要配置使用的 LLM API,請按以下步驟設(shè)置:
在 config目錄創(chuàng)建 config.toml文件(可從示例復(fù)制):
cp config/config.example.toml config/config.toml
編輯 config/config.toml添加 API 密鑰和自定義設(shè)置:
# 全局 LLM 配置
[llm]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..." # 替換為真實 API 密鑰
max_tokens = 4096
temperature = 0.0
# 可選特定 LLM 模型配置
[llm.vision]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..." # 替換為真實 API 密鑰
快速啟動
一行命令運行 OpenManus:
python main.py
接下來,就可以通過終端輸入你的需求和創(chuàng)意了。如需體驗開發(fā)中版本,可運行:
python run_flow.py
模型需要選擇兼容OpenAI Function Call的模型,這里我使用了通義千問的qwen-max-2025-01-25模型,直接調(diào)用即可,目前有1000000免費使用額度。執(zhí)行任務(wù)之前記得打開科學上網(wǎng),網(wǎng)絡(luò)搜索默認調(diào)用google_search工具。
輸入一個簡單的指令:到谷歌搜索AI Agent,提取前10條搜索結(jié)果的標題和鏈接,保存為.txt文件。
回車后,OpenManus開始運行,它會把你指定的任務(wù)分解為30步,一步一步開始執(zhí)行。我這個指令不需要執(zhí)行太多的步驟,只執(zhí)行到第4步任務(wù)就結(jié)束了。
執(zhí)行完畢后,它自動生成一個名為 AI_Agents_Search_Results 的txt文件,保存在了項目主目錄。打開以后,是這樣的。
部署完以后,目前體驗起來還感覺不到驚艷。簡單的任務(wù)還好說,復(fù)雜的任務(wù)不好執(zhí)行。30步的任務(wù)分解,如果30步都執(zhí)行完,需要大量消耗token不說,還需要很長的等待時間。
所以目前這個版本,能夠完成完整的30步任務(wù)執(zhí)行就已經(jīng)算是成功了,體驗上任務(wù)完成度并不是很好。有技術(shù)人員調(diào)試程序,一晚上就消耗了100萬+的token。
基于大模型的AI Agent尤其是多Agent的性能和體驗,最終還是體現(xiàn)在大模型上?;谀壳耙延写竽P蛨?zhí)行任務(wù)能到這種程度,已經(jīng)是很大的進步了。
從大家的試用反饋來看,仍然是Claude 3.5\3.7以及GPT-4o等模型,在任務(wù)執(zhí)行中表現(xiàn)得相對好一些。國產(chǎn)模型,目前大多選擇通義千問或者DeepSeek,官網(wǎng)以及硅基流動調(diào)用API都可以。
有些技術(shù)達人已經(jīng)實現(xiàn)了本地模型調(diào)用與部署,這一塊兒我也會繼續(xù)跟進。
對于OpenManus這個項目,官方說以后會以3-4天為周期進行迭代,可見其還是足夠重視的。后續(xù)會有很多新版本優(yōu)化,感興趣的同學可以在其發(fā)布新版本后入手體驗,到時候可能就會出現(xiàn)一些項目的資源整合包了。
目前開源社區(qū)正在快速出現(xiàn)類Manus的多智能體架構(gòu)computer use AI Agent項目,王吉偉頻道也在持續(xù)關(guān)注。如果大家對相關(guān)開源項目部署感興趣,后面我也可以出一些教程。
后記:讓子彈再飛一會兒
說實話,體驗完這幾款computer use智能體產(chǎn)品以后,從等待時間、操作過程和最終結(jié)果來看,王吉偉頻道又開始懷念RPA了。目前能夠流暢操作PC的,仍然是RPA類的工具,并且RPA也正在向Agent過渡與迭代。后面有時間,我看看能不能體驗幾個RPA Agent類產(chǎn)品,把過程分享給大家。
Manus能火多久,尚未可知。但Manus確實再次成功引起了大家對多智能體、Computer/phone use、GUI智能體等技術(shù)和概念的注意,這對于智能體行業(yè)的整體發(fā)展大有裨益。
上一個如此被關(guān)注的產(chǎn)品,是4個月前Anthropic的claude 3.5 sonnet computer use,國內(nèi)則是智譜的AutoGLM。Manus畢竟也是國產(chǎn)的產(chǎn)品,需要給予一些寬容和成長時間。
Manus出圈后,一些人認為Manus可能會是ChatGPT之后的Sora。尤其是在“智能體的iPhone時刻”這類觀點的推動下,又一個神被造出來了。
于是“再不學DeepSeek就跟不上時代了”這樣的邏輯,開始換成Manus ,且一樣行得通。又一個99%的人還沒有拿到邀請碼的被譽為媲美DeepSeek的套殼智能體應(yīng)用,成了新的焦慮制造機。
就這樣,一個邀請碼就在一天內(nèi)被炒到接近10萬元,直播間開始直播Manus教程,越來越多的人求碼求體驗被忽悠。所以與其現(xiàn)在就被各種割韭菜,不如讓子彈再飛一會兒,孰輕孰重大家自然一目了然。
通過營銷創(chuàng)作的這一波Manus熱,反映出了更多人對于智能體的一知半解。當然可能也有一些人屬于明知故作,原因嗎大家都懂,畢竟營銷本質(zhì)的一面就是金錢開道。所以有觀點認為, Manus出圈告訴大家什么才是真正的AI Agent,蠻有意思。
看來,我輩專注智能體之人,還需要繼續(xù)努力普及AI Agent相關(guān)知識了。
