編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
起猛了!ChatGPT有行動(dòng)能力了!
OpenAI的首款智能體深夜上線,覺醒L3能力。
在直播中,他們這樣解讀這件大事的意義:智能體可以在數(shù)字世界中移動(dòng)和行動(dòng),消除了通往 AGI(人工通用智能)道路上的一個(gè)瓶頸!
說回Operator:AI不只能和你交流,還能幫你在線打醬油了。
奧特曼是這樣介紹的:“就像您使用web瀏覽器一樣,你可以獲取像素,你可以看著屏幕,Operator可以做到這一點(diǎn),然后控制鍵盤和鼠標(biāo)并做各種事情”。
圖片
在直播demo的演示中,Operator觀看了一份手寫食譜,并自己登上了“某某買菜”,開始挑選雞蛋:

更有趣的是,在一個(gè)用戶的測(cè)試案例中,Operator遇到了“確認(rèn)你是否是人類”的靈魂拷問。
Operator猶豫了下,選擇求助人類幫忙按按鈕。

看來從技術(shù)上說,這類驗(yàn)證碼已經(jīng)攔不住AI了(但道德上還能)。
當(dāng)然,Operator也是200美元Pro用戶的專屬福利了。同樣是先登錄在美國(guó),稍后才會(huì)在其他國(guó)家上線。
圖片
有趣的是,OpenAI被剛列入美實(shí)體清單的智譜搶跑了一天。
同樣是智能體,咱們就這么水靈靈地全員免費(fèi)!
圖片
無(wú)論國(guó)內(nèi)還是國(guó)外,有一個(gè)論斷是絕對(duì)的:2025是智能體之年!
奧特曼表示:未來幾周和幾個(gè)月還有更多智能體在路上。
圖片
上圖:OpenAI總裁 Brockman
1.實(shí)測(cè):Operator超絕理解力與靈活度,但偶爾也翻車
一張?zhí)鹌返木W(wǎng)圖,Operator能幫你買所有需要的烘焙原料!再也不用在多個(gè)APP中挑戰(zhàn)了。

而且,Operator確實(shí)“聰明”。在問題的解決上展現(xiàn)了非常高的靈活度。
在實(shí)測(cè)的例子中,Operator發(fā)現(xiàn)自己被 Reddit 屏蔽了。這個(gè)墻就能困住AI了?Operator隨后點(diǎn)開必應(yīng)搜索,在搜索詞后面加上 "Reddit",順利找到了自己要瀏覽的內(nèi)容!

不過,智能體作為比較初級(jí)的形態(tài),Operator肯定也是不完美的。
OpenAI在直播里就放出了一些“翻車”時(shí)刻。
上一秒:Operator不只能在這些推薦的APP里用,你幾乎可以在任何網(wǎng)站使用。
圖片
下一秒:被卡住
圖片
2.Operator實(shí)現(xiàn)原理——GPT-4o是其基座
在直播中,白衣小哥為觀眾揭秘了下Operator的實(shí)現(xiàn)。
Operator基于一個(gè)新模型CUA,而CUA則是基于 GPT-4o 構(gòu)建的。
技術(shù)的發(fā)展真是環(huán)環(huán)相扣,非常美妙!
圖片
引用下小哥的話,具體說說:Operator 是基于OpenAI訓(xùn)練的新模型,稱之為計(jì)算機(jī)使用代理(Computer Using Agent),簡(jiǎn)稱 CUA。
CUA 是基于 GPT-4o 構(gòu)建的模型,但它也經(jīng)過訓(xùn)練,可以像人類一樣使用屏幕、鼠標(biāo)和鍵盤來控制計(jì)算機(jī)。
在此之前,如果你想構(gòu)建類似 Operator 的東西,而沒有 CUA,你需要使用一些專門的 API。例如,如果你希望模型從 Instacart 購(gòu)買商品,你需要弄清楚 Instacart 是否有 API,還要確認(rèn)那個(gè) API 是否包含所需的所有功能,并且你得給模型提供該 API 的規(guī)格。但如果你的目標(biāo)是像大多數(shù)其他網(wǎng)站那樣沒有 API,那就沒戲了。
就是這樣,完全依賴于截圖,而 CUA 就是通過教模型如何使用我們每天都在用的基本界面,打開了一整套原本無(wú)法使用的軟件。
這項(xiàng)酷炫的研究項(xiàng)目就是在這方面,它幫助我們消除了通往 AGI(人工通用智能)道路上的一個(gè)瓶頸,讓我們的代理可以在數(shù)字世界中移動(dòng)和行動(dòng)。
而在一個(gè)具體的任務(wù)中,CUA是這么使用計(jì)算機(jī)的:
CUA 在控制計(jì)算機(jī)時(shí)做的第一件事就是查看截圖。
例如,Operator 現(xiàn)在看到的是 Instacart(線上買菜) 上搜索“雞蛋”的結(jié)果頁(yè)面。CUA 看懂了這些,它看到的只是原始像素,看到這張圖片后,它決定接下來做什么。所以現(xiàn)在它正在進(jìn)行一些內(nèi)心獨(dú)白,左側(cè)會(huì)出現(xiàn)總結(jié)后的思維鏈。
每次 CUA 執(zhí)行一個(gè)操作時(shí),它都會(huì)拍下一張計(jì)算機(jī)的截圖,這樣它就能知道它的操作對(duì)計(jì)算機(jī)產(chǎn)生了什么效果。
3.插曲:星際之門已經(jīng)開工
OpenAI最近也是大動(dòng)作頻繁。
宣布星際之門計(jì)劃后,馬斯克再次和奧特曼在X上打起了口水戰(zhàn)。
馬斯克也是個(gè)狠人,直接質(zhì)疑特朗普官宣的項(xiàng)目,他在社交媒體X上表示:“他們實(shí)際上沒有那么多錢。軟銀目前只籌集到不到100億美元的資金,我有可靠的消息來源。
隨后,記者向微軟CEO納德拉詢問此事,對(duì)方說:“我只知道,我的800億美元資金沒問題?!?/span>
馬斯克在X上轉(zhuǎn)發(fā)了納德拉的采訪視頻,并評(píng)論稱:“從另一方面來說,薩蒂亞絕對(duì)有這筆錢”。
而奧特曼不語(yǔ),只是一味地炫了一把已經(jīng)在德州開工的星際之門站點(diǎn)1。
圖片
看來,2025年除了智能體,也不會(huì)缺少其他精彩的大戲和看點(diǎn)。

































