又一華人面孔!OpenAI 深夜祭Agent大招!背后研究人員曝光!奧特曼:感受AGI!VibePPT將至,Manus曬對比測評 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
又是一個不眠夜!
7 月對于 OpenAI 而言意義非凡,從去年盛傳 GPT-5 將會發(fā)布,再到近日的被挖角風波,再到 OpenAI 即將推出 AI 瀏覽器,各種傳言全都醞釀在今天凌晨的直播里。
發(fā)布前,小編的預期是,肯定是 Agentic 辦公類的產(chǎn)品。因為在前兩個月的博客中,Sam Altman 不止一次提及,現(xiàn)在是 Vibe Coding,下一個則看好類似 Google Docs 的辦公 Agent 產(chǎn)品。
這次,Sam 在官宣發(fā)布推文后,給出的第一條推文總結了他的感受:
“feel the AGI” moment。
“觀看 ChatGPT Agent 使用計算機思考、計劃和執(zhí)行復雜任務對我來說是一個真正的‘感受 AGI’時刻?!?/p>
合二為一的縫合怪?
果然,小編只猜中了一半。猜對的是果真是面向日常辦公工作的產(chǎn)品,主打一個 一句提示搞定 Excel 和 PPT。
正如那位 OpenAI 的研究員所發(fā)的推文:
在對各種實際工作任務(可能需要> 10 小時的專家任務)進行測試時,我們發(fā)現(xiàn)其輸出幾乎在 50% 的時間內都達到了人類質量。
沒猜到的是,Altman 坦承了想法:很簡單,我們就是融二為一了。
省流版的解釋,這個 Agent 就是兼有下面兩種功能,研究和動手兩不誤——
- Operator:可與網(wǎng)頁交互,如填寫表單、點擊按鈕等;
- Deep Research:可執(zhí)行多步驟的深入研究任務。
這次直播中,Sam Altman 表示,ChatGPT Agent 的想法是在 OpenAI 推出其其他代理 Operator 和 Deep Research 之后產(chǎn)生的。Operator 使用自己的瀏覽器執(zhí)行任務,而 Deep Research 可以在互聯(lián)網(wǎng)上進行多步驟調查。
“我們很清楚,人們真正想要的是將這些功能整合在一起……人們想要一個統(tǒng)一的代理,它可以獨立運行,使用自己的電腦,并為他們執(zhí)行真正復雜的任務?!?/p>
OpenAI 表示,這款新工具可以“使用它自己的電腦”來處理復雜任務。
不過,在人類看來,這里的復雜任務,算不上多復雜。無疑就是我們日常辦公的那些事兒了:讀/發(fā)郵件、做PPT、編輯 Excel、網(wǎng)上購物等等。
為什么仍然值得一看?
但如果說這次給的演示有什么特別的話,就是場景更加貼近實際生活工作了:
- ChatGPT 代理可以充當虛擬助手,連接到 Gmail 和 Google 日歷等應用程序,執(zhí)行起草電子郵件和安排預約等任務。它使用自己的虛擬計算機完成任務,并自行在推理和行動之間切換以執(zhí)行指令。
- OpenAI 表示,新工具可以“分析三個競爭對手并制作幻燈片”——代理將制定行動方案、瀏覽網(wǎng)站并創(chuàng)建可編輯的幻燈片。
- 它還可以通過“根據(jù)舊金山年度綜合財務報告 (ACFR) 制作電子表格”之類的提示來創(chuàng)建可編輯的 Excel 電子表格。
- 該代理還可以為用戶在線購物,但在執(zhí)行敏感操作(例如輸入個人信息或進行購買)之前,它始終會征求批準。
這些任務的完成并非通過傳統(tǒng)編程接口調用,而是由 ChatGPT 自己在一個虛擬計算機環(huán)境中完成,這個環(huán)境配備了多種工具,能在網(wǎng)頁上模擬真實用戶的操作。
用戶還可以授權連接自己的 Gmail、GitHub 等服務,讓 ChatGPT 在任務中調用其中的信息。
這里小編為大家扒了看下兩個案例:PPT 和 Excel。
至于原理,OpenAI 介紹道,Agent 模式可以調用三種工具:文本瀏覽器、可視化瀏覽器和終端。模型可以自主選擇切換各種工具。
具體來說,文本瀏覽器用于廣泛地讀取和檢索文字信息;可視化瀏覽器則在確定目標信息后,模擬鼠標和鍵盤操作,甚至可以處理圖像內容;而終端則具備執(zhí)行代碼的能力,能夠生成如 PPT、Excel 等各類文檔,同時還可以調用云端 API 完成更復雜的任務,比如投行建模這些燒腦的事情。
總之,ChatGPT Agent 會動態(tài)選擇最佳執(zhí)行路徑:它可以篩選結果、運行代碼,甚至生成幻燈片和電子表格——同時在多步驟任務中保持完整上下文。
這里小編還要強調三個不同的地方:
- 大家都知道,目前大模型不是萬能的,但大模型調用工具的能力可以說是“愛無限”。在演示中,Agent 可以連接 Google Drive API,讀取文件之后生成更精準的 PPT 或郵件、表格;也可以調用 Image 生成器/生成模型,來實現(xiàn)文本到多模態(tài)的跨越(想起了騰訊元寶讓DeepSeek畫圖的消息~)
- 對于涉及到隱私風險的操作,通知并得到用戶的交互許可,依舊是主流。
- Agent 的安全風險問題依舊嚴峻。OpenAI 隨后在官方推文中表示,ChatGPT 具備新能力的同時,也引入了新的風險。目前,OpenAI 已針對多個風險類別實施了廣泛的安全防護措施。
尤其是針對 對抗性提示注入(prompt injection)攻擊采取了特別的防護機制,以防止模型被惡意操控。(似乎是在暗懟最近Claude和Grok的安全問題。)
有趣的是:機構叫好,用戶喊沒勁
好了,現(xiàn)在來說下大家的評價。
首先,發(fā)布后,很多人都覺得跟 Manus 很像,群里也有不少朋友對其表示失望。這種心情很普遍,也是大眾對于 OpenAI 產(chǎn)品的過高期望。
比如一位網(wǎng)友就吐槽“生成的 PPT Slides 很丑”。這一點 OpenAI 也承認:
目前,部分功能如幻燈片生成仍處于 beta 階段,排版可能不夠完美,某些編輯也還存在邊界。但這只是開始。OpenAI 正在持續(xù)優(yōu)化:
幻燈片排版更自然
表格編輯速度更快
任務記憶和長期計劃能力增強
循環(huán)任務的設置更便捷
其次,更多的網(wǎng)友,是覺得這次的演示Demo無新意,不夠驚艷。
最后,甚至、網(wǎng)友們反問道:它幫我完成90~95%的占用我時間的工作后,那我豈不是被解雇了?
你看,這就是發(fā)布不驚艷的下場,用戶的槽點就會轉移到“AI替代我工作”的話題上,蠻無聊的。
不過,hackernews 上的用戶的注意力就很極客,更多的是在討論電子表格的案例。
他打開表格說:“我覺得它98%的信息都正確……我只需要復制/粘貼幾項。如果它能幫你完成90%到95%的耗時工作,那能幫你省下一大筆時間?!?/p>
喜歡說出真相的網(wǎng)友則表示:找到剩下的 2% 的錯誤才是最麻煩最難得,可能需要我花費更多的時間!要命!
爭議也由此展開了:
- 類比到編程,有網(wǎng)友評論指出“AI代碼生成”也存在類似風險:通過測試不代表質量合格,測試無法發(fā)現(xiàn)所有漏洞,尤其是邏輯和架構上的錯誤。
- 同時也有反對者強調:“測試是找你已知問題的工具,但不是萬能的”,必須配合審查流程、代碼理解和良好的工程文化。
哈哈,只能說,這是另一個話題了。
做產(chǎn)品,OpenAI 不是唯一正確,但參考它準沒錯
但小編想說的是,全球 AI 發(fā)展早已經(jīng)不是 OpenAI 一家驅動了,谷歌、Anthropic 已經(jīng)鼎足。所以彼此之間、甚至模型和 Agent 產(chǎn)品之間的“左腳踩右腳”的發(fā)展態(tài)勢會長期存在。期望 OpenAI 領跑產(chǎn)品形態(tài)這件事,不要抱太大期望。
那肯能會問,OpenAI 這次發(fā)了什么新東西嗎?小編認為還是有的。
試想一下,你有沒有在安裝試用某款AI瀏覽器時,總是會被這樣一段文字勸退:
你需要同意授權該產(chǎn)品可以收集、使用真實網(wǎng)頁中用戶數(shù)據(jù),并可以執(zhí)行操作。
這樣帶來的問題怎么解決?這個其實是很多廠商有意回避、沒有解決方案的。
Agent 若獲得過多數(shù)據(jù)訪問權限,可能誤讀并采取不當行動了怎么辦?
有惡意網(wǎng)站試圖誘導 Agent 執(zhí)行非法操作該怎么辦?
Agent 可能誤點按鈕、選擇錯誤商品、產(chǎn)生不可預期后果又來誰負責?
至少,OpenAI 帶頭提出了標桿式的解決措施:
- 關鍵操作需確認(如購物、付款等)
- 拒絕執(zhí)行高風險任務(如銀行轉賬)
- 支持隨時刪除瀏覽記錄與登出
- 敏感輸入不會被記錄或存儲
除此之外,還有嗎?小編只能說,Spreadsheets 那個也是個不錯的用例。
很多做數(shù)據(jù)爬蟲工具的網(wǎng)站、甚至BI賽道的玩家都要重新思考將來的轉型了。
如果不相信,就看一下OpenAI 的內部測試數(shù)據(jù),以及Epoch AI 剛剛出爐的測評——
- 在多項復雜的數(shù)據(jù)科學與投資任務中超過人類表現(xiàn)
- 在網(wǎng)頁瀏覽與任務完成的準確性上優(yōu)于歷代AI模型
- 在表格編輯、數(shù)據(jù)建模、高階數(shù)學問題上表現(xiàn)極佳
華人新面孔:Agent背后的兩位高材生
ps: 小編發(fā)現(xiàn),這次又有新的華人面孔。左二,Zhiqing Sun ,去年 6 月加入OpenAI,目前是研究科學家,一口中式英語,非常親切,細心地網(wǎng)友認出就是北大校友孫之清了。
在OpenAI期間,孫之清不僅參與到了o3/o4-mini、計算機使用智能體,以及Deep Research這幾個關鍵項目當中,而且還是Deep Research的研究負責人。
另一位坐在C位的則是老面孔:Casey Chu,于2020年4月加入OpenAI,擔任研究員。這位可以說是元老級別了,很多次直播發(fā)布中都有看到 Casey。他不僅是DALL·E 2的共同一作,而且還主導了GPT-4視覺輸入的初始原型的開發(fā)。
什么時候用上?
OpenAI 這波新品正在被嵌入到 ChatGPT 中,目前只允許付費用戶使用。
通過在 ChatGPT 的下拉工具菜單中選擇“代理模式”即可訪問。該代理現(xiàn)已從今天開始向 Pro、Plus 和 Team 用戶推出,并計劃于今年夏季向企業(yè)版和教育版用戶推出。
不過,小編發(fā)現(xiàn),身為plus用戶的我,貌似并沒有被cover到,有知道原因的道友可以告訴下原因。
不過,小編為大家找到了幾張?zhí)崆绑w驗的用戶交互截圖。
最有意思的是,Manus 今天官推也發(fā)了幾張對比截圖,嘲諷味道出來了??
完結。各位大佬如何看待這次的ChatGPT Agent呢?
?本文轉載自???51CTO技術棧??
