偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

瀏覽器智能體崛起:Convergence Proxy為何會碾壓OpenAI Operator?

人工智能 瀏覽器
一股新的AI驅(qū)動的瀏覽器智能體浪潮正在興起,有望改變企業(yè)與網(wǎng)絡的互動方式。這些智能體能夠自主瀏覽網(wǎng)站、檢索信息,甚至完成交易——但早期測試顯示,其承諾的性能與實際表現(xiàn)之間存在顯著差距。

一股新的AI瀏覽器智能體浪潮正改變企業(yè)與網(wǎng)絡的互動。

一股新的AI驅(qū)動的瀏覽器智能體浪潮正在興起,有望改變企業(yè)與網(wǎng)絡的互動方式。這些智能體能夠自主瀏覽網(wǎng)站、檢索信息,甚至完成交易——但早期測試顯示,其承諾的性能與實際表現(xiàn)之間存在顯著差距。

雖然OpenAI的新瀏覽器智能體Operator提供的消費者示例(如訂購披薩或購買游戲門票)已搶占新聞頭條,但問題在于,主要的開發(fā)者和企業(yè)用例在哪里?“我們不知道的是,殺手級應用會是什么,”開發(fā)AI智能體的Red Dragon公司聯(lián)合創(chuàng)始人Sam Witteveen表示,“我猜想,它會是那些你在網(wǎng)上花費時間但并不真正享受的事情。”這包括上網(wǎng)搜索某款產(chǎn)品的最低價或預訂最佳酒店住宿等。更有可能的是,它將與其他工具(如Deep Research)結(jié)合使用,這樣公司就可以在網(wǎng)上進行更復雜的研究并執(zhí)行任務。

隨著老牌企業(yè)和初創(chuàng)公司采取不同的方法來解決自主瀏覽挑戰(zhàn),企業(yè)需要謹慎評估這一快速變化的格局。

瀏覽器智能體領域的關鍵參與者

這一領域迅速吸引了眾多大型科技公司和創(chuàng)新型初創(chuàng)企業(yè)的加入:

? OpenAI的Operator(2025年1月推出)——ChatGPT Pro訂閱用戶(每月200美元)可用,專注于用戶友好的網(wǎng)絡自動化

? Convergence的Proxy(2024年12月推出)——一家英國初創(chuàng)公司,提供免費有限使用(每天5次會話)或每月20美元的無限制訪問

? 谷歌的Project Mariner——目前處于預覽測試階段,需排隊等候訪問

? Anthropic的Computer Use(2024年10月推出)——預計不久將發(fā)布更新

? 微軟的OmniParser V2(2025年2月)——一個開源項目,用于將用戶界面截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使大型語言模型(LLM)能夠解釋并與網(wǎng)站互動

? 字節(jié)跳動的UI-TARS——需要更深層次的系統(tǒng)訪問權(quán)限,可能引發(fā)安全擔憂

? Browser-Use——一個面向開發(fā)者的工具,允許選擇AI模型,包括谷歌的Gemini 2.0 Flash

在消費者友好度和即開即用方面,Operator和Proxy是最先進的。其他許多智能體似乎更多地定位于開發(fā)者或企業(yè)使用。例如,Y-Combinator初創(chuàng)公司Browser Use允許用戶自定義與智能體一起使用的模型。這讓你能更好地控制智能體的工作方式,包括使用本地機器上的模型,但這無疑更加復雜。

上述其他智能體提供了不同程度的功能以及與本地機器資源的交互能力。我決定暫時不測試字節(jié)跳動的UI-TARS,因為它要求訪問我機器的安全和隱私功能的較低層級(如果我進行測試,我一定會使用備用電腦)。

測試揭示推理挑戰(zhàn)

因此,最容易測試的是OpenAI的Operator和Convergence的Proxy。在我們的測試中,結(jié)果突顯了推理能力比原始自動化功能更為重要的觀點。特別是Operator,存在更多缺陷。

例如,我要求智能體找到并總結(jié)VentureBeat上最受歡迎的五篇文章。這是一項模糊的任務,因為VentureBeat并沒有一個明確的“最受歡迎”板塊。Operator在此任務上遇到了困難。它首先在搜索“最受歡迎”文章時陷入了無限滾動循環(huán),需要手動干預。在另一次嘗試中,它找到了一篇三年前的文章,標題為“本周五大熱門文章”。相比之下,Proxy通過識別主頁上最顯眼的五篇文章作為受歡迎程度的實際代表,展示了更好的推理能力,并且給出了準確的總結(jié)。

在實際任務中,這種區(qū)別變得更加明顯。我要求智能體在加州納帕的一家浪漫餐廳預訂中午的座位。Operator線性地處理任務——先找到一家浪漫餐廳,然后檢查中午是否有空位。當沒有空位時,它就陷入了僵局。Proxy則展示了更復雜的推理能力,它先從OpenTable開始,尋找既浪漫又在所需時間有空位的餐廳。它甚至找到了一家評分略高的餐廳。

即使在看似簡單的任務中,也揭示了重要的差異。在亞馬遜上搜索“YubiKey 5C NFC價格”時,Proxy比Operator更快地找到了商品。

OpenAI并未透露太多關于其用于訓練Operator智能體的技術(shù)細節(jié),只是表示其模型是在瀏覽器使用任務上進行訓練的,然而,Convergence提供了更多細節(jié):其智能體使用了一種稱為生成樹搜索的技術(shù)來“利用網(wǎng)絡世界模型,預測采取擬議行動后網(wǎng)絡的狀態(tài)。這些模型是遞歸生成的,以產(chǎn)生一棵可能的未來之樹,然后在這棵樹上進行搜索,以選擇下一個最優(yōu)行動,這是由我們的價值模型排名的。我們的網(wǎng)絡世界模型還可以用于在假設情況下訓練代理,而無需生成大量昂貴的數(shù)據(jù)?!?/p>

基準測試目前可能無用

從紙面上看,這些工具似乎勢均力敵。Convergence的Proxy在WebVoyager基準測試中達到了88%的準確率,該基準測試在亞馬遜和Booking.com等15個熱門網(wǎng)站上的643項真實世界任務中評估了網(wǎng)絡智能體。OpenAI的Operator得分為87%,而Browser-Use表示其得分達到了89%,但承認這是在稍微修改了WebVoyager代碼庫后實現(xiàn)的,“符合我們的需求”。

然而,這些基準測試得分應謹慎對待,因為它們可能被操縱。真正的測試在于實際用例中的實用效果。目前還處于非常早期的階段,這一領域正在迅速變化,這些產(chǎn)品幾乎每天都在更新。結(jié)果將更多地取決于你試圖完成的具體工作,而你可能更愿意依賴在使用不同產(chǎn)品時獲得的直觀感受。

對企業(yè)的影響

對企業(yè)自動化而言,其影響是顯著的。正如Witteveen在我們關于這一主題的視頻播客對話中指出的那樣(我們在其中深入探討了瀏覽器使用趨勢),許多公司目前正在為真人操作的虛擬助手支付費用,以處理基本的網(wǎng)絡研究和數(shù)據(jù)收集任務。這些瀏覽器智能體可能會極大地改變這一狀況。

“如果AI接管了這一工作,”Witteveen指出,“那將是最早一批因此失去工作的人。這種情況會在這些事情中體現(xiàn)出來?!?/p>

這可能會推動機器人流程自動化(RPA)趨勢的發(fā)展,其中瀏覽器使用只是公司自動化更多任務的另一個工具。如前所述,更強大的用例將是當智能體將瀏覽器使用與其他工具(包括Deep Research等工具)結(jié)合使用時,其中由LLM驅(qū)動的代理使用搜索工具加瀏覽器使用來完成更復雜的工作。

成本動態(tài)推動創(chuàng)新

推動快速發(fā)展的另一個關鍵因素是強大開源推理模型(如DeepSeek-R1)的可用性。這使得構(gòu)建這些瀏覽器智能體的公司能夠通過利用這些模型而不是自建模型,來有效地與大型企業(yè)競爭。

定價壓力已經(jīng)顯現(xiàn)。雖然OpenAI要求每月200美元的ChatGPT Pro訂閱才能訪問Operator,但Convergence提供免費有限使用(每天最多五次)和每月20美元的無限制計劃。這種競爭態(tài)勢應會加速企業(yè)的采用,盡管明確的用例仍在涌現(xiàn)。

安全和集成挑戰(zhàn)

在廣泛的企業(yè)采用之前,仍存在幾個障礙。一些網(wǎng)站積極阻止自動化瀏覽,而其他網(wǎng)站則要求進行CAPTCHA驗證。雖然OpenAI和Convergence都有工具可以繞過CAPTCHA,但它們讓用戶接管任務來填寫——而不是直接完成,因為CAPTCHA的整個目的就是確保另一端是人類。像字節(jié)跳動的UI-TARS這樣的工具要求深層次的系統(tǒng)訪問權(quán)限,這給企業(yè)部署帶來了安全擔憂。

此外,與網(wǎng)站合作的方式各不相同。OpenAI已與Instacart、Priceline、DoorDash和Etsy等特定合作伙伴合作,而其他公司則嘗試瀏覽任何網(wǎng)站。這種不一致性可能會影響企業(yè)用例的可靠性。當然,每當智能體訪問需要登錄詳情的網(wǎng)站時,都會減慢速度——因為代理會將任務交給你來填寫這些詳情。

展望未來

對于評估這些工具的企業(yè)而言,應重點關注自主網(wǎng)絡交互能夠提供明確價值的特定用例——無論是在研究、客戶服務還是流程自動化方面。這項技術(shù)正在迅速發(fā)展,但成功將取決于將能力與具體業(yè)務需求相匹配。

隨著這一領域的不斷發(fā)展,預計將會看到更多以企業(yè)為中心的功能,以及可能針對特定行業(yè)或任務的專門智能體。老牌企業(yè)與創(chuàng)新型初創(chuàng)公司之間的競爭應會推動技術(shù)進步和具有競爭力的定價,使2025年成為企業(yè)瀏覽器智能體采用的關鍵一年。

責任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關推薦

2024-11-14 18:40:57

2025-01-24 08:10:25

2025-01-27 12:21:51

2025-02-13 09:09:58

OpenratorAI驅(qū)動智能體

2010-04-28 10:39:43

Webkit瀏覽器內(nèi)核

2025-01-24 07:26:07

2025-09-03 14:05:11

瀏覽器智能體AI

2025-04-23 11:52:05

2025-01-24 15:09:43

2012-03-20 11:41:18

海豚瀏覽器

2012-03-19 17:25:22

2012-03-20 11:31:58

移動瀏覽器

2025-01-24 13:44:49

2009-04-01 08:52:19

IE8微軟瀏覽器

2012-03-20 11:07:08

2025-09-28 04:10:00

瀏覽器企業(yè)轉(zhuǎn)型運營模式

2025-10-22 07:59:49

2010-04-05 21:57:14

Netscape瀏覽器

2012-06-21 15:38:02

獵豹瀏覽器

2012-03-20 11:22:02

QQ手機瀏覽器
點贊
收藏

51CTO技術(shù)棧公眾號