為何無頭瀏覽器是 AI Agent 的關(guān)鍵技術(shù)
Browserbase CEO Paul Klein IV 認(rèn)為每個(gè) AI 代理都需要一個(gè)無頭瀏覽器作為與傳統(tǒng)互聯(lián)網(wǎng)交互的橋梁。Browserbase 已經(jīng)轉(zhuǎn)型為“適用于您的 AI 的 Web 瀏覽器”,并獲得了 4000 萬美元的 B 輪融資。無頭瀏覽器在 AI 代理中用于信息收集和任務(wù)執(zhí)行,主要有視覺 Web 代理和文本 Web 代理兩種類型。
譯自:Why Headless Browsers Are a Key Technology for AI Agents[1]
作者:Richard MacManus
在本月的人工智能工程師世界博覽會[2]上,無頭瀏覽器供應(yīng)商 Browserbase 的 CEO Paul Klein IV[3] 說:“每個(gè) AI 代理都需要一個(gè) Web 瀏覽器?!?/span>
什么是無頭瀏覽器?簡單來說[4],它是一個(gè)沒有圖形用戶界面的 Web 瀏覽器。直到最近,它們主要用于運(yùn)行自動化 Web 應(yīng)用程序測試以及 Web 抓取和屏幕截圖。多年來,涌現(xiàn)了三個(gè)開源項(xiàng)目來運(yùn)行這些類型的任務(wù):Puppeteer、Playwright 和 Selenium。Playwright 是最新的——它由 Microsoft 于 2020 年 1 月推出——也是最受歡迎的。
實(shí)際上,僅僅在過去一年中,無頭瀏覽器才出現(xiàn)了另一種全新的用例。突然之間,它們已成為一些人(包括 Microsoft[5] 和瀏覽器公司 Opera[6])所謂的“代理網(wǎng)絡(luò)”的關(guān)鍵組成部分。
AI 代理[7]是自主軟件應(yīng)用程序,通常負(fù)責(zé)在互聯(lián)網(wǎng)上收集信息——然后將這些信息傳遞給用戶,或者根據(jù)這些信息采取行動(例如在電子商務(wù)網(wǎng)站上購買商品)。事實(shí)證明,無頭瀏覽器是這些 AI 代理的理想基礎(chǔ)設(shè)施。
“如果我們希望 AI 代理與傳統(tǒng)的互聯(lián)網(wǎng)的其他部分進(jìn)行交互,他們需要一座橋梁。我真的相信瀏覽器就是那座橋梁。”– Paul Klein IV, Browserbase CEO
Browserbase 已經(jīng)大力轉(zhuǎn)型以利用這個(gè)新市場。當(dāng)該公司于 2024 年 1 月成立時(shí),它將自己宣傳為一家瀏覽器基礎(chǔ)設(shè)施公司[8]。其主要產(chǎn)品是 Puppeteer、Playwright 和 Selenium 的托管服務(wù)?,F(xiàn)在,僅僅 18 個(gè)月后,Browserbase 將自己描述為“適用于您的 AI 的 Web 瀏覽器”。
本月早些時(shí)候,Browserbase 宣布了一輪大規(guī)模的 B 輪4000 萬美元融資[9],表明無頭瀏覽器現(xiàn)在是一項(xiàng)大生意。在公告帖子中,Klein 提出了以下觀察:“瀏覽的未來是選擇性自動化。人類仍然會做那些令人愉快的、以發(fā)現(xiàn)為導(dǎo)向的任務(wù)。但是重復(fù)性的、耗時(shí)的工作應(yīng)該由軟件來完成。這就是我們正在構(gòu)建的。”
無頭瀏覽器如何在 AI 代理中使用
在他的 AI 工程師世界博覽會演講中,Klein 強(qiáng)調(diào),大規(guī)模地完成自動化瀏覽器工作是其價(jià)值主張的關(guān)鍵?!巴ㄟ^ Browserbase,我們可以讓您在云中運(yùn)行數(shù)千個(gè)無頭瀏覽器,以供代理控制,”他說。
Browserbase 今年還緊跟另一個(gè)巨大的趨勢:MCP 服務(wù)器[10]。根據(jù) Klein 的說法,Browserbase 擁有“最受歡迎的瀏覽器自動化 MCP 服務(wù)器”。
[11]
Browserbase MCP 服務(wù)器。
他補(bǔ)充說,開發(fā)人員選擇 Browserbase 的 MCP 服務(wù)器的部分原因是,在“不性感的互聯(lián)網(wǎng)”(他的術(shù)語)中有數(shù)千個(gè)用例,他們的客戶沒有自定義 MCP 服務(wù)器。因此,使用內(nèi)置 MCP 服務(wù)器的無頭瀏覽器(如 Browserbase 所做的那樣)是一種有效的解決方案。
“您有 AI 代理和傳統(tǒng)的互聯(lián)網(wǎng),”Klein 解釋說?!澳阒?,DMV 不會很快擁有 MCP 服務(wù)器。我的理發(fā)店不會為我打開 GraphQL API 來安排理發(fā),盡管我一直在懇求 John [可能是他的理發(fā)師] 這樣做。他有更重要的事情要做。因此,如果我們希望 AI 代理與傳統(tǒng)的互聯(lián)網(wǎng)的其他部分進(jìn)行交互,他們需要一座橋梁。我真的相信瀏覽器是 AI 與互聯(lián)網(wǎng)其他部分之間的橋梁?!?/span>
他指出,“傳統(tǒng)的互聯(lián)網(wǎng)”上的許多組織不一定擁有 MCP 服務(wù)器,但他們可能有一個(gè)網(wǎng)站。(編者注:除非他們只有一個(gè) Facebook 頁面[12]!)
“我認(rèn)為現(xiàn)在人們使用了很多首字母縮略詞,”Klein 繼續(xù)說道?!澳阒溃阌?MCP,你有 A2A,你有 OpenAPI。但如果這些都不可用,你可以做一些可能被認(rèn)為是愚蠢的事情:你只需使用一個(gè)網(wǎng)站。而且網(wǎng)站就在那里,有很多。有數(shù)十億個(gè)網(wǎng)站。當(dāng)您的用戶將提示您的代理執(zhí)行某些操作時(shí),您可能并不總是可以使用第一方集成?!?/span>
[13]
“只需使用該網(wǎng)站。”
如果像 Browserbase 這樣專注于 AI 的公司是可信的,那么將越來越多地由 AI 代理訪問您的商業(yè)網(wǎng)站,這意味著人類 Web 訪問量將相應(yīng)下降。但是,這些代理究竟是如何為其人類用戶獲取正確信息的?
Klein 回顧了當(dāng)前可用的各種類型的 AI 代理以及它們?nèi)绾慰刂茷g覽器。他從過去一年左右率先推出 Web 代理的產(chǎn)品開始——包括 WebVoyager、Adept 和 OpenAI 的 Operator。他將他們的方法描述為:“采用一個(gè)模型,然后生成一些代碼來控制瀏覽器,通常通過解析頁面上的 DOM、HTML 和 CSS。”
[14]
什么是 Web 代理?
他繼續(xù)說道,我們現(xiàn)在所處的位置是,有兩種主要的 Web 代理類型。
視覺 Web 代理通常使用無頭瀏覽器來獲取屏幕截圖“作為模型的上下文”,并且它們“可能會對屏幕截圖進(jìn)行一些標(biāo)記,以指示要單擊哪個(gè)框,”Klein 說。
文本 Web 代理“主要使用 HTML 作為模型的上下文”——Playwright 是這種方法中流行的工具。
[15]
兩種類型的代理。
順便說一句,Browserbase 有一個(gè)名為 Stagehand 的 Playwright 開源框架——適用于 Python 和 Node.js。在最近與 Brian Douglas 的播客采訪[16]中,Klein 說 Stagehand 是“Playwright 的超集”,并且它在“Playwright 之上添加了更多 AI 功能”。
Stagehand 是 Browserbase 在 AI 代理方面雄心的關(guān)鍵。在另一次播客采訪中,這次與 Latent Space[17] 合作,Klein 將 Stagehand 描述為“用于構(gòu)建 Web 代理的框架”,其中開發(fā)人員可以調(diào)用三個(gè) API“工具”:Act、extract 和 observe。
回到 AI 工程師世界博覽會的演講,Klein 說“計(jì)算機(jī)使用”模型是一種新興的 Web 代理類型。顧名思義,它是指在 UI 任務(wù)和“Web 軌跡”(AI 代理瀏覽網(wǎng)站時(shí)的一種工作流程)上訓(xùn)練 AI 模型。
[18]
Web 軌跡。
結(jié)論
Klein 指出,目前“在教 AI 如何瀏覽 Web 方面正在發(fā)生很多創(chuàng)新 [...]——而且這東西越來越好。” 當(dāng)然,如果 AI 代理要不辜負(fù)它們的炒作,那么能夠有效地自主瀏覽網(wǎng)站將至關(guān)重要。
您可以爭論說,對于 Web 發(fā)布商來說,他們的內(nèi)容越來越多地由 AI 代理而不是人類瀏覽是否是一件好事(這是我非常關(guān)心的問題[19])。但是,很難反駁瀏覽器基礎(chǔ)設(shè)施是未來 AI 開發(fā)堆棧[20] 的關(guān)鍵組成部分。Browserbase 似乎完全適合這個(gè)市場。
引用鏈接
[1]
Why Headless Browsers Are a Key Technology for AI Agents:https://thenewstack.io/why-headless-browsers-are-a-key-technology-for-ai-agents/[2]
本月的人工智能工程師世界博覽會:https://www.youtube.com/watch?v=YRGjll7uu5w[3]
Paul Klein IV:https://www.linkedin.com/in/paulkleiniv[4]
簡單來說:https://en.wikipedia.org/wiki/Headless_browser[5]
Microsoft:https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/[6]
Opera:https://www.operaneon.com/[7]
AI 代理:https://thenewstack.io/how-ai-agents-are-starting-to-automate-the-enterprise/[8]
一家瀏覽器基礎(chǔ)設(shè)施公司:https://web.archive.org/web/20240101000000*/https://www.browserbase.com/[9]
4000 萬美元融資:https://www.browserbase.com/blog/series-b-and-beyond[10]
MCP 服務(wù)器:https://thenewstack.io/mcp-the-missing-link-between-ai-agents-and-apis/[11]
:https://cdn.thenewstack.io/media/2025/06/f8aeaaa1-browserbase-mcp-server-june25.jpg[12]
只有一個(gè) Facebook 頁面:https://mastodon.art/@RMiddleton/114688285464490695[13]
:https://cdn.thenewstack.io/media/2025/06/709a6edd-browserbase-just-the-website.jpg[14]
:https://cdn.thenewstack.io/media/2025/06/f32cefc8-browserbase-types-of-agents.jpg[15]
:https://cdn.thenewstack.io/media/2025/06/7d8425b5-browserbase-two-types-of-agents.jpg[16]
與 Brian Douglas 的播客采訪:https://www.youtube.com/watch?v=ZHPY5QLIm0o[17]
與 Latent Space:https://www.youtube.com/watch?v=YUGItptS5hI[18]
:https://cdn.thenewstack.io/media/2025/06/2402f5ae-web-trajectories-june25.jpg[19]
我非常關(guān)心的問題:https://thenewstack.io/the-future-of-websites-in-the-age-of-ai-and-seo-decline/[20]
AI 開發(fā)堆棧:https://thenewstack.io/top-5-ai-engineering-trends-of-2023/