偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于 UI-TARS 的 Computer Use 實(shí)現(xiàn)

人工智能
基于 UI-TARS 多模態(tài)視覺(jué)模型,結(jié)合 MCP(模型上下文協(xié)議)構(gòu)建下一代跨平臺(tái)的自主感知 GUI Agent 智能體系統(tǒng),拋磚引玉,和大家一起探討 GUI Agent 的技術(shù)、場(chǎng)景和未來(lái)!

UI-TARS 工程詳見(jiàn) http://github.com/bytedance/UI-TARS-desktop

術(shù)語(yǔ)表

名詞

解釋

UI-TARS

UI-TARS 是字節(jié)跳動(dòng)開(kāi)源一種能夠自我學(xué)習(xí)的 GUI Agent ,下一代原生 GUI 代理模型,旨在使用類(lèi)似人類(lèi)的感知、推理和操作功能與圖形用戶(hù)界面(GUI)無(wú)縫交互。與傳統(tǒng)的模塊化框架不同,UI-TARS 將所有關(guān)鍵組件——感知、推理、反思和記憶——集成在一個(gè)視覺(jué)語(yǔ)言模型(VLM)中,實(shí)現(xiàn)端到端任務(wù)自動(dòng)化,無(wú)需預(yù)定義的工作流或手動(dòng)規(guī)則。詳見(jiàn) 字節(jié)版Operator搶跑OpenAI? 直接免費(fèi)開(kāi)源, 網(wǎng)友:怒省200美元!

Computer Use

Computer Use 最早由 Anthropic 提出的一種基于 Claude 3.5 Sonnet 模型的新功能,允許 AI 與虛擬機(jī)桌面環(huán)境交互,執(zhí)行操作系統(tǒng)級(jí)別的任務(wù)。

MCP

Model Context Protocol(模型上下文協(xié)議) 是一個(gè)開(kāi)放協(xié)議,它規(guī)范了應(yīng)用程序如何為L(zhǎng)LMs提供上下文。可以將MCP想象為AI應(yīng)用的USB-C端口。就像USB-C提供了一種標(biāo)準(zhǔn)方式,讓你的設(shè)備連接到各種外設(shè)和配件,MCP也提供了一種標(biāo)準(zhǔn)方式,讓你的AI模型連接到不同的數(shù)據(jù)源和工具。詳見(jiàn) 基于 MCP 的 AI Agent 應(yīng)用開(kāi)發(fā)實(shí)踐

GUI Agents

GUI Agents 技術(shù)是利用大模型技術(shù)(VLM / LLM)實(shí)現(xiàn)智能體對(duì)手機(jī)或電腦的自動(dòng)操作,模擬人類(lèi)行為完成指定任務(wù)

VLM

Vision Language Models(視覺(jué)語(yǔ)言模型),是指可同時(shí)處理視覺(jué)和語(yǔ)言?xún)煞N模態(tài)的模型。

MLLM

MLLM,Multimodal Large Language Model(多模態(tài)大型語(yǔ)言模型),它利用強(qiáng)大的大型語(yǔ)言模型(LLMs)作為"大腦"來(lái)執(zhí)行多模態(tài)任務(wù)。MLLM 的驚人涌現(xiàn)能力,如基于圖像編寫(xiě)故事和無(wú)需 OCR 的數(shù)學(xué)推理。

SSE

Server-sent Event(SSE,服務(wù)器發(fā)送事件)是一種基于 HTTP 連接的技術(shù),允許服務(wù)器實(shí)時(shí)地、單向地向客戶(hù)端推送數(shù)據(jù)。對(duì)于服務(wù)器只需要向客戶(hù)端推送數(shù)據(jù),而不需要從客戶(hù)端接收數(shù)據(jù)的場(chǎng)景,它是 WebSockets 的一個(gè)簡(jiǎn)單且高效的替代方案。

VNC

VNC(虛擬網(wǎng)絡(luò)計(jì)算)是一種圖形桌面共享系統(tǒng),它使用遠(yuǎn)程幀緩沖區(qū)協(xié)議(RFB)遠(yuǎn)程控制另一臺(tái)計(jì)算機(jī)。它通過(guò)網(wǎng)絡(luò)將鍵盤(pán)和鼠標(biāo)輸入從一臺(tái)計(jì)算機(jī)傳輸?shù)搅硪慌_(tái)計(jì)算機(jī),中繼圖形屏幕更新。

SoM

Set-of-Mark,來(lái)源于 [2310.11441] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V,用來(lái)給原圖標(biāo)記 Computer Use 將進(jìn)行的事件和坐標(biāo)。圖片SoM 標(biāo)記的截圖圖片原截圖

RPA

Robotic Process Automation(機(jī)器人流程自動(dòng)化)是一類(lèi)流程自動(dòng)化軟件工具,通過(guò)用戶(hù)界面使用和理解企業(yè)已有的應(yīng)用,將基于規(guī)則的常規(guī)操作自動(dòng)化。

背景

為什么需要 Computer Use?

人類(lèi)使用電子設(shè)備的本質(zhì)方式是什么?

  1. 視覺(jué)感知:通過(guò)眼睛觀(guān)察和理解屏幕上的內(nèi)容
  2. 手指操作:通過(guò)點(diǎn)擊、滑動(dòng)等手勢(shì)與界面交互
  3. 目標(biāo)導(dǎo)向:基于任務(wù)目標(biāo)規(guī)劃一系列操作步驟

Computer Use 正是基于第一性原理,模擬人類(lèi)使用電子設(shè)備的方式,實(shí)現(xiàn)真正的原生端到端的通用自動(dòng)化。

Demo 演示

本地電腦(Computer Use)

指令

Please help me open the autosave feature of VS Code and delay AutoSave operations for 500 milliseconds in the VSCode setting

請(qǐng)幫我開(kāi)啟 VSCode 的自動(dòng)保存功能,并在設(shè)置中將自動(dòng)保存操作延遲500 毫秒

本地瀏覽器(Browser Use)

指令

Could you help me check the latest open issue of the UI-TARS-Desktop project on Github?

你能幫我查看 Github 上 UI-TARS-Desktop 項(xiàng)目的最新未解決 issues 嗎?

遠(yuǎn)程虛擬機(jī)(Remote Computer)

指令

識(shí)別小票內(nèi)容并整理到Execl

  1. 新建一個(gè)excel文件,命名為"消費(fèi)記錄"
  2. 打開(kāi)桌面的旅行記錄文件夾
  3. 點(diǎn)擊其中一個(gè)圖片查看詳情,如果是小票照片,識(shí)別小票內(nèi)容,確定是在什么地方消費(fèi)的,按當(dāng)前匯率花了多少人民幣,按照國(guó)家,時(shí)間,消費(fèi)類(lèi)型,金額記錄在Excel里

遠(yuǎn)程瀏覽器(Remote Browser)

多輪交互,Human-in-the-loop

指令

麥當(dāng)勞點(diǎn)一個(gè)巨無(wú)霸套餐送到鼎好

電視(TV Use)

指令

播放某電視劇的第 5 集

更多 showcases 見(jiàn):https://seed-tars.com/showcase

詳細(xì)設(shè)計(jì)

整體概覽

系統(tǒng)組件

要完成 Computer Use 系統(tǒng),需要用到三個(gè)核心構(gòu)件:

  1. VLM(視覺(jué)模型): 負(fù)責(zé)理解屏幕內(nèi)容和用戶(hù)指令,根據(jù)用戶(hù)指令+截圖,生成自然語(yǔ)言指令(NL Command)。
  2. Agent Server(代理服務(wù)端):根據(jù)用戶(hù)指令,調(diào)用模型、并通過(guò) MCP Client 來(lái)調(diào)用設(shè)備能力。本質(zhì)是個(gè)流程 workflow,通過(guò) MCP 架構(gòu)解耦了 LLM 在獲取不同上下文的邏輯。
  3. Devices(外部設(shè)備):以 MCP Services 包提供出來(lái),可以是 PC、Mobile、虛擬機(jī)、樹(shù)莓派等,只要是電子設(shè)備都是外設(shè),都可以接入 GUI Agent系統(tǒng)中。

圖片

流程鏈路

Computer Use 核心流程大致分為:

  1. 任務(wù)感知:系統(tǒng)接收用戶(hù)通過(guò)自然語(yǔ)言或截圖輸入的指令,利用多模態(tài)模型解析并輸出 NLCommand(例如:Action: click(start_box='(529,46)'))。
  2. 坐標(biāo)映射:將模型感知的像素坐標(biāo)轉(zhuǎn)成屏幕坐標(biāo)
  3. 指令轉(zhuǎn)換:將解析后的 NLCommand 轉(zhuǎn)換為可執(zhí)行的 Command,中間涉及到一個(gè)坐標(biāo)系的轉(zhuǎn)換,將圖像坐標(biāo)系轉(zhuǎn)成屏幕坐標(biāo)系,為后續(xù)的執(zhí)行做準(zhǔn)備。
  4. 命令執(zhí)行:調(diào)用 MCP Services,將轉(zhuǎn)換后的命令進(jìn)行執(zhí)行

圖片

前置準(zhǔn)備

MCP 集成

詳細(xì)設(shè)計(jì)與實(shí)現(xiàn):基于 MCP 的 AI Agent 應(yīng)用開(kāi)發(fā)實(shí)踐 相關(guān)代碼已開(kāi)源到 Github:mcp-client、mcp-servers

Agent 邏輯

Computer Use 在 Agent 層主要是一個(gè) Loop 循環(huán)邏輯,根據(jù)任務(wù)執(zhí)行情況向客戶(hù)端推送截圖、模型輸出、Action 等,所以只需要實(shí)現(xiàn)以下邏輯:

JavaScript
import { GUIAgent } from '@ui-tars/sdk';import { NutJSOperator } from '@ui-tars/operator-nut-js';const guiAgent = new GUIAgent({  model: {    baseURL: config.baseURL,    apiKey: config.apiKey,    model: config.model,  },  operator: new NutJSOperator(),  onData: ({ data }) => {    console.log(data)  },  onError: ({ data, error }) => {    console.error(error, data);  },});await guiAgent.run('send "hello world" to x.com');

Operator 可任意替換成對(duì)應(yīng)操作工具 / 框架,例如:瀏覽器控制(operator-browser)、Android 設(shè)備控制(operator-adb) 等

Responses API 增量推理

為了避免在一次請(qǐng)求中向模型 API 發(fā)送過(guò)多截圖,我們?cè)诠こ躺弦肓?nbsp;Responses API(即支持上下文狀態(tài)管理的模型請(qǐng)求方式)。整體耗時(shí)降低了 ~35%,具體實(shí)現(xiàn)(https://github.com/bytedance/UI-TARS-desktop/pull/714)。

該 API 可以在每一輪推理中增量發(fā)送一張截圖,實(shí)現(xiàn)高效且穩(wěn)定的多模態(tài)交互。

  • 增量推理能力:借助 KV-Cache 機(jī)制,模型僅需處理當(dāng)前輪的注意力計(jì)算,哪怕是 100+ 輪對(duì)話(huà),也能保持秒級(jí)響應(yīng)。
  • 對(duì)話(huà)狀態(tài)托管:API 自動(dòng)維護(hù)多輪上下文,無(wú)需在單次請(qǐng)求中重復(fù)傳入大量圖像,有效規(guī)避網(wǎng)關(guān)限制問(wèn)題(如一次傳入 10+ 張圖像導(dǎo)致的請(qǐng)求體過(guò)大)。

圖示:

  • 『淡紫』表示使用 Chat Completions,在達(dá)到滑動(dòng)窗口里最大圖數(shù)(5 張)前,請(qǐng)求量依次增多。
  • 『灰色』表示使用 Responses API 模式,每輪都是增量請(qǐng)求和推理。

任務(wù)感知(多模態(tài)模型)

由 UI-TARS 模型提供,定義 System Prompt,通過(guò)傳入『截圖』和『任務(wù)指令』,返回用于自然語(yǔ)言的操作二元組(NLCommand),這樣的好處在于和不同設(shè)備操作指令進(jìn)行解耦

以 PC MCP Server 提供的 System Prompt 為例:

You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.## Output Format` ` ` Action_Summary: ...Action: ...` ` `## Action Spaceclick(start_box='[x1, y1, x2, y2]')left_double(start_box='[x1, y1, x2, y2]')right_single(start_box='[x1, y1, x2, y2]')drag(start_box='[x1, y1, x2, y2]', end_box='[x3, y3, x4, y4]')hotkey(key='')type(cnotallow='') #If you want to submit your input, use "\n" at the end of `content`.scroll(start_box='[x1, y1, x2, y2]', directinotallow='down or up or right or left')wait() #Sleep for 5s and take a screenshot to check for any changes.finished()## Note- Use Chinese in `Action_Summary` part.## User Instruction{instruction}

模型輸出的字段說(shuō)明:

  • Action_Summary :操作的自然語(yǔ)言描述,帶進(jìn)多輪步驟
  • Action:操作名(參數(shù))的元組

我們以 PC 端上『打開(kāi) Chrome 瀏覽器』任務(wù)為例,截圖尺寸是 1920 x 1080,模型輸出的是 Action: 

left_double(start_box='(130,226)')

圖片

模型輸出 Action 對(duì)應(yīng)的點(diǎn)擊位置

為什么 System Prompt  click 是 [x1, y1, x2, y2] 兩個(gè)坐標(biāo),而不直接返回一個(gè)坐標(biāo)?

早期 UI-TARS 多模態(tài)模型并不只針對(duì) Computer Use 場(chǎng)景進(jìn)行訓(xùn)練,而是在物體檢測(cè)(Object Detection)、識(shí)別理解等,生成對(duì)應(yīng)框 Box(x1, y1, x2, y2)。

面向 Computer Use 場(chǎng)景時(shí),x1=x2 時(shí)直接復(fù)用當(dāng)成同一點(diǎn)位,不相等時(shí)取中心點(diǎn) (x1+x2)/2

坐標(biāo)映射

還是以上面的『打開(kāi) Chrome』為例:圖像相對(duì)坐標(biāo)(130,226)是怎么算出最終的屏幕絕對(duì)坐標(biāo)為:(332,325)。

圖片

坐標(biāo)轉(zhuǎn)換示意圖

參數(shù)說(shuō)明:

  • NLCommand(操作指令):模型輸出的操作和坐標(biāo),模型在訓(xùn)練和推理時(shí)輸出的是 0~1000 之間的坐標(biāo)
  • factor(縮放因子):目前值為 1000(因?yàn)?UI-TARS 模型訓(xùn)練的坐標(biāo)系是 1000x1000),對(duì)應(yīng) UI-TARS 模型輸出的坐標(biāo)值范圍
  • width(屏幕寬度): 2560px
  • height(屏幕高度): 1440px

相對(duì)坐標(biāo)和絕對(duì)坐標(biāo)

屏幕上的位置由 X 和 Y 笛卡爾坐標(biāo)表示。X 坐標(biāo)從左邊的 0 開(kāi)始,向右增加。與數(shù)學(xué)不同的是,Y 坐標(biāo)從頂部的 0 開(kāi)始,向下增加。

UI-TARS 模型的坐標(biāo)系:0,0       X increases -->+---------------------------+|                           | Y increases|*(130, 226)                |     ||   1000 x 1000 screen      |     ||                           |     V|                           ||                           |+---------------------------+ 999, 999
相對(duì)坐標(biāo):(0.02, 0.247)
映射到實(shí)際屏幕的坐標(biāo)系上:0,0       X increases -->+---------------------------+|                           | Y increases|*(332, 325)                |     ||   2560 x 1440 screen      |     ||                           |     V|                           ||                           |+---------------------------+ 1919, 1079

UI-TARS 模型的坐標(biāo)系:
0,0       X increases -->
+---------------------------+
|                           | Y increases
|*(130, 226)                |     |
|   1000 x 1000 screen      |     |
|                           |     V
|                           |
|                           |
+---------------------------+ 999, 999


相對(duì)坐標(biāo):(0.02, 0.247)


映射到實(shí)際屏幕的坐標(biāo)系上:
0,0       X increases -->
+---------------------------+
|                           | Y increases
|*(332, 325)                |     |
|   2560 x 1440 screen      |     |
|                           |     V
|                           |
|                           |
+---------------------------+ 1919, 1079

指令轉(zhuǎn)換

不同設(shè)備都有特定的操作指令(又可以稱(chēng)為動(dòng)作空間),通過(guò)不同設(shè)備 operator 對(duì)應(yīng) NLCommand 轉(zhuǎn)成對(duì)應(yīng)設(shè)備的操作指令。

指令轉(zhuǎn)換流程圖指令轉(zhuǎn)換流程圖

目前支持的動(dòng)作空間如下:

# PC
PC = Enums[    "hotkey",        # 鍵盤(pán)按鍵    "type",          # 鍵盤(pán)輸入文本    "scroll",        # 鼠標(biāo)滾動(dòng)    "drag",          # 拖拽    "click",         # 左鍵點(diǎn)擊    "left_double",   # 左鍵雙擊     "right_single",  # 右鍵點(diǎn)擊]# Android 手機(jī)Mobile = Enums[    "click",         # 單擊    "scroll",        # 上下左右滑動(dòng)    "type",          # 輸入    "long_press",    # 長(zhǎng)按    "KEY_HOME",      # 返回 Home    "KEY_APPSELECT", # APP 切換    "KEY_BACK",      # 返回]

不同的設(shè)備操作需要模型增加對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),才能更好地完成對(duì)應(yīng)的任務(wù)。

這一步現(xiàn)在有 SDK 可直接使用 @ui-tars/action-parser,調(diào)用方式見(jiàn)用例 (https://github.com/bytedance/UI-TARS-desktop/blob/main/packages/action-parser/test/index.test.ts )

命令執(zhí)行

拿到具體執(zhí)行命令后,直接調(diào)用對(duì)應(yīng)設(shè)備 MCP 的 execCommand 內(nèi)部的方法,PC 和手機(jī)在執(zhí)行遠(yuǎn)程命令執(zhí)行時(shí)的流程圖如下:

圖片

SDK(開(kāi)發(fā)者工具)

如果對(duì)以上流程實(shí)現(xiàn)感到繁瑣,可以使用 SDK 快速實(shí)現(xiàn):

??UI-TARS Agent SDK 開(kāi)發(fā)指南

 (https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/sdk.md)

圖片

MCP Servers

UI-TARS 相關(guān)的 Operator 工具也支持以 MCP Server 方式提供使用:

  • Browser Operator:@agent-infra/mcp-server-browser--vision 開(kāi)啟

思考

當(dāng)前基于視覺(jué)模型的 GUI Agent 方案,第一反應(yīng)想到的是 Tesla FSD 自動(dòng)駕駛的技術(shù)架構(gòu)演進(jìn)。

第一版:規(guī)劃系統(tǒng)是由深度學(xué)習(xí)模型 + 傳統(tǒng)樹(shù)搜索
改成:感知和規(guī)劃均由兩個(gè)深度學(xué)習(xí)模型第一版:規(guī)劃系統(tǒng)是由深度學(xué)習(xí)模型 + 傳統(tǒng)樹(shù)搜索 改成:感知和規(guī)劃均由兩個(gè)深度學(xué)習(xí)模型

第二版:感知和規(guī)劃的兩個(gè)深度學(xué)習(xí)模型
改成:合并成一個(gè)深度學(xué)習(xí)模型第二版:感知和規(guī)劃的兩個(gè)深度學(xué)習(xí)模型 改成:合并成一個(gè)深度學(xué)習(xí)模型

前提假設(shè):人是通過(guò)眼睛(視覺(jué))看到系統(tǒng) UI 就可以操作,那 AI 也可以通過(guò)視覺(jué)達(dá)成。

達(dá)成條件:無(wú)限數(shù)據(jù) + 大規(guī)模算力,直到解決所有邊界 case。 

基于視覺(jué)的 Computer Use,在技術(shù)演進(jìn)上的好處在于:

  • 訓(xùn)練數(shù)據(jù)易準(zhǔn)備:只需要『指令』和『視覺(jué)圖像』,大幅度減輕了模型訓(xùn)練數(shù)據(jù)處理和清洗的流程。

     如果輸入再加上一個(gè)『DOM 結(jié)構(gòu)』就會(huì)讓模型訓(xùn)練陷入沒(méi)有數(shù)據(jù)的困境中。

  • 跨端設(shè)備易集成:設(shè)備只需要提供截圖和操作兩個(gè)接口,不需要獲取內(nèi)部 DOM 結(jié)構(gòu),方便了不同設(shè)備進(jìn)行集成。

不好的點(diǎn)在于:

  • 精準(zhǔn)度不夠:僅通過(guò)視覺(jué)就丟失了 UI 界面的層次結(jié)構(gòu)(例如疊在后面的窗口、不在當(dāng)前視窗的頁(yè)面內(nèi)容等),會(huì)造成對(duì)應(yīng)的操作失準(zhǔn)。
  • 延遲高:對(duì)指令+截圖的推理和識(shí)別,需要模型有更強(qiáng)大的推理能力,同時(shí)在執(zhí)行命令時(shí),視覺(jué)方案會(huì)轉(zhuǎn)換成指令系統(tǒng)(pyautogui 等)進(jìn)行操作,中間鏈路過(guò)長(zhǎng)。

應(yīng)用場(chǎng)景

Agentic User Testing

像人操作一樣去測(cè)試應(yīng)用和產(chǎn)品。例如 TestDriver 是一個(gè)為 GitHub 設(shè)計(jì)的異步自動(dòng)化測(cè)試,可以智能生成測(cè)試用例,通過(guò)模擬真實(shí)用戶(hù)行為,提供比傳統(tǒng)基于選擇器的框架更廣泛的測(cè)試覆蓋,支持桌面應(yīng)用程序、Chrome 擴(kuò)展程序、拼寫(xiě)和語(yǔ)法、OAuth 登錄、PDF 生成等多種功能測(cè)試。

圖片由此可利用 Computer Use 進(jìn)行端到端的功能驗(yàn)證,包括檢查布局完整性、元素響應(yīng)情況及視覺(jué)一致性。模型能快速指出界面問(wèn)題,減少人工檢查工作量,檢查項(xiàng)包括:

  • 功能可用性(Availability):通過(guò)自然語(yǔ)言(例如:『PRD 文檔』+『前端系分文檔』),
  • 視覺(jué)一致性(Consistency):和『設(shè)計(jì)稿』是否一致,通過(guò) CV 圖像識(shí)別 + 模型操作后的日志,得到結(jié)論
  • 可訪(fǎng)問(wèn)性(Accessibility):無(wú)障礙檢查

Schedule Tasks 定時(shí)任務(wù)

 ChatGPT Tasks 功能可以實(shí)現(xiàn)『每天早上 9 點(diǎn)半自動(dòng)打卡』的需求

圖片

C 端消費(fèi)級(jí)

Computer Use 在 C 端消費(fèi)級(jí)還不具備上線(xiàn)條件,要使用起來(lái)要解決幾個(gè)問(wèn)題:

  • 整體響應(yīng)耗時(shí):全鏈路端到端做不到秒級(jí),C 端商業(yè)化落地就非常困難。這點(diǎn)深有體會(huì),UI-TARS 最早一版模型比較慢(推理大概 5s+),整體使用體驗(yàn)會(huì)非常割裂。
  • 設(shè)備權(quán)限:截圖和執(zhí)行命令都是非常高的權(quán)限,除非一開(kāi)始系統(tǒng)層內(nèi)置 Computer Use。所以在 Demo 時(shí)采用了設(shè)備虛擬機(jī),這樣就有了最高權(quán)限。
  • 生態(tài)集成:目前生態(tài)怎么接入 Agent 中,似乎還有共識(shí),不過(guò)從 MCP 中看到可以標(biāo)準(zhǔn)化接入的趨勢(shì)。

例如:讓 AI 給我發(fā)個(gè)紅包、買(mǎi)杯咖啡等,和直接使用 UI 操作并沒(méi)有多大優(yōu)勢(shì)。

暫時(shí)沒(méi)想到好的落地場(chǎng)景,更多是以『iOS 捷徑』RPA 方式。未來(lái) Computer Use 如果以 Agent 作為流量入口,通過(guò) MCP 來(lái)集成生態(tài)(例如吃喝玩樂(lè) APP、README 應(yīng)用說(shuō)明書(shū)等),倒是很有想象力。

未來(lái)

愿景

從 2013 年上映的《Her》電影來(lái)看,AI 幫人類(lèi)操作計(jì)算機(jī)完成任務(wù)的科幻場(chǎng)景,在一步步成為現(xiàn)實(shí)。

圖片

圖片

新一代人機(jī)交互范式愿景

Human-in-the-loop 

當(dāng) Computer Use 無(wú)法處理需要人幫助時(shí),將控制權(quán)交換給人類(lèi)。 這就有點(diǎn)像『完全自動(dòng)駕駛』里的『安全員』,當(dāng) AI 能力無(wú)法處理時(shí),人進(jìn)行參與,收集邊界 case 數(shù)據(jù),不斷迭代 AI。

圖片

Bot-to-Bot 交互

  • 與 AI 系統(tǒng)進(jìn)行協(xié)同和交互
  • 跨平臺(tái)、跨系統(tǒng)任務(wù)傳遞

Computer Use 與 AIPA 協(xié)同,生成應(yīng)用

Computer Use 與 內(nèi)部 Agent 協(xié)同,生成應(yīng)用

Q & A

為什么需要 AI 幫我操作設(shè)備?

起初我也有這個(gè)問(wèn)題,AI 點(diǎn)咖啡不如我手動(dòng)點(diǎn)幾下,又快又不會(huì)出錯(cuò)。

長(zhǎng)期來(lái)看:

  • 基于『人會(huì)越來(lái)越來(lái)懶』和『AI 越來(lái)越強(qiáng)』這兩個(gè)認(rèn)知前提下,模型能力發(fā)展到達(dá)臨界點(diǎn),Computer/Phone Use 會(huì)極大提升用戶(hù)體驗(yàn)。
  • 那時(shí)候『人操作設(shè)備』就像『蒸汽機(jī)時(shí)代下使用馬車(chē)』、『完全自動(dòng)駕駛下人工』,那一天,我們會(huì)問(wèn)『為什么需要人自己操作設(shè)備?而不是用 AI

按自動(dòng)駕駛行業(yè)的標(biāo)準(zhǔn),Computer Use 分級(jí)為:

分級(jí)

名稱(chēng)

定義

任務(wù)參與度

任務(wù)場(chǎng)景

L0

無(wú)自動(dòng)化操作

任務(wù)完全由人類(lèi)控制,自動(dòng)系統(tǒng)不執(zhí)行任何操作。

所有

L1

基本計(jì)算機(jī)輔助

計(jì)算機(jī)提供某些輔助功能,如自動(dòng)化工具或建議,但最終決策仍由用戶(hù)做出。

有限例如:自動(dòng)拼寫(xiě)檢查、簡(jiǎn)單的數(shù)據(jù)輸入自動(dòng)填充

L2 (當(dāng)前)

計(jì)算機(jī)輔助執(zhí)行(Copilot 階段)

計(jì)算機(jī)可以在特定任務(wù)中執(zhí)行某些操作,但用戶(hù)仍需干預(yù)或監(jiān)督。

人(80%) + AI(20%)

有限 例如:需要用戶(hù)調(diào)整

L3

部分自動(dòng)化(Agent 階段)

計(jì)算機(jī)可以在更多情況下獨(dú)立執(zhí)行任務(wù),但仍需要用戶(hù)在特定情況下介入。

AI(50%) + 人(50%)

有限

L4

高度自動(dòng)化

計(jì)算機(jī)在大多數(shù)任務(wù)場(chǎng)景中能夠自動(dòng)處理,用戶(hù)僅在特定情況下進(jìn)行監(jiān)督。

AI(80%) + 人(20%)

有限

L5

完全自動(dòng)化

計(jì)算機(jī)完全自主完成任務(wù),用戶(hù)無(wú)需干預(yù)或操作。

AI(100%)

所有

和 RPA 的區(qū)別?

Computer Use 是在接受『任務(wù)指令』后列出行動(dòng)計(jì)劃,并根據(jù)『實(shí)時(shí)的屏幕變化』進(jìn)行下一步的思考、計(jì)劃和操作??梢詫?duì)未知的界面進(jìn)行主動(dòng)探索和試錯(cuò);而 RPA 更多的是流程固定化操作,這是巨大的差異。

例如:界面突然彈窗,Computer Use 是可以處理點(diǎn)『同意』或『不同意』

圖片

參考

Computer Use 相關(guān):

MCP 相關(guān):

相關(guān)論文:

責(zé)任編輯:龐桂玉 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2025-01-23 13:05:42

2025-03-07 09:08:43

2025-10-13 15:54:12

谷歌AI代理Gemini API

2023-04-19 21:20:49

Tars-Cpp協(xié)程

2025-03-12 09:32:38

2025-07-02 08:46:00

AgentAI技術(shù)

2025-10-09 09:15:00

谷歌AI模型

2022-06-08 08:52:04

Tars微服務(wù)開(kāi)發(fā)C++開(kāi)發(fā)

2023-03-15 21:46:17

中間件Java網(wǎng)絡(luò)編程

2021-01-19 12:16:10

CSS前端UI

2010-02-26 13:54:22

Fedora vmwa

2023-01-03 15:16:27

2022-12-27 14:39:38

2018-09-20 17:30:01

2010-09-06 16:48:23

PPPoE協(xié)議BAS

2020-03-13 16:19:42

RPCTARS騰訊開(kāi)源

2016-08-29 17:28:53

JavascriptHtmlThis

2016-10-18 21:26:29

Semantic-UIReact架構(gòu)

2024-09-26 08:48:42

SpringAPITogglz

2020-11-19 11:15:54

UIUX統(tǒng)一通信
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)