偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

港大聯(lián)手月之暗面等開(kāi)源OpenCUA:人人可造專(zhuān)屬電腦智能體

人工智能 新聞
一篇來(lái)自香港大學(xué) XLANG Lab 和月之暗面等多家機(jī)構(gòu)的論文上線(xiàn)了 arXiv,其中提出了一個(gè)用于構(gòu)建和擴(kuò)展 CUA(使用計(jì)算機(jī)的智能體)的完全開(kāi)源的框架。

剛剛,一篇來(lái)自香港大學(xué) XLANG Lab 和月之暗面等多家機(jī)構(gòu)的論文上線(xiàn)了 arXiv,其中提出了一個(gè)用于構(gòu)建和擴(kuò)展 CUA(使用計(jì)算機(jī)的智能體)的完全開(kāi)源的框架。具體來(lái)說(shuō),該框架包括:

  • 一個(gè)用于捕獲人類(lèi)使用計(jì)算機(jī)的演示的注釋工具
  • AgentNet,首個(gè)涵蓋 3 個(gè)操作系統(tǒng)和 200 多個(gè)應(yīng)用程序/網(wǎng)站的大規(guī)模數(shù)據(jù)集
  • 一個(gè)將演示轉(zhuǎn)化為具有長(zhǎng)思維鏈推理的「狀態(tài)-動(dòng)作」對(duì)的工作流程

使用該框架,他們還構(gòu)建了一個(gè)旗艦?zāi)P?nbsp;OpenCUA-32B,其在 OSWorld-Verified 上達(dá)到了 34.8% 的成功率,創(chuàng)下了新的開(kāi)源 SOTA,甚至在這個(gè)基準(zhǔn)測(cè)試中超越了 GPT-4o。

更妙的是,他們完全公開(kāi)了相關(guān)代碼、數(shù)據(jù)和模型!

圖片

  • 論文標(biāo)題:OpenCUA: Open Foundations for Computer-Use Agents
  • 論文地址:https://arxiv.org/abs/2508.09123
  • 項(xiàng)目頁(yè)面:https://opencua.xlang.ai/ (包含工具、模型、數(shù)據(jù)集)

值得注意的是,這項(xiàng)研究共有 6 位共一作者。項(xiàng)目負(fù)責(zé)人是香港大學(xué)計(jì)算機(jī)科學(xué)助理教授Tao Yu(余濤)。另外,月之暗面創(chuàng)始人和 CEO 楊植麟以及斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授楊笛一也在作者名單中。

下面我們就來(lái)詳細(xì)看看這項(xiàng)研究。

OpenCUA 框架

下圖展示了OpenCUA 框架概覽。

圖片

具體來(lái)說(shuō),OpenCUA 框架包含以下內(nèi)容:AgentNet Tool,如左上角所示,可通過(guò)屏幕視頻與操作流程捕捉跨操作系統(tǒng)的用戶(hù)交互。右上角則展示了原始演示被處理成包含推理與歷史的「狀態(tài)–動(dòng)作」軌跡。右下角展示了 AgentNet 數(shù)據(jù)集與基準(zhǔn),其中涵蓋多樣化的任務(wù),并提供含黃金標(biāo)準(zhǔn)動(dòng)作的離線(xiàn)評(píng)估。最后,左下角則是 OpenCUA 模型經(jīng)過(guò)訓(xùn)練后,可在真實(shí)環(huán)境中執(zhí)行計(jì)算機(jī)操作任務(wù)。

AgentNet 數(shù)據(jù)收集

OpenCUA 的目標(biāo)是將使用桌面計(jì)算機(jī)的數(shù)據(jù)擴(kuò)展到不同的計(jì)算機(jī)環(huán)境和用戶(hù)場(chǎng)景。很自然地,該團(tuán)隊(duì)首先要做的是收集符合自然用戶(hù)行為的演示,并盡量減少對(duì)用戶(hù)與計(jì)算機(jī)交互方式的額外限制,以提高數(shù)據(jù)收集的可擴(kuò)展性。

為此,他們開(kāi)發(fā)了 AgentNet Tool 并收集了 AgentNet 數(shù)據(jù)集,這也是首個(gè)大規(guī)模桌面智能體任務(wù)數(shù)據(jù)集。

AgentNet Tool

AgentNet Tool 是一個(gè)跨平臺(tái)的標(biāo)注應(yīng)用,可記錄用戶(hù)在 Windows、macOS 和 Ubuntu 上的交互。它可捕捉屏幕視頻、鼠標(biāo)/鍵盤(pán)操作以及相關(guān)元數(shù)據(jù),從而實(shí)現(xiàn)對(duì)真實(shí)計(jì)算機(jī)使用演示的采集,而且這個(gè)方法是可以大規(guī)模擴(kuò)展的。

圖片

AgentNet Tool 標(biāo)注和驗(yàn)證

該團(tuán)隊(duì)對(duì)原始用戶(hù)演示進(jìn)行了處理,得到了干凈、可用于訓(xùn)練的「狀態(tài)–動(dòng)作」軌跡。生成的軌跡中包含「內(nèi)心獨(dú)白式」的思考與操作歷史,適用于視覺(jué)-語(yǔ)言模型的訓(xùn)練。

原始演示包含高頻的屏幕錄制與細(xì)粒度交互信號(hào)(如鼠標(biāo)移動(dòng)、點(diǎn)擊、滾動(dòng)、按鍵等)。一個(gè)典型任務(wù)可能產(chǎn)生成千上萬(wàn)條底層動(dòng)作記錄,密度過(guò)高,訓(xùn)練效率低下。為解決這一問(wèn)題,該團(tuán)隊(duì)提出兩種技術(shù)方案:

1、 動(dòng)作約簡(jiǎn)(Action Reduction)

這是該團(tuán)隊(duì)開(kāi)發(fā)的一種基于規(guī)則的方法,可將密集動(dòng)作信號(hào)約簡(jiǎn)為更少但更有意義的操作,同時(shí)保留必要信息。

  • 將原子操作壓縮為高階操作;
  • 鼠標(biāo)移動(dòng)被視為點(diǎn)擊/拖拽的前置條件,僅保留起止位置;
  • 滾動(dòng)事件按方向合并,并累計(jì)滾輪數(shù)量;
  • 連續(xù)按鍵合并為文本輸入字符串,快捷鍵組合(如 CTRL+C)抽象為「熱鍵動(dòng)作」;
  • 常見(jiàn)的多步手勢(shì)(如拖拽、雙擊)也被整合為單一動(dòng)作。

約簡(jiǎn)后的動(dòng)作序列與 pyautogui 動(dòng)作空間對(duì)齊(詳見(jiàn)表 1)。

圖片

表1:人類(lèi)操作與對(duì)應(yīng)智能體動(dòng)作函數(shù)

2、狀態(tài)–動(dòng)作匹配(State-Action Matching)

為了將每個(gè)動(dòng)作 a_i 配對(duì)至代表性狀態(tài) s_i,該團(tuán)隊(duì)從屏幕錄制中提取關(guān)鍵幀,捕捉動(dòng)作發(fā)生前的系統(tǒng)狀態(tài)。但如果關(guān)鍵幀直接與鼠標(biāo)點(diǎn)擊時(shí)間戳對(duì)齊,可能泄露未來(lái)信息(例如:鼠標(biāo)已懸停在按鈕上,預(yù)測(cè)將變得過(guò)于容易)。

為避免該問(wèn)題,他們的做法是在處理鼠標(biāo)點(diǎn)擊時(shí),回溯至鼠標(biāo)開(kāi)始移動(dòng)前的階段,并向前搜索最后一個(gè)視覺(jué)上有明顯變化的幀,作為該動(dòng)作的起始狀態(tài)。任務(wù)結(jié)束后,再附加一個(gè)終止幀及對(duì)應(yīng)的「結(jié)束動(dòng)作」。

AgentNet 數(shù)據(jù)集與測(cè)試基準(zhǔn)

最終,他們得到了 AgentNet 數(shù)據(jù)集和 AgentNetBench 基準(zhǔn)測(cè)試集。

數(shù)據(jù)集涵蓋了來(lái)自 140 多款應(yīng)用和 190 多個(gè)網(wǎng)站的多樣化開(kāi)放領(lǐng)域任務(wù),任務(wù)涉及多應(yīng)用協(xié)作流程、專(zhuān)業(yè)工具操作以及非通用功能的使用?;鶞?zhǔn)提供任務(wù)指令、步驟歷史及每一步的多個(gè)黃金標(biāo)準(zhǔn)動(dòng)作,便于高效的離線(xiàn)評(píng)估。

圖片

圖 4:AgentNet 數(shù)據(jù)集中任務(wù)的領(lǐng)域分布

該數(shù)據(jù)集共包含 22,625 條人工標(biāo)注的計(jì)算機(jī)使用任務(wù),其中約 12,000 條來(lái)自 Windows,5,000 條來(lái)自 macOS,5,000 條來(lái)自 Ubuntu,支持的屏幕分辨率范圍從 720p 到 4K。每條軌跡的平均步驟為 18.6 步,體現(xiàn)了任務(wù)本身的復(fù)雜性。

下面展示了一個(gè)示例:

如表 2 所示,與現(xiàn)有的 GUI 數(shù)據(jù)集相比,AgentNet 是首個(gè)具備真實(shí)性、復(fù)雜性、多樣性與多模態(tài)特征的桌面端軌跡級(jí)數(shù)據(jù)集。

圖片

表2:AgentNet 數(shù)據(jù)集與現(xiàn)有GUI數(shù)據(jù)集對(duì)比

為實(shí)現(xiàn)穩(wěn)定、快速且無(wú)需依賴(lài)環(huán)境配置的評(píng)估,他們還構(gòu)建了 AgentNetBench ——一個(gè)離線(xiàn)的計(jì)算機(jī)使用智能體評(píng)估基準(zhǔn)。

圖片

該基準(zhǔn)是從 AgentNet 數(shù)據(jù)集中精選出 100 個(gè)具有代表性的任務(wù)構(gòu)成的,涵蓋 Windows 與 macOS 平臺(tái),任務(wù)內(nèi)容橫跨多個(gè)應(yīng)用領(lǐng)域。

該團(tuán)隊(duì)表示,每個(gè)任務(wù)均經(jīng)過(guò)人工審查,明確任務(wù)目標(biāo)并剔除冗余操作。值得注意的是,考慮到計(jì)算機(jī)操作任務(wù)中天然存在多種合理操作路徑,他們還在每個(gè)步驟上手動(dòng)提供了多個(gè)有效動(dòng)作選項(xiàng),以提升評(píng)估的靈活性與真實(shí)性。

OpenCUA 模型

基于上述數(shù)據(jù)集,該團(tuán)隊(duì)打造了 OpenCUA 智能體模型,其結(jié)合了反思式思維鏈推理、多圖像歷史以及跨領(lǐng)域數(shù)據(jù)。模型能夠在多個(gè)操作系統(tǒng)的真實(shí)桌面環(huán)境中執(zhí)行計(jì)算機(jī)操作任務(wù)。

圖片

值得注意的是,他們還設(shè)計(jì)了一條新穎的處理流程,用于為每個(gè)任務(wù)步驟增強(qiáng)反思式長(zhǎng)思維鏈(reflective long CoT):「生成器」(generator)與「反思器」(reflector)會(huì)以迭代方式生成并驗(yàn)證推理過(guò)程中,在觀察信息與真實(shí)動(dòng)作(ground-truth actions)之間的各個(gè)組件。

實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)基于多個(gè)開(kāi)源的視覺(jué)-語(yǔ)言模型進(jìn)行,包括:KimiVL-A3B 、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct。

其中,KimiVL-A3B 采用了混合專(zhuān)家(MoE)架構(gòu),擁有總計(jì) 16B 參數(shù),在訓(xùn)練與推理時(shí)激活參數(shù)為 3B,具備一定的計(jì)算機(jī)操作能力,如對(duì)象定位與任務(wù)規(guī)劃。

Qwen2-VL 與 Qwen2.5-VL 是通用型視覺(jué)-語(yǔ)言模型(VLM),其中 Qwen2.5-VL 在數(shù)字智能體任務(wù)中表現(xiàn)更強(qiáng),特別擅長(zhǎng)高分辨率場(chǎng)景的理解。

該團(tuán)隊(duì)對(duì)上述模型進(jìn)行了監(jiān)督微調(diào),得到多個(gè) OpenCUA 模型變體:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-32B。

然后,他們?cè)谝韵露鄠€(gè)基準(zhǔn)上對(duì)這些模型進(jìn)行了評(píng)估,包括在線(xiàn)評(píng)估基準(zhǔn)、離線(xiàn)智能體評(píng)估基準(zhǔn)以及GUI 定位能力評(píng)估基準(zhǔn)。

在線(xiàn)智能體評(píng)估

  1. OSWorld-Verified:OSWorld 最初收集整理了 369 個(gè)人工構(gòu)建的任務(wù),涵蓋大量應(yīng)用程序,并配有對(duì)應(yīng)的環(huán)境配置與評(píng)估腳本。OSWorld 團(tuán)隊(duì)近期對(duì)這些任務(wù)進(jìn)行了驗(yàn)證,修復(fù)了因依賴(lài)過(guò)期、評(píng)估錯(cuò)誤或指令不清導(dǎo)致無(wú)法測(cè)試的項(xiàng)目,并將改進(jìn)后的基準(zhǔn)發(fā)布為 OSWorld-Verified 。評(píng)估結(jié)果通過(guò) OSWorld 團(tuán)隊(duì)部署在 AWS 基礎(chǔ)設(shè)施上的公開(kāi)評(píng)估平臺(tái)獲得,結(jié)果列于表 3。
  2. WindowsAgentArena (WAA) :該基準(zhǔn)包含 154 個(gè)以 Windows 為中心的任務(wù),涵蓋原生 Windows 應(yīng)用以及若干出現(xiàn)在 OSWorld 中的開(kāi)源程序,能有效反映智能體在 Windows 系統(tǒng)上的在線(xiàn)性能。

圖片

表 3:OSWorld-Verified 評(píng)估結(jié)果

從結(jié)果上看,OpenCUA-32B 在所有開(kāi)源模型中取得了最佳表現(xiàn),平均成功率達(dá) 34.8%,大幅領(lǐng)先于此前的各類(lèi)基線(xiàn)模型。同時(shí),它顯著縮小了與閉源智能體的性能差距,甚至超越了 OpenAI CUA。這一結(jié)果充分證明了OpenCUA 訓(xùn)練流程在可擴(kuò)展性與性能上的優(yōu)勢(shì)。

離線(xiàn)智能體評(píng)估

離線(xiàn)評(píng)估使用了 AgentNetBench,這是該團(tuán)隊(duì)創(chuàng)建的 CUA 離線(xiàn)評(píng)估基準(zhǔn),其中包含 100 個(gè)具有代表性任務(wù),覆蓋 Windows 與 macOS 上的多個(gè)領(lǐng)域。結(jié)果如下表所示。

圖片

表 4:AgentNetBench 上,各個(gè) CUA 的性能表現(xiàn)

可以看到,OpenCUA-32B 的整體表現(xiàn)最佳,但 OpenAI CUA 在Function action成功率上的表現(xiàn)有明顯優(yōu)勢(shì)。

GUI 定位能力評(píng)估

該團(tuán)隊(duì)也評(píng)估了模型在圖形用戶(hù)界面(GUI)中將自然語(yǔ)言指令映射到具體操作的能力,這里使用了三個(gè)基準(zhǔn):OSWorld-G、Screenspot-V2、Screenspot-Pro。

其中,OSWorld-G 包含 564 個(gè)樣本,系統(tǒng)性地覆蓋了文本匹配、界面元素識(shí)別、布局理解以及細(xì)粒度操作控制等任務(wù),并提供了解決每個(gè)任務(wù)所需的界面元素類(lèi)型注釋。Screenspot-V2 包含來(lái)自 移動(dòng)端、桌面端與網(wǎng)頁(yè)端的截圖,旨在評(píng)估跨平臺(tái)場(chǎng)景下的 GUI 理解能力。Screenspot-Pro 則聚焦于高分辨率桌面環(huán)境,尤其強(qiáng)調(diào)在專(zhuān)業(yè)應(yīng)用場(chǎng)景中的表現(xiàn)能力。

圖片

圖片

OpenCUA 模型在三個(gè)基準(zhǔn)測(cè)試上的 GUI 定位性能,并與 Qwen2.5-VL 模型和 UI-TARS 進(jìn)行了對(duì)比。

可以看到,新提出的方法能夠隨著訓(xùn)練數(shù)據(jù)規(guī)模的擴(kuò)大而有效提升模型性能。

較高的 Pass@N 表現(xiàn)表明,OpenCUA-7B 在測(cè)試階段具備良好的擴(kuò)展?jié)摿Γ╰est-time scaling),即在允許更多嘗試次數(shù)或更長(zhǎng)推理路徑的情況下,其性能仍可進(jìn)一步顯著提升。

OpenCUA-Qwen2-7B 在 OSWorld 基準(zhǔn)上的 Pass@N 性能曲線(xiàn)(temperature = 0.1)

圖片

OpenCUA-Qwen2-7B 在 OSWorld 基準(zhǔn)上的 Pass@N 性能曲線(xiàn)(temperature = 0)

總結(jié)

OpenCUA是一個(gè)面向計(jì)算機(jī)使用智能體(CUA)開(kāi)發(fā)的全面開(kāi)源框架,填補(bǔ)了該領(lǐng)域的關(guān)鍵空白。通過(guò)提供標(biāo)注基礎(chǔ)設(shè)施、數(shù)據(jù)處理流水線(xiàn)、多樣化數(shù)據(jù)集、高效訓(xùn)練策略和系統(tǒng)評(píng)估基準(zhǔn),為 CUA 研究奠定了基礎(chǔ)性支撐。

其得到的模型在多個(gè)基準(zhǔn)任務(wù)中表現(xiàn)優(yōu)異,同時(shí)呈現(xiàn)出明確的數(shù)據(jù) Scaling Law與跨領(lǐng)域泛化能力。通過(guò)完整開(kāi)源工具鏈(包括工具、數(shù)據(jù)集、代碼與模型),該團(tuán)隊(duì)表示希望加速透明、可驗(yàn)證的 CUA 研究,使社區(qū)能夠系統(tǒng)性地探索此類(lèi)智能體的能力、局限性與風(fēng)險(xiǎn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-10-28 10:00:00

蘋(píng)果AI

2025-02-24 13:50:00

算力AI開(kāi)源

2025-07-17 07:12:45

2025-01-24 08:53:46

2025-09-02 09:05:00

AI大模型智能體

2020-10-30 17:56:40

華為云互聯(lián)網(wǎng)智能

2025-02-24 09:15:00

2023-05-26 09:45:56

AI模型

2025-01-23 13:05:42

2025-06-17 15:24:48

開(kāi)源模型AI

2024-03-04 07:00:00

地圖虛擬智能

2025-08-14 18:14:38

智能模型開(kāi)源

2025-09-24 08:46:13

2025-03-17 08:40:00

開(kāi)源智能體框架

2025-05-13 09:21:30

2025-06-23 09:00:00

2023-09-22 07:23:50

Alice模型任務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)