字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5
字節(jié)跳動(dòng)開源了多模態(tài)AI Agent UI-TARS的最新1.5版本。
與上一代相比,1.5版本在計(jì)算機(jī)使用、瀏覽器使用和手機(jī)使用等基準(zhǔn)測試中均表現(xiàn)非常出色。
在計(jì)算機(jī)使用方面,OSworld測試得分為42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1(200步);Windows Agent Arena(50步)得分為42.1,遠(yuǎn)超之前的29.8。
瀏覽器使用方面,WebVoyager得分為84.8,接近OpenAI CUA和之前最高水平的87,Online-Mind2web得75.8,優(yōu)于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手機(jī)使用方面,Android World得64.2,高于之前的59.5。
開源地址:??https://github.com/bytedance/UI-TARS??
笑臉:??https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B??
而在 GUI 定位方面,UI-TARS-1.5 相比之前的最高水平有顯著提升,尤其在具有挑戰(zhàn)性的 ScreenSpotPro 基準(zhǔn)測試中表現(xiàn)突出。
ScreenSpot-V2測試得 94.2,高于 OpenAI CUA 的 87.9、Claude 3.7 的 87.6 和之前的 91.6;ScreenSpotPro 為61.6,遠(yuǎn)超 OpenAI CUA的23.4、Claude 3.7的27.7和之前的43.6。
在推理時(shí)間方面,隨著推理時(shí)間的延長,UI-TARS-1.5 呈現(xiàn)出良好的擴(kuò)展趨勢。盡管UI-TARS-1.5 并非專為Deep-research任務(wù)設(shè)計(jì),例如,在互聯(lián)網(wǎng)上進(jìn)行多步驟信息搜索研究,但在兩個(gè)近期具有挑戰(zhàn)性的網(wǎng)頁瀏覽基準(zhǔn)測試中表現(xiàn)出了強(qiáng)大的通用性。
在 SimpleQA 測試中,UI-TARS-1.5為83.8,優(yōu)于GPT-4.5的60,略低于 帶有搜索功能GPT-4o 90;BrowseComp為2.3,高于GPT4.5的0.6和GPT-4o的1.9。
游戲領(lǐng)域是評估多模態(tài)智能體復(fù)雜推理、決策和適應(yīng)能力的關(guān)鍵測試環(huán)境,游戲需要直觀的常識(shí)推理和戰(zhàn)略遠(yuǎn)見,是測試和展示多模態(tài)智能體高級(jí)認(rèn)知能力的理想基準(zhǔn)。
為評估 UI-TARS-1.5 的游戲能力,研究人員從poki選取了 14 款不同的游戲,每個(gè)模型在每個(gè)游戲中最多允許 1000 個(gè)交互步驟來生成執(zhí)行軌跡,并進(jìn)行多次運(yùn)行。
結(jié)果顯示,UI-TARS-1.5 在這些游戲中均取得了100的成績,而 OpenAI CUA 和 Claude 3.7 在部分游戲中得分為 0 或較低。游戲的長視域特性使其成為評估推理時(shí)間可擴(kuò)展性的理想選擇,UI-TARS-1.5表現(xiàn)出強(qiáng)大的可擴(kuò)展性和穩(wěn)定性,隨著交互輪次的增加,仍能保持高性能,展現(xiàn)出其穩(wěn)健的設(shè)計(jì)和先進(jìn)的推理能力。
UI-TARS-1.5能獲得如此出色的性能,“統(tǒng)一的動(dòng)作建模”是其關(guān)鍵創(chuàng)新之一,將語義上等效的動(dòng)作標(biāo)準(zhǔn)化,從而實(shí)現(xiàn)跨平臺(tái)的無縫操作和知識(shí)遷移。
傳統(tǒng)的GUI自動(dòng)化工具往往依賴于特定平臺(tái)的API或系統(tǒng)級(jí)權(quán)限來執(zhí)行操作,這限制了它們的通用性和可擴(kuò)展性。而UI-TARS的統(tǒng)一動(dòng)作建模模塊則摒棄了這種依賴,轉(zhuǎn)而采用一種更為通用和靈活的方法。
研究人員首先對各種GUI操作進(jìn)行了深入分析,識(shí)別出它們的共性和差異。他們發(fā)現(xiàn),盡管不同平臺(tái)的操作在具體實(shí)現(xiàn)上可能有所不同,但在語義上往往是等效的。例如,無論是使用鼠標(biāo)在Windows系統(tǒng)中點(diǎn)擊一個(gè)按鈕,還是在移動(dòng)設(shè)備上輕觸一個(gè)圖標(biāo),其核心目的都是觸發(fā)一個(gè)特定的功能或事件。
基于這一觀察,研究人員設(shè)計(jì)了一個(gè)通用的動(dòng)作空間,將這些操作抽象為一系列基本動(dòng)作,如“點(diǎn)擊”、“拖動(dòng)”、“輸入文本”等。這些基本動(dòng)作在不同平臺(tái)上具有相同的語義含義,但可以根據(jù)具體平臺(tái)的特性進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。
此外,研究人員還引入了一種“動(dòng)作軌跡增強(qiáng)”技術(shù),進(jìn)一步提升了智能體的多步操作能力。在實(shí)際應(yīng)用中,許多任務(wù)需要模型執(zhí)行一系列連續(xù)的操作才能完成。例如,在一個(gè)電商平臺(tái)上購買商品可能需要用戶瀏覽商品頁面、選擇商品規(guī)格、點(diǎn)擊“加入購物車”按鈕、填寫收貨地址等多個(gè)步驟。
為了使智能體能夠更好地理解和執(zhí)行這類多步任務(wù),研究團(tuán)隊(duì)在數(shù)據(jù)集中添加了大量包含多個(gè)連續(xù)操作的軌跡樣本。這些樣本不僅記錄了每個(gè)操作的具體內(nèi)容,還反映了操作之間的邏輯順序和依賴關(guān)系。通過學(xué)習(xí)這些軌跡樣本,模型能夠?qū)W會(huì)如何將一系列抽象動(dòng)作組合起來,以完成復(fù)雜的任務(wù)。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/EAUrcNzx-34vp4dVact2cQ??
