偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

純視覺方案,精準操控電腦和手機!港大Aria-UI登頂,超越Claude 3.5

人工智能 新聞
Aria-UI通過純視覺理解,實現(xiàn)了GUI指令的精準定位,無需依賴后臺數(shù)據(jù),簡化了部署流程;在AndroidWorld和OSWorld等權(quán)威基準測試中表現(xiàn)出色,分別獲得第一名和第三名,展示了強大的跨平臺自動化能力。

在當今數(shù)字時代,智能助手已成為處理跨平臺任務(wù)的不可或缺工具。

然而,如何將用戶的自然語言指令精準映射(grounding)到界面元素一直是該領(lǐng)域的核心挑戰(zhàn)。

傳統(tǒng)解決方案主要依賴調(diào)用無障礙API、解析HTML源碼或提取后臺數(shù)據(jù),這些方法普遍存在效率低下、信息不完整、兼容性差等顯著痛點,嚴重制約了自動化技術(shù)的廣泛應(yīng)用。

港大聯(lián)合Rhymes AI推出的Aria-UI,通過開創(chuàng)性的「純視覺理解」方案徹底改變了這一現(xiàn)狀,無需任何后臺數(shù)據(jù)支持,僅通過直接觀察用戶界面就能完成自然語言理解、界面元素定位、語義對齊和任務(wù)執(zhí)行等全流程操作。這種新的設(shè)計不僅簡化了部署流程,更為跨平臺自動化開辟了全新范式。

圖片

項目主頁:https://ariaui.github.io

Hugging Face在線demo:https://huggingface.co/spaces/Aria-UI/Aria-UI

GitHub倉庫:https://github.com/AriaUI/Aria-UI

論文鏈接:https://arxiv.org/abs/2412.1702

Aria-UI是一款專門面向GUI智能交互的創(chuàng)新型大規(guī)模多模態(tài)模型(LMM),顛覆性地實現(xiàn)了「看到即會操作」的自然交互范式 - 就像人類用戶一樣,AI只需「觀察」界面,即可理解并自主完成復(fù)雜的操作流程,從網(wǎng)頁瀏覽、文件處理到系統(tǒng)設(shè)置等任務(wù)都能輕松應(yīng)對。

在評估AI自動化操作能力的權(quán)威基準測試中,Aria-UI配合GPT-4o展現(xiàn)出卓越表現(xiàn):AndroidWorld榜單排名第一,OSWorld榜單排名第三!

這一成績不僅超越了業(yè)界領(lǐng)先的Claude 3.5 Sonnet computer-use接口,更展示了其在模擬人類操作電腦方面的強大能力。

Aria-UI采用創(chuàng)新的MoE (Mixture of Experts)架構(gòu),通過智能動態(tài)激活機制,將模型參數(shù)需求壓縮至僅3.9B,同時保持較好的性能。這一突破性的輕量級設(shè)計帶來多重優(yōu)勢:

技術(shù)亮點:

  1. 極致壓縮:僅激活3.9B參數(shù),大幅降低計算資源需求
  2. 高效推理:優(yōu)化的MoE架構(gòu)確??焖夙憫?yīng)和穩(wěn)定性能
  3. 廣泛適配:支持在資源受限場景下的靈活部署
  4. 開放生態(tài):全面開源模型權(quán)重與訓(xùn)練數(shù)據(jù)
  5. 部署便利:提供即用型vLLM推理腳本、支持主流huggingface transformers框架、完整的部署文檔與示例

這種開放共享的策略,配合便捷的部署方案,讓Aria-UI真正做到「開箱即用」。

Aria-UI的突破性創(chuàng)新

智能指令適配引擎:Aria-UI設(shè)計了數(shù)據(jù)生成pipeline,通過自動合成海量高質(zhì)量訓(xùn)練樣本,為模型注入強大的指令理解能力。這套智能指令適配引擎使模型獲得了卓越的泛化性能,能從容應(yīng)對各類復(fù)雜任務(wù)場景,展現(xiàn)出非凡的環(huán)境適應(yīng)能力,為實現(xiàn)真正的通用型AI助手奠定了堅實基礎(chǔ)。

圖片

動態(tài)上下文感知:為實現(xiàn)高精度的任務(wù)執(zhí)行,Aria-UI創(chuàng)新性地融合了多模態(tài)上下文理解機制。通過整合文本記錄和圖文操作歷史,模型獲得了強大的場景理解能力,能準確把握動態(tài)變化的操作環(huán)境,將復(fù)雜指令精準轉(zhuǎn)化為具體行動。

全面性能測評:Aria-UI在嚴格的性能評測中展現(xiàn)出令人矚目的技術(shù)優(yōu)勢,成功刷新了多個領(lǐng)域基準的記錄。在純視覺人機交互基準測試中,其表現(xiàn)遠超現(xiàn)有最佳視覺模型;在與需要調(diào)用AXTree等額外信息的傳統(tǒng)方案對比中,Aria-UI僅依靠視覺理解就取得了顯著的性能提升。實驗測評不僅驗證了純視覺方法的可行性,更展示了其在界面自動化領(lǐng)域(GUI Grounding)的應(yīng)用潛力。

隨著圖形用戶界面(GUI)在各大平臺的深度普及,它已然成為數(shù)字世界的核心交互方式。從日常生活場景到專業(yè)工作領(lǐng)域,GUI智能體正在重塑人機交互的方式,為任務(wù)自動化開辟新天地。如圖2所示,一個完整的GUI智能體運作可分為兩大核心階段:決策規(guī)劃(Planning)視覺定位(Grounding)

在決策規(guī)劃階段,智能體通過分析當前界面狀態(tài),制定執(zhí)行任務(wù)的具體策略;而在視覺定位階段,則需要將規(guī)劃好的指令精準映射到實際界面元素上,確保操作的準確執(zhí)行。

圖片

盡管大規(guī)模多模態(tài)模型(LMMs)在決策規(guī)劃方面取得顯著進展,特別是在鏈式推理(CoT)和模型擴展等技術(shù)的加持下,但如何實現(xiàn)語言指令到GUI元素的精準定位仍然面臨重大挑戰(zhàn)。這些挑戰(zhàn)主要體現(xiàn)在三個層面:

  1. 跨設(shè)備兼容性:不同設(shè)備間界面布局存在巨大差異,要求模型具備強大的適應(yīng)能力
  2. 指令多樣性:規(guī)劃指令在形式和內(nèi)容上變化多端,考驗?zāi)P偷睦斫饽芰?/span>
  3. 場景復(fù)雜性:任務(wù)執(zhí)行過程充滿動態(tài)變化,對模型的實時響應(yīng)能力提出更高要求

這些挑戰(zhàn)不僅推動著GUI智能體技術(shù)的持續(xù)創(chuàng)新,也為打造更智能、更實用的自動化解決方案指明了方向。

多樣化指令適配:從數(shù)據(jù)到模型的全方位提升

在開發(fā)Aria-UI的過程中,研究人員深入剖析了當前GUI Grounding領(lǐng)域的數(shù)據(jù)困境。傳統(tǒng)數(shù)據(jù)集普遍存在規(guī)模受限、封閉私有、平臺單一等問題,尤其是缺乏對動態(tài)任務(wù)執(zhí)行過程中關(guān)鍵上下文信息的采集。這些局限性嚴重制約了多模態(tài)大模型(LMM)在跨平臺場景下的表現(xiàn)和通用性。

圖片

針對這些挑戰(zhàn),Aria-UI開創(chuàng)性地提出了一套 數(shù)據(jù)驅(qū)動解決方案。通過構(gòu)建高度自動化的數(shù)據(jù)生成pipeline,實現(xiàn)了對網(wǎng)頁、桌面和移動端三大核心平臺的全面覆蓋。這套創(chuàng)新機制不僅顯著擴充了訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,更為模型在復(fù)雜指令適配方面的能力提升開辟了新途徑。

多平臺數(shù)據(jù)擴展:打造Web、PC與移動端全場景覆蓋

Aria-UI 設(shè)計的數(shù)據(jù)生成pipeline包含兩個關(guān)鍵階段:

第一階段:精確元素描述生成

采用頂尖多模態(tài)語言模型(如GPT-4o或Qwen2-VL-72B)進行元素描述生成。輸入數(shù)據(jù)包含:元素截圖、HTML文本信息、屏幕位置坐標。

為確保描述質(zhì)量,研究人員優(yōu)化了視覺輸入方式:

? 獨立截圖:捕捉目標元素局部畫面

? 放大視圖:用紅框標注目標元素在整體界面中的位置

這種方法能獲取元素特征,包括視覺屬性、功能特性和位置關(guān)系等。例如,一個紅色的“訂閱”按鈕描述為:位于ChefMaria烹飪頻道頭部右上角的'訂閱'按鈕,鮮紅色背景,白色文字搭配鈴鐺圖標,下方顯示2.3M訂閱者

第二階段:多樣化指令生成

基于第一階段的精確描述,利用LLM生成自然、多樣的操作指令。以上述訂閱按鈕為例:「訂閱ChefMaria的頻道。」

為增強數(shù)據(jù)多樣性,每個元素均生成3種不同表達的指令。通過這套精心設(shè)計的pipeline,成功構(gòu)建了覆蓋三大平臺的海量高質(zhì)量指令數(shù)據(jù)集,為模型訓(xùn)練提供了堅實基礎(chǔ)。

網(wǎng)頁數(shù)據(jù)(Web)

網(wǎng)頁平臺以其豐富的交互形式和動態(tài)特性,為構(gòu)建GUI Grounding數(shù)據(jù)集提供了理想環(huán)境?;谧钚碌腃ommon Crawl數(shù)據(jù)庫,設(shè)計了以下精細化處理流程:

? 網(wǎng)頁篩選:采用fastText技術(shù)進行內(nèi)容質(zhì)量評估,有效過濾低質(zhì)量和不當網(wǎng)頁,重點保留交互元素豐富的高價值頁面;

? 元素提?。夯贖TML屬性進行精準識別,提取按鈕、圖標等高交互性元素,優(yōu)先采集復(fù)雜度高且貼近實際應(yīng)用場景的界面內(nèi)容;

? 跨設(shè)備數(shù)據(jù)采集:運用Playwright自動化工具,同步采集1920×1080(標準分辨率)和2440×1600(高清分辨率)兩種規(guī)格的界面數(shù)據(jù),確保模型的廣泛適用性。

通過這套系統(tǒng)化的處理流程,成功從173K個網(wǎng)頁中提取了2M個高質(zhì)量交互元素,并最終生成了 6M條標準化指令樣本。這些覆蓋多種分辨率和界面復(fù)雜度的數(shù)據(jù),不僅完整展現(xiàn)了現(xiàn)代網(wǎng)頁的特性,更為GUI任務(wù)提供了豐富而實用的訓(xùn)練資源。

桌面數(shù)據(jù)(Desktop)

桌面環(huán)境數(shù)據(jù)的高質(zhì)量采集一直是研究中的關(guān)鍵難點。現(xiàn)有數(shù)據(jù)集普遍存在規(guī)模受限、采集成本高等問題,如OmniACT數(shù)據(jù)集僅包含7.3K條人工標注樣本。

圖片

針對這一挑戰(zhàn),研究人員創(chuàng)新開發(fā)了基于大語言模型(LLM)的自動化遍歷Agent,實現(xiàn)了桌面環(huán)境數(shù)據(jù)的高效采集:

? 智能遍歷策略: Agent通過實時解析操作系統(tǒng)的可訪問性樹(A11y),采用深度優(yōu)先搜索算法,系統(tǒng)性地探索和選擇界面中的交互元素,確保采集的全面性;

? 狀態(tài)追蹤機制:集成輕量級記憶模塊,實時記錄已訪問元素的狀態(tài)信息,有效避免重復(fù)采集,提升采集效率;

? 多模態(tài)數(shù)據(jù)捕獲:對每個交互元素進行多維度信息采集,包括高清截圖、精確坐標位置以及完整的A11y屬性描述,保證數(shù)據(jù)的完整性。

通過這套創(chuàng)新的采集系統(tǒng),成功獲取了50K個高質(zhì)量桌面交互元素,并借助數(shù)據(jù)處理流程最終生成了 150K條豐富多樣的指令樣本。這一成果顯著擴充了桌面環(huán)境GUI Grounding數(shù)據(jù)的規(guī)模,為相關(guān)研究提供了堅實的數(shù)據(jù)基礎(chǔ)。

移動數(shù)據(jù)(Mobile)

移動端是GUI自動化研究的重點領(lǐng)域,已積累了豐富的公開數(shù)據(jù)資源。盡管目前最大的AMEX數(shù)據(jù)集包含了104K張屏幕截圖和1.6M個交互元素,但其元素描述過于簡單,缺乏與實際任務(wù)相匹配的自然語言指令。針對這一問題,Aria-UI 對AMEX數(shù)據(jù)進行了系統(tǒng)性重構(gòu),通過高質(zhì)量的描述和指令重生成,在保持原有規(guī)模的同時顯著提升了數(shù)據(jù)質(zhì)量,為移動端任務(wù)提供了更有效的訓(xùn)練基礎(chǔ)。

動態(tài)上下文感知機制

相比于靜態(tài)任務(wù),動態(tài)任務(wù)的成功執(zhí)行高度依賴于對上下文信息的準確理解。Aria-UI 創(chuàng)新性地引入了 文本-圖像混合的操作歷史記錄,顯著增強了模型的上下文感知能力。在處理多步驟任務(wù)時,模型不僅考慮當前元素的特征,還綜合分析先前操作的完整記錄,從而生成更精準的操作指令。這種深度上下文感知機制使 Aria-UI 在復(fù)雜任務(wù)場景中展現(xiàn)出優(yōu)異的準確性和穩(wěn)定性。

跨平臺統(tǒng)一解決方案

通過上述創(chuàng)新設(shè)計,Aria-UI 不僅有效克服了現(xiàn)有數(shù)據(jù)集的局限性,還在多樣化指令適配方面取得了突破性進展。無論是網(wǎng)頁、桌面應(yīng)用還是移動端界面,Aria-UI 都表現(xiàn)出卓越的性能,為跨平臺GUI自動化提供了一站式解決方案。這些進展為未來更廣泛的任務(wù)自動化應(yīng)用奠定了堅實基礎(chǔ)。

模型框架:高效與精準的結(jié)合

Aria-UI 基于先進的MoE多模態(tài)大模型Aria構(gòu)建,充分繼承和優(yōu)化了其核心優(yōu)勢,實現(xiàn)了效率與精確度的最佳平衡:

深度多模態(tài)理解:Aria的原生多模態(tài)架構(gòu)專門設(shè)計用于處理復(fù)雜的跨模態(tài)信息,使GUI智能體能夠準確理解和響應(yīng)多樣化的交互場景;

高效計算架構(gòu):得益于精巧的模型設(shè)計,Aria以僅3.9B的激活參數(shù)實現(xiàn)了超越7B規(guī)模密集模型的推理速度,確保了實際應(yīng)用中的快速響應(yīng)能力。

突破分辨率限制, 精準適配復(fù)雜界面

面對顯示技術(shù)從1080p向2K及更高分辨率演進的趨勢,高分辨率圖像處理能力已成為GUI Grounding模型的核心需求。

研究人員對Aria的基礎(chǔ)架構(gòu)進行了創(chuàng)新性改進:通過智能分塊策略,將原本980×980的處理能力提升至 3920×2940,實現(xiàn)了超高分辨率支持。

為確保高分辨率場景下的精確定位,采用了基于NaViT的優(yōu)化方案,通過保持原始寬高比的智能填充技術(shù),有效降低了圖像變形帶來的精度損失。這些技術(shù)創(chuàng)新使Aria-UI能夠在各種分辨率環(huán)境下保持穩(wěn)定的性能表現(xiàn)。

訓(xùn)練與推理策略:構(gòu)建動態(tài)環(huán)境適應(yīng)能力

Aria-UI采用雙階段訓(xùn)練方案,系統(tǒng)性地建立基礎(chǔ)能力并強化動態(tài)適應(yīng)性:

基礎(chǔ)能力構(gòu)建階段

在第一階段,研究人員專注于培養(yǎng)模型的核心GUI Grounding能力。模型接收標準格式的指令輸入(如「給定GUI圖像,定位以下描述對應(yīng)元素的像素坐標」),通過大量單步指令-坐標對的訓(xùn)練,學(xué)習(xí)準確輸出歸一化坐標值(0-1000范圍內(nèi))的基礎(chǔ)能力,為后續(xù)的動態(tài)任務(wù)處理奠定堅實基礎(chǔ)。

動態(tài)能力增強階段

第二階段著重增強模型的動態(tài)任務(wù)處理能力,引入了包含純文本歷史和文本-圖像混合歷史的上下文感知訓(xùn)練。

為了維持模型的普適性并防止過度擬合,在訓(xùn)練集中保留了20%的單步數(shù)據(jù),確保模型在保持動態(tài)處理能力的同時不會丟失基礎(chǔ)定位準確度。

智能推理機制

在實際推理階段,Aria-UI將輸出統(tǒng)一的標準化坐標([0, 1000]范圍),并能夠?qū)v史操作記錄作為上下文輸入處理。這種設(shè)計使模型能夠像進行對話一樣處理連續(xù)的交互任務(wù),將過往的元素定位與交互記錄納入決策考量,從而在復(fù)雜的動態(tài)環(huán)境中展現(xiàn)出優(yōu)異的適應(yīng)能力和穩(wěn)定性。

憑借這套創(chuàng)新的技術(shù)架構(gòu),Aria-UI在多個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了突破:精準支持從1080p到4K的超高分辨率界面、靈活適配多樣化布局設(shè)計,同時在復(fù)雜動態(tài)環(huán)境中展現(xiàn)出較強的任務(wù)處理能力和環(huán)境適應(yīng)性。

Agent任務(wù)表現(xiàn)

研究人員在ScreenSpot基準數(shù)據(jù)集上對Aria-UI的基礎(chǔ)GUI Grounding能力進行了系統(tǒng)評估。該測試集包含六個細分場景,覆蓋兩類界面元素和三大主流平臺(移動端、網(wǎng)頁、桌面端)。

每個測試樣本由一張GUI截圖和對應(yīng)的定位指令組成,其中移動端和網(wǎng)頁場景采用2K分辨率,桌面端場景則使用540p分辨率,全面驗證模型在不同應(yīng)用環(huán)境下的定位準確性。

圖片

在綜合性能測試中,Aria-UI展現(xiàn)出卓越的定位能力,在全部測試子集上取得了82.4%的最優(yōu)平均準確率。特別是在文本元素定位任務(wù)中,模型表現(xiàn)尤為突出,超越現(xiàn)有方案。這些結(jié)果充分證明了Aria-UI在跨平臺場景和多元素類型中具備強大的適應(yīng)性與泛化能力。

圖片

圖片

移動端離線Agent測試

研究人員對Aria-UI在移動端離線動態(tài)場景中的性能進行了深入評估,重點驗證其為代理任務(wù)軌跡提供精準定位坐標的能力。評估采用了三個專業(yè)測試集:AndroidControl-Low、GUI-Odyssey和AndroidControl-High。

其中,前兩個測試集包含了完整的逐步操作指令(人工標注或自動生成),而AndroidControl-High則僅提供任務(wù)目標,需要借助GPT-4o作為規(guī)劃器來分解和生成具體操作步驟。這種評估框架使我們能夠全面檢驗?zāi)P驮谌蝿?wù)精度和完成率兩個關(guān)鍵指標上的表現(xiàn)。

在實驗中,研究人員設(shè)計并評估了Aria-UI的兩個關(guān)鍵變體:

  • Aria-UI_TH(文本動作歷史):該變體在推理過程中集成了Agent的歷史動作文本描述,通過上下文信息增強來優(yōu)化當前元素的定位準確性。這種設(shè)計在計算效率和性能表現(xiàn)間實現(xiàn)了理想平衡。
  • Aria-UI_IH(文本-圖像交替歷史):該變體在文本動作歷史的基礎(chǔ)上,額外引入了前序步驟的圖像信息作為輔助輸入。這種多模態(tài)融合策略為任務(wù)提供了更豐富的上下文感知,尤其適合需要精確視覺理解的復(fù)雜場景。

實驗結(jié)果顯示,兩個變體都在AndroidControl和GUI-Odyssey測試集上取得了突破性進展,顯著超越現(xiàn)有基準模型。歷史信息的引入(無論是純文本還是文本-圖像結(jié)合)都有效提升了元素定位精度和任務(wù)完成質(zhì)量。其中,Aria-UI_TH憑借其出色的性能與效率權(quán)衡,展現(xiàn)出特別優(yōu)異的應(yīng)用價值。

網(wǎng)頁端離線Agent測試

研究人員采用Multimodal-Mind2Web基準對Aria-UI在網(wǎng)頁代理任務(wù)中的性能進行了全面評估。該基準包含三個具有挑戰(zhàn)性的測試場景:跨任務(wù)、跨網(wǎng)站和跨領(lǐng)域,旨在系統(tǒng)驗證模型在零樣本環(huán)境下的泛化能力。

實驗結(jié)果令人矚目:Aria-UI系列模型在所有測試場景中均顯著領(lǐng)先于現(xiàn)有基準方案,整體平均準確率達到57.5%。

其中,融入歷史信息的變體表現(xiàn)更為出色,Aria-UI_TH和Aria-UI_IH的準確率進一步提升至58.9%。特別值得一提的是,Aria-UI_IH在跨網(wǎng)站和跨領(lǐng)域測試中展現(xiàn)出卓越表現(xiàn),充分證明了其在處理復(fù)雜多模態(tài)上下文方面的優(yōu)勢。

圖片

圖片

在線Agent評估

移動端與網(wǎng)頁端性能

采用AndroidWorld基準測試框架,在Android模擬器環(huán)境中對移動端代理進行了嚴格的在線評估。評估采用系統(tǒng)狀態(tài)檢測機制,通過監(jiān)測虛擬設(shè)備的實時狀態(tài)來判定任務(wù)完成情況。

同時,還引入了AndroidWorld提供的MobileMiniWob++任務(wù)集,這是一個基于經(jīng)典Web代理環(huán)境MiniWob++構(gòu)建的專業(yè)測試集。

  • AndroidWorld測試:Aria-UI展現(xiàn)出突破性成果,其中Aria-UI_TH變體實現(xiàn)了44.8%的任務(wù)成功率,創(chuàng)造了新的性能基準。這一成績不僅超越了現(xiàn)有最優(yōu)方案,還優(yōu)于依賴AXTree輸入的非純視覺方法(如SoM和Choice)。這充分證明了Aria-UI作為純視覺GUI代理的卓越能力,展示了其在復(fù)雜真實場景中的穩(wěn)定性和適應(yīng)性。
  • MobileMiniWob++測試:在純視覺輸入條件下,Aria-UI的表現(xiàn)顯著優(yōu)于其他視覺方法和基于選擇的方案。雖然在這個結(jié)構(gòu)相對簡單的測試環(huán)境中,基于GPT-4-Turbo的SoM方法取得了最佳成績,但Aria-UI仍然在純視覺處理領(lǐng)域展現(xiàn)出領(lǐng)先優(yōu)勢。

OSWorld評估:復(fù)雜操作系統(tǒng)環(huán)境測試

在最具挑戰(zhàn)性的操作系統(tǒng)模擬環(huán)境OSWorld中,研究人員對Aria-UI進行了深入評估。通過將Aria-UI作為核心定位模型,并與GPT-4o協(xié)同運作,我們完成了涵蓋369個實際應(yīng)用場景的綜合測試。

實驗結(jié)果顯示,Aria-UI創(chuàng)造了15.15%的平均任務(wù)成功率,顯著領(lǐng)先于所有現(xiàn)有方案。特別值得關(guān)注的是,在多個高難度應(yīng)用場景中,Aria-UI展現(xiàn)出卓越性能:

  • VLC播放器任務(wù):30.06%
  • Chrome瀏覽器操作:23.80%
  • Impress演示制作:15.32%

這些證明了Aria-UI在處理復(fù)雜GUI交互時的優(yōu)越能力。

綜合性能總結(jié)

通過一系列嚴格的在線評估,Aria-UI在多個關(guān)鍵場景中均展現(xiàn)出全面的技術(shù)優(yōu)勢:

  • 移動端環(huán)境:優(yōu)異的定位精度
  • 網(wǎng)頁端應(yīng)用:出色的交互能力
  • 操作系統(tǒng)環(huán)境:強大的任務(wù)完成能力

這些測試結(jié)果有力地證明了Aria-UI作為純視覺GUI代理的技術(shù)先進性,展示了其在復(fù)雜多變的實際應(yīng)用環(huán)境中的卓越適應(yīng)能力和操作精準度。

總結(jié)

Aria-UI通過一系列嚴格的在線測試,在移動端、網(wǎng)頁端及復(fù)雜的操作系統(tǒng)模擬環(huán)境中均展現(xiàn)出顯著的技術(shù)優(yōu)勢,全面超越現(xiàn)有最先進解決方案。

這些測試成果不僅驗證了Aria-UI作為純視覺GUI代理的卓越性能,更凸顯了其超強的環(huán)境適應(yīng)能力、精確的元素定位能力和可靠的任務(wù)完成能力。如此全方位的優(yōu)異表現(xiàn),有力地證實了Aria-UI在處理復(fù)雜人機交互任務(wù)時的技術(shù)成熟度和實用價值。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-23 08:54:07

2024-07-24 12:40:44

2024-10-28 22:28:21

2024-06-21 09:58:38

2024-12-26 14:42:23

2022-11-01 13:42:54

雷達智能

2021-12-01 10:05:12

模型人工智能計算

2024-01-15 00:40:43

C#Java編譯器

2025-01-27 12:04:37

2024-02-06 12:50:08

AI訓(xùn)練

2025-02-10 08:37:04

2024-12-27 09:50:00

模型數(shù)據(jù)測試

2023-02-16 13:48:56

模型論文

2024-12-26 17:13:17

AI模型訓(xùn)練

2025-02-26 10:24:47

2024-09-05 15:00:00

特斯拉無人駕駛

2024-10-28 08:46:00

2024-08-14 15:00:00

模型數(shù)據(jù)

2023-06-19 19:26:54

模型開源

2025-07-01 09:08:00

點贊
收藏

51CTO技術(shù)棧公眾號