EMNLP 2025|vivo 等提出 DiMo-GUI:模態(tài)分治+動(dòng)態(tài)聚焦,GUI 智能體推理時(shí)擴(kuò)展的新范式

本文入選 EMNLP 2025 Main Conference
EMNLP會(huì)議全稱為Conference on Empirical Methods in Natural Language Processing,由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)ACL舉辦,是自然語(yǔ)言處理和人工智能領(lǐng)域最重要的學(xué)術(shù)會(huì)議之一。EMNLP 2025會(huì)議共有8174篇投稿,Main Conference接收率僅為22.16%。
項(xiàng)目主頁(yè):
https://wuhang03.github.io/DiMo-GUI-homepage/
摘要
本文介紹了一種無(wú)需額外訓(xùn)練的GUI定位框架DiMo-GUI,針對(duì)多模態(tài)大語(yǔ)言模型(MLLMs)在復(fù)雜圖形用戶界面(GUI)定位任務(wù)中的挑戰(zhàn),通過(guò)動(dòng)態(tài)視覺(jué)推理與模態(tài)感知優(yōu)化顯著提升性能。DiMo-GUI采用逐級(jí)縮放的動(dòng)態(tài)定位機(jī)制,迭代裁剪聚焦目標(biāo)區(qū)域,減少視覺(jué)冗余;同時(shí)分離文本與圖標(biāo)模態(tài),獨(dú)立推理后結(jié)合指令評(píng)估確定最終目標(biāo),有效平衡多模態(tài)處理能力。在GUI定位任務(wù)最新的基準(zhǔn)數(shù)據(jù)集上,DiMo-GUI相較基線展現(xiàn)顯著性能提升。作為即插即用框架,DiMo-GUI適用于網(wǎng)頁(yè)導(dǎo)航、移動(dòng)應(yīng)用自動(dòng)化等場(chǎng)景,未來(lái)可通過(guò)回溯機(jī)制進(jìn)一步提升魯棒性。
該工作由vivo互聯(lián)網(wǎng)算法團(tuán)隊(duì)、加州大學(xué)默塞德分校、昆士蘭大學(xué)共同完成。
01、引言
隨著圖形用戶界面(Graphical User Interface, GUI)在自動(dòng)化導(dǎo)航和操作系統(tǒng)控制等領(lǐng)域的廣泛應(yīng)用,基于自然語(yǔ)言查詢的GUI 定位(GUI Grounding)成為多模態(tài)大語(yǔ)言模型(multimodal large language models, MLLMs)的重要研究方向。然而,GUI 環(huán)境的視覺(jué)復(fù)雜性、語(yǔ)言歧義以及空間雜亂等問(wèn)題為精準(zhǔn)定位帶來(lái)了顯著挑戰(zhàn)。
本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》,介紹了一種無(wú)需額外訓(xùn)練的 GUI 定位框架——DiMo-GUI,通過(guò)動(dòng)態(tài)視覺(jué)推理和模態(tài)感知優(yōu)化顯著提升了多模態(tài)大模型在復(fù)雜 GUI 環(huán)境中的定位性能,推動(dòng)了推理時(shí)擴(kuò)展(test-time scaling)在該領(lǐng)域的發(fā)展。

日常生活中,我們與電腦、手機(jī)的交互離不開(kāi)圖形用戶界面。小到點(diǎn)贊、大到數(shù)據(jù)分析,我們都希望AI能像人一樣,理解屏幕上的每一個(gè)按鈕、每一段文字,并準(zhǔn)確執(zhí)行指令。然而,對(duì)于飛速發(fā)展中的多模態(tài)大模型來(lái)說(shuō),這卻是前所未有的艱巨挑戰(zhàn)。在一個(gè)復(fù)雜的App、網(wǎng)頁(yè)或桌面軟件中,用戶可能隨手一句“點(diǎn)擊開(kāi)始播放”,但對(duì)于AI來(lái)說(shuō),準(zhǔn)確找到這個(gè)指令對(duì)應(yīng)的圖標(biāo)/按鈕并不簡(jiǎn)單:
- 模態(tài)混雜:用戶界面同時(shí)包含文本、圖標(biāo)、背景、裝飾性元素等,干擾多;并且大多數(shù)VLM對(duì)文字理解更強(qiáng),圖標(biāo)處理卻弱,造成嚴(yán)重偏差;
- 冗余信息:高分辨率UI中,重要區(qū)域可能只占整體的幾十分之一,模型容易定位錯(cuò)誤區(qū)域。
研究發(fā)現(xiàn),傳統(tǒng)方法如基于文本推理或單次視覺(jué)定位的管道在高分辨率、視覺(jué)擁擠的 GUI 中表現(xiàn)不佳。例如在最新的 ScreenSpot-Pro 數(shù)據(jù)集上,大多數(shù)通用模型如GPT-4o, Qwen2-VL等只有1%左右的正確率, 即使是針對(duì)于GUI定位任務(wù)的ShowUI, Aria-UI等智能體也只有10%左右的正確率。
02、關(guān)鍵改進(jìn)
模態(tài)分離 + 動(dòng)態(tài)定位
從上述問(wèn)題出發(fā),該研究推出零訓(xùn)練成本的DiMo-GUI,通過(guò)模態(tài)感知的視覺(jué)推理推進(jìn)訓(xùn)練時(shí)擴(kuò)展,顯著提升多模態(tài)大模型的圖形界面(GUI)理解能力。主要的改進(jìn)方式包括以下兩點(diǎn):
- 動(dòng)態(tài)視覺(jué)定位:DiMo-GUI 采用逐級(jí)縮放機(jī)制,從粗略預(yù)測(cè)開(kāi)始,基于初始坐標(biāo)生成候選焦點(diǎn)區(qū)域,并通過(guò)迭代裁剪逐步聚焦目標(biāo)。例如,首次推理后,模型以預(yù)測(cè)坐標(biāo)為中心裁剪半個(gè)圖像大小的區(qū)域作為下一輪輸入,顯著減少視覺(jué)冗余。動(dòng)態(tài)迭代機(jī)制根據(jù)前后預(yù)測(cè)的坐標(biāo)距離(小于圖像對(duì)角線六分之一時(shí)停止)實(shí)現(xiàn)自適應(yīng)停止,避免“過(guò)度思考”。
- 模態(tài)感知優(yōu)化:DiMo-GUI 將 GUI 元素分為文本和圖標(biāo)兩類,分別進(jìn)行獨(dú)立的定位推理,生成文本坐標(biāo)(C_text)和圖標(biāo)坐標(biāo)(C_icon)。隨后,模型結(jié)合原始指令和全分辨率圖像評(píng)估兩個(gè)候選坐標(biāo),確定最終目標(biāo) (C*),有效平衡文本和圖標(biāo)的處理能力。
這樣的方式推動(dòng)了推理時(shí)拓展(Test-time Scaling)在GUI定位這一領(lǐng)域的發(fā)展,提供了新的思路和方式。

03、實(shí)驗(yàn)結(jié)果
無(wú)需訓(xùn)練和任何額外數(shù)據(jù),只在推理階段就可以大幅提升性能。

團(tuán)隊(duì)在最新的高分辨率GUI數(shù)據(jù)集 ScreenSpot-Pro 上驗(yàn)證發(fā)現(xiàn):
- DiMo-GUI可以作為即插即用的框架大幅提升多個(gè)GUI模型的性能。
- 其中OS-Atlas-7B在引入DiMo-GUI之后獲得了超過(guò)兩倍的指標(biāo)提升(18.9% -- 49.7%), UGround-7B和UGround-V1-7B也均獲得了超過(guò)10%的指標(biāo)提升。
在相對(duì)簡(jiǎn)單的ScreenSpot數(shù)據(jù)集上,DiMo-GUI同樣可以提升多個(gè)模型的性能。

定性結(jié)果表示,模型加入DiMo-GUI之后可以通過(guò)動(dòng)態(tài)定位逐步逼近正確結(jié)果。

04、總結(jié)
DiMo-GUI 提供了一種高效、通用且無(wú)需訓(xùn)練的GUI定位框架,通過(guò)動(dòng)態(tài)視覺(jué)推理和模態(tài)感知優(yōu)化顯著提升了多模態(tài)大語(yǔ)言模型在復(fù)雜 GUI 環(huán)境中的表現(xiàn)。其“即插即用”特性使其可無(wú)縫集成到現(xiàn)有GUI Agent中,適用于網(wǎng)頁(yè)導(dǎo)航、移動(dòng)應(yīng)用自動(dòng)化等場(chǎng)景。未來(lái)研究可探索引入回溯機(jī)制以糾正早期錯(cuò)誤,進(jìn)一步提升定位魯棒性。




































