UI-R1 | 僅136張截圖，vivo開源DeepSeek R1式強(qiáng)化學(xué)習(xí)，提升GUI智能體動(dòng)作預(yù)測(cè)

作者：機(jī)器之心 2025-04-09 09:41:43

vivo 與香港中文大學(xué)的研究團(tuán)隊(duì)受到 DeepSeek-R1 的啟發(fā)，首次將基于規(guī)則的強(qiáng)化學(xué)習(xí)（RL）應(yīng)用到了 GUI 智能體領(lǐng)域。

基于規(guī)則的強(qiáng)化學(xué)習(xí)（RL/RFT）已成為替代 SFT 的高效方案，僅需少量樣本即可提升模型在特定任務(wù)中的表現(xiàn)。

該方法通過(guò)預(yù)定義獎(jiǎng)勵(lì)函數(shù)規(guī)避人工標(biāo)注成本，如 DeepSeek-R1 在數(shù)學(xué)求解中的成功應(yīng)用，以及多模態(tài)領(lǐng)域在圖像定位等任務(wù)上的性能突破（通常使用 IOU 作為規(guī)則 reward）。

論文標(biāo)題：UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
論文地址：https://arxiv.org/abs/2503.21620
項(xiàng)目主頁(yè)：https://yxchai.com/UI-R1/
項(xiàng)目代碼：https://github.com/lll6gg/UI-R1

簡(jiǎn)介

本研究創(chuàng)新性地將規(guī)則 RL 范式拓展至基于低級(jí)指令的 GUI 動(dòng)作預(yù)測(cè)任務(wù)。具體實(shí)現(xiàn)中，多模態(tài)大語(yǔ)言模型為每個(gè)輸入生成包含推理標(biāo)記和最終答案的多條響應(yīng)軌跡，在訓(xùn)練和測(cè)試時(shí)的 prompt 設(shè)計(jì)如下：

隨后通過(guò)我們?cè)O(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)評(píng)估每條響應(yīng)，并采用 GRPO 等策略優(yōu)化算法更新模型參數(shù)。該獎(jiǎng)勵(lì)函數(shù)包含三個(gè)維度：

動(dòng)作類型獎(jiǎng)勵(lì)：根據(jù)預(yù)測(cè)動(dòng)作與真實(shí)動(dòng)作的匹配度計(jì)算；
動(dòng)作參數(shù)獎(jiǎng)勵(lì)（聚焦點(diǎn)擊操作）：通過(guò)預(yù)測(cè)坐標(biāo)是否落入真實(shí)邊界框評(píng)估；
格式規(guī)范獎(jiǎng)勵(lì)：評(píng)估模型是否同時(shí)提供推理過(guò)程和最終答案。

數(shù)據(jù)制備方面，僅依據(jù)難度、多樣性和質(zhì)量三原則篩選 130 余個(gè)移動(dòng)端訓(xùn)練樣本，展現(xiàn)出卓越的數(shù)據(jù)效率。實(shí)驗(yàn)表明，UI-R1 在桌面端和網(wǎng)頁(yè)平臺(tái)等跨領(lǐng)域（OOD）數(shù)據(jù)上均取得顯著性能提升，印證了規(guī)則 RL 處理跨領(lǐng)域復(fù)雜 GUI 任務(wù)的潛力。

方法：強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的 GUI 智能體

我們提出的 UI-R1 模型采用了三個(gè)關(guān)鍵創(chuàng)新：

1. 獨(dú)特的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

研究團(tuán)隊(duì)設(shè)計(jì)了專門針對(duì) GUI 任務(wù)的獎(jiǎng)勵(lì)函數(shù)：R = R_T + R_C + R_F

R_T：行為類型獎(jiǎng)勵(lì)（點(diǎn)擊、滑動(dòng)、返回等）
R_C：坐標(biāo)準(zhǔn)確度獎(jiǎng)勵(lì)（點(diǎn)擊位置是否準(zhǔn)確）
R_F：格式獎(jiǎng)勵(lì)（輸出的格式是否正確）

2. 精心篩選的高質(zhì)量數(shù)據(jù)

與其使用大量普通數(shù)據(jù)，我們提出采用了「質(zhì)量?jī)?yōu)先」的策略，從三個(gè)維度精選訓(xùn)練數(shù)據(jù)：

質(zhì)量：選擇標(biāo)注準(zhǔn)確、對(duì)齊良好的樣本
難度：專注于基礎(chǔ)模型難以解決的「困難」樣本
多樣性：確保涵蓋各種行為類型和元素類型

最終只使用了 136 個(gè)高質(zhì)量樣本，比傳統(tǒng)方法少了幾百甚至上千倍，就能夠訓(xùn)練得到比 SFT 方式更優(yōu)的效果。

3. 群體相對(duì)策略優(yōu)化算法

UI-R1 采用了一種名為 GRPO（Group Relative Policy Optimization）的算法。這種算法不需要額外的評(píng)論家模型，而是通過(guò)比較同一問(wèn)題的多個(gè)不同回答來(lái)學(xué)習(xí)什么是「好」的回答。

實(shí)驗(yàn)結(jié)果

1. 域內(nèi)效果提升明顯

在 AndroidControl 基準(zhǔn)測(cè)試上，UI-R1-3B 與基礎(chǔ)模型 Qwen2.5-VL-3B 相比：

行為類型準(zhǔn)確率提高了 15%
定位準(zhǔn)確率提高了 10.3%

2. 域外泛化能力驚人

UI-R1 在從未見過(guò)的桌面 PC 端和網(wǎng)頁(yè)界面上表現(xiàn)同樣出色：

在 ScreenSpot 測(cè)試中，UI-R1-3B 的平均準(zhǔn)確率達(dá)到 78.6%，超越 CogAgent-18B 等大模型。
在專業(yè)高分辨率環(huán)境 ScreenSpot-Pro 測(cè)試中，UI-R1-3B 達(dá)到 17.8% 的平均準(zhǔn)確率，提升了與使用 76K 數(shù)據(jù)訓(xùn)練的 OS-Atlas-7B（18.9%）性能相當(dāng)。

分析

我們關(guān)于 UI-R1 做了一系列分析，研究發(fā)現(xiàn)：在 GRPO 的強(qiáng)化學(xué)習(xí)微調(diào)的方式下，數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量重要：

困難樣本更有價(jià)值：按難度選擇的方法比隨機(jī)選擇的性能顯著更好。
數(shù)據(jù)增長(zhǎng)收益遞減：隨著訓(xùn)練數(shù)據(jù)量增加，性能提升趨于平緩。
精選小數(shù)據(jù)集比大數(shù)據(jù)集更有效：三階段數(shù)據(jù)選擇方法優(yōu)于使用整個(gè)數(shù)據(jù)集或者隨機(jī)篩選相同數(shù)量的子集。

此外，我們還發(fā)現(xiàn)動(dòng)作預(yù)測(cè)的難度與思考的長(zhǎng)度之間存在關(guān)聯(lián)：思考長(zhǎng)度越長(zhǎng)，準(zhǔn)確率越低（說(shuō)明問(wèn)題越難），但通過(guò) UI-R1 形式的強(qiáng)化學(xué)習(xí)微調(diào)之后，對(duì)于難樣本的成功率提升也更加明顯。

這一現(xiàn)象證明了強(qiáng)化微調(diào)的價(jià)值，通過(guò)讓模型自主思考來(lái)提升難樣本的準(zhǔn)確率，這個(gè)特性是之前的監(jiān)督微調(diào)所難以獲得的。

未來(lái)探索方向

UI-R1 初步探索了大模型強(qiáng)化學(xué)習(xí)和推理技術(shù)在 GUI Agent 領(lǐng)域的應(yīng)用。下一步，我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合，實(shí)現(xiàn)大規(guī)模 UI 數(shù)據(jù)下統(tǒng)一的思考、決策、規(guī)劃的 GUI Agent 大模型。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

vivo 開源智能

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

UI-R1 | 僅136張截圖，vivo開源DeepSeek R1式強(qiáng)化學(xué)習(xí)，提升GUI智能體動(dòng)作預(yù)測(cè)

簡(jiǎn)介

方法：強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的 GUI 智能體

實(shí)驗(yàn)結(jié)果

分析

未來(lái)探索方向

UI-R1 | 僅136張截圖，vivo開源DeepSeek R1式強(qiáng)化學(xué)習(xí)，提升GUI智能體動(dòng)作預(yù)測(cè)