偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別海量標(biāo)注!浙大團(tuán)隊(duì)提出GUI-RCPO,讓GUI定位在無(wú)標(biāo)簽數(shù)據(jù)上自我進(jìn)化

人工智能 新聞
研究團(tuán)隊(duì)首先設(shè)計(jì)了一種無(wú)需訓(xùn)練的test-time scaling方法——GUI-RC,通過(guò)利用模型在采樣過(guò)程中呈現(xiàn)出來(lái)的空間區(qū)域一致性提取出模型的共識(shí)區(qū)域,從而實(shí)現(xiàn)更加精準(zhǔn)自信的定位。

無(wú)需海量數(shù)據(jù)標(biāo)注,智能體也能精確識(shí)別定位目標(biāo)元素了!

來(lái)自浙大等機(jī)構(gòu)的研究人員提出GUI-RCPO——一種自我監(jiān)督的強(qiáng)化學(xué)習(xí)方法,可以讓模型在沒(méi)有標(biāo)注的數(shù)據(jù)上自主提升GUI grounding(圖形界面定位)能力。

何謂GUI grounding?為什么要提升這項(xiàng)能力?

簡(jiǎn)單而言,近年來(lái),以視覺(jué)-語(yǔ)言模型為骨架的GUI智能體正在迅猛發(fā)展,只需要一句語(yǔ)言指令,它們就能像人一樣手眼協(xié)同地操作電腦、手機(jī)、網(wǎng)頁(yè)等界面。

GUI智能體的一個(gè)關(guān)鍵能力在于GUI grounding,也就是根據(jù)用戶給出的自然語(yǔ)言指令,GUI智能體需要在用戶界面中精確地識(shí)別并定位可操作的目標(biāo)元素。

良好的GUI grounding能力可以使得GUI智能體更好地理解圖形界面,以及完成更加精準(zhǔn)地界面交互。

然而,想要訓(xùn)練這樣一種看似簡(jiǎn)單的能力,卻需要大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)——當(dāng)前絕大多數(shù)方法動(dòng)輒需要上百萬(wàn)級(jí)的標(biāo)注數(shù)據(jù),而構(gòu)建這樣的高質(zhì)量的標(biāo)注數(shù)據(jù)需要大量的人工和時(shí)間成本。

而GUI-RCPO正好解決了上述問(wèn)題,其核心原理如下:

通過(guò)創(chuàng)新性地將Test-time Reinforcement Learning的思想遷移到GUI grounding任務(wù)上,利用模型在多次采樣之間呈現(xiàn)出來(lái)的區(qū)域一致性來(lái)引導(dǎo)模型在無(wú)標(biāo)簽的數(shù)據(jù)上進(jìn)行自我提升。

具體內(nèi)容如下——

GUI-RC:模型采樣“求同存異”

當(dāng)模型針對(duì)同一指令進(jìn)行多次預(yù)測(cè)時(shí),由于坐標(biāo)空間的連續(xù)性和解碼策略帶來(lái)的隨機(jī)性,模型會(huì)產(chǎn)生不同的預(yù)測(cè)區(qū)域。

盡管這些預(yù)測(cè)區(qū)域的范圍可能互不相同,但是它們會(huì)存在一定的空間重疊,這種空間重疊實(shí)際上蘊(yùn)含了一種隱式的置信度信號(hào),重疊程度越高潛在地說(shuō)明了模型對(duì)該區(qū)域的置信度越高,研究團(tuán)隊(duì)將這種空間重疊定義為模型采樣中的區(qū)域一致性。

基于這一洞察,研究團(tuán)隊(duì)首先設(shè)計(jì)了一種基于區(qū)域一致性進(jìn)行空間投票的test-time scaling方法——GUI-RC。

首先構(gòu)建一張與屏幕截圖相同大小的投票網(wǎng)格來(lái)記錄模型每次采樣中預(yù)測(cè)的區(qū)域,對(duì)于每一個(gè)預(yù)測(cè)結(jié)果,將其在網(wǎng)格上對(duì)應(yīng)的區(qū)域記上一票,如果模型的預(yù)測(cè)結(jié)果是點(diǎn)坐標(biāo),則將其擴(kuò)展成大小的方框,再投射到網(wǎng)格上。

全部投票結(jié)束后,這張網(wǎng)格便記錄了模型在采樣過(guò)程中總體上對(duì)每一個(gè)像素點(diǎn)的置信度,票數(shù)越高的區(qū)域代表模型對(duì)該區(qū)域的信心越強(qiáng)。

隨后,提取出網(wǎng)格中票數(shù)最高且面積最大的連續(xù)區(qū)域作為模型采樣中的“共識(shí)區(qū)域”。

最后,利用這塊共識(shí)區(qū)域來(lái)進(jìn)行GUI定位,即可在無(wú)需訓(xùn)練的情況下,得到一個(gè)更加精確可靠的預(yù)測(cè)結(jié)果。

GUI-RCPO:讓模型在無(wú)標(biāo)簽數(shù)據(jù)上自我提升

研究團(tuán)隊(duì)進(jìn)一步提出了一種test-time reinforcement learning方法——GUI-RCPO,將模型采樣中的區(qū)域一致性轉(zhuǎn)換成一種自監(jiān)督的獎(jiǎng)勵(lì)信號(hào)來(lái)指導(dǎo)模型的策略優(yōu)化。

對(duì)于每一個(gè)預(yù)測(cè)結(jié)果,GUI-RCPO會(huì)賦予其預(yù)測(cè)區(qū)域內(nèi)的平均票數(shù)與最大票數(shù)之比的獎(jiǎng)勵(lì),反映出該區(qū)域在采樣中的一致性程度,一致性程度越高的區(qū)域會(huì)被賦予越高的獎(jiǎng)勵(lì)。

這樣一來(lái),GUI-RCPO便可以在無(wú)需任何標(biāo)注數(shù)據(jù)和外部監(jiān)督的情況下,利用這種區(qū)域一致性獎(jiǎng)勵(lì)來(lái)指導(dǎo)模型進(jìn)行策略優(yōu)化,讓模型的輸出更加精準(zhǔn)且自信,進(jìn)而提高獎(jiǎng)勵(lì)的可靠性和質(zhì)量,從而實(shí)現(xiàn)在無(wú)標(biāo)簽數(shù)據(jù)上的自我提升。

實(shí)驗(yàn)分析

研究團(tuán)隊(duì)將GUI-RC和GUI-RCPO兩種方法分別應(yīng)用到不同的通用模型和GUI專用模型上,并在三個(gè)主流的GUI定位基準(zhǔn)上進(jìn)行了全面的評(píng)估。

對(duì)于GUI-RCPO方法,團(tuán)隊(duì)使用去掉真值標(biāo)簽的ScreenSpot-v2作為訓(xùn)練數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果表明,兩種方法在不同模型上都有一致的提升。

其中GUI-RCPO帶來(lái)的提升超過(guò)了GUI-RC,說(shuō)明模型在GUI-RCPO訓(xùn)練過(guò)程中并不是在簡(jiǎn)單地?cái)M合共識(shí)區(qū)域,而是在真正地學(xué)會(huì)一種更好的定位策略。

此外,GUI-RCPO對(duì)于已經(jīng)在GUI任務(wù)上進(jìn)行過(guò)預(yù)訓(xùn)練的模型仍然會(huì)帶來(lái)進(jìn)一步的提升,證明了方法的有效性。

此外,GUI-RCPO還展現(xiàn)出良好的泛化能力,盡管模型只在針對(duì)通用場(chǎng)景的ScreenSpot-v2數(shù)據(jù)集上進(jìn)行訓(xùn)練,但是在更有挑戰(zhàn)性的針對(duì)專業(yè)場(chǎng)景的ScreenSpot-Pro基準(zhǔn)上依然有顯著的提升。

并且隨著訓(xùn)練步數(shù)的增加,模型在三個(gè)基準(zhǔn)上的表現(xiàn)都有穩(wěn)定的提升,進(jìn)一步證明了GUI-RCPO的泛化能力。

研究團(tuán)隊(duì)還嘗試在GUI-RCPO訓(xùn)練之后,繼續(xù)使用GUI-RC進(jìn)行空間區(qū)域投票,并發(fā)現(xiàn)模型的表現(xiàn)還能進(jìn)一步提升,說(shuō)明通過(guò)這種自我強(qiáng)化的循環(huán),模型可以在沒(méi)有任何標(biāo)注數(shù)據(jù)和外部監(jiān)督的情況下,不斷突破預(yù)期的性能上限。

案例分析

研究團(tuán)隊(duì)提供了兩個(gè)案例,分別展示了GUI-RC可以解決的GUI定位中存在的兩類幻覺(jué)。

  • 誤導(dǎo)性幻覺(jué)

在一個(gè)電商界面里,用戶指令要求GUI智能體在時(shí)尚購(gòu)物區(qū)中查看低于50美元的鞋子(圖片中藍(lán)色方框框選的區(qū)域),而在貪心解碼策略下,模型卻被相近的語(yǔ)義與版面布局迷惑,錯(cuò)誤地框選到了“低于25美元的上衣”區(qū)域(左側(cè)圖片中紅色方框框選的區(qū)域),這是典型的語(yǔ)義錯(cuò)配導(dǎo)致的誤導(dǎo)性幻覺(jué)。

GUI-RC通過(guò)對(duì)同一指令進(jìn)行多次采樣,并投票選出采樣中的共識(shí)區(qū)域(右側(cè)圖片中綠色方框框選的區(qū)域),成功地將模型的注意力穩(wěn)定地聚合到正確的區(qū)域,從而糾正了單次預(yù)測(cè)的誤導(dǎo)性錯(cuò)誤,給出更精確的定位。

  • 偏差性幻覺(jué)

在一個(gè)電子平臺(tái)界面里,用戶指令要求GUI智能體“聯(lián)系銷售”(圖片中藍(lán)色方框框選的區(qū)域),而在貪心解碼策略下,模型卻把右側(cè)的整張信息卡片當(dāng)作目標(biāo)(左側(cè)圖片中紅色方框框選的區(qū)域),而不是精確地框選可點(diǎn)擊的“聯(lián)系銷售”按鈕。

GUI-RC通過(guò)多次采樣投票的方式,把一次次略有偏差的預(yù)測(cè)聚合并提取出一個(gè)更加精確、自信的共識(shí)區(qū)域(右側(cè)圖片中綠色方框框選的區(qū)域),成功地完成了精準(zhǔn)的定位,消除了這類偏差性幻覺(jué)。

小結(jié)一下

研究團(tuán)隊(duì)首先設(shè)計(jì)了一種無(wú)需訓(xùn)練的test-time scaling方法——GUI-RC,通過(guò)利用模型在采樣過(guò)程中呈現(xiàn)出來(lái)的空間區(qū)域一致性提取出模型的共識(shí)區(qū)域,從而實(shí)現(xiàn)更加精準(zhǔn)自信的定位。

為了繼續(xù)發(fā)掘區(qū)域一致性的潛力,團(tuán)隊(duì)進(jìn)一步提出了一種test-time reinforcement learning方法——GUI-RCPO,將區(qū)域一致性轉(zhuǎn)化為一種自監(jiān)督的獎(jiǎng)勵(lì)信號(hào),使得模型能夠在無(wú)需任何標(biāo)注數(shù)據(jù)的情況下不斷地進(jìn)行自我提升。

實(shí)驗(yàn)證明了該方法有廣泛的適用性和良好的泛化能力。

團(tuán)隊(duì)的研究揭示了test-time training在GUI智能體領(lǐng)域中的潛力,為構(gòu)建更加數(shù)據(jù)高效的GUI智能體提供了一個(gè)可行的方向。

論文鏈接:https://arxiv.org/abs/2508.05615
項(xiàng)目主頁(yè):https://zju-real.github.io/gui-rcpo/
代碼倉(cāng)庫(kù):https://github.com/ZJU-REAL/GUI-RCPO

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-08-04 09:13:00

AI智能體技術(shù)

2024-03-12 13:27:13

2025-06-04 08:35:00

2025-10-11 13:51:21

2025-08-18 09:08:00

2025-03-10 09:15:00

2025-06-03 08:51:00

2023-06-16 14:11:00

研究監(jiān)督

2025-09-04 11:58:42

2018-06-05 11:10:12

2025-03-10 12:09:37

2024-03-18 09:12:09

計(jì)算模型

2023-09-10 10:51:22

算法結(jié)構(gòu)

2025-05-27 15:59:03

AI生成模型

2023-05-26 00:43:08

2017-11-08 11:20:14

谷歌人工智能技術(shù)

2025-10-20 09:07:00

2024-12-17 12:53:45

AI自我進(jìn)化谷歌

2024-02-07 12:13:03

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)