偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GUI智能體訓(xùn)練迎來新范式!半在線強(qiáng)化學(xué)習(xí)讓7B模型媲美GPT-4o

人工智能 新聞
浙江大學(xué)與通義實(shí)驗(yàn)室Mobile-Agent團(tuán)隊(duì)在UI-R1的基礎(chǔ)上,推出全新研究成果——UI-S1,提出了一種名為半在線強(qiáng)化學(xué)習(xí)(Semi-online Reinforcement Learning)的創(chuàng)新訓(xùn)練范式。

如何讓AI更聰明地操作手機(jī)、電腦界面?

浙江大學(xué)與通義實(shí)驗(yàn)室Mobile-Agent團(tuán)隊(duì)在UI-R1的基礎(chǔ)上,推出全新研究成果——UI-S1,提出了一種名為半在線強(qiáng)化學(xué)習(xí)(Semi-online Reinforcement Learning)的創(chuàng)新訓(xùn)練范式。

該工作融合了離線訓(xùn)練的穩(wěn)定性與在線學(xué)習(xí)的長(zhǎng)程優(yōu)化能力,在不依賴真實(shí)環(huán)境交互的前提下,顯著提升了模型在動(dòng)態(tài)多輪任務(wù)中的表現(xiàn)。

也就是說,這種方法用的還是離線學(xué)習(xí)的現(xiàn)成操作數(shù)據(jù),但會(huì)模擬在線學(xué)習(xí)的過程。

下面來看看是怎么做到的。

用“離線”數(shù)據(jù),模擬“在線”過程

核心問題:傳統(tǒng)方法的局限性

現(xiàn)有的GUI Agent訓(xùn)練主要依賴兩類強(qiáng)化學(xué)習(xí)范式:

  • 離線強(qiáng)化學(xué)習(xí)(Offline RL)利用預(yù)先收集的專家軌跡進(jìn)行訓(xùn)練,具有高穩(wěn)定性與低部署成本,但其本質(zhì)是“行為克隆+單步模仿”,缺乏對(duì)軌跡級(jí)獎(jiǎng)勵(lì)信號(hào)的學(xué)習(xí)能力,難以應(yīng)對(duì)需要長(zhǎng)期規(guī)劃的任務(wù)。在以下任務(wù)中:基于離線學(xué)習(xí)的模型表現(xiàn)出早?,F(xiàn)象,面對(duì)長(zhǎng)程任務(wù)缺乏有效的規(guī)劃。

  • 在線強(qiáng)化學(xué)習(xí)(Online RL)通過與真實(shí)環(huán)境持續(xù)交互獲取反饋,能夠捕捉到任務(wù)完成與否的全局獎(jiǎng)勵(lì)信號(hào),適用于多步?jīng)Q策優(yōu)化,但面臨獎(jiǎng)勵(lì)稀疏、試錯(cuò)成本高昂以及訓(xùn)練不穩(wěn)定等問題。

因此,如何在無需頻繁真實(shí)交互的前提下,賦予模型類似在線學(xué)習(xí)的上下文連貫性和長(zhǎng)程推理能力,成為突破瓶頸的關(guān)鍵。

解決方案:三大核心技術(shù)構(gòu)建半在線學(xué)習(xí)框架

為解決上述矛盾,研究團(tuán)隊(duì)提出了三項(xiàng)關(guān)鍵技術(shù),共同構(gòu)成UI-S1的核心架構(gòu):

半在線機(jī)制:在離線數(shù)據(jù)中模擬在線交互

離線學(xué)習(xí)的軌跡是固定的,只能將專家軌跡的動(dòng)作(*表示)作為歷史:

而在線學(xué)習(xí)的軌跡是可以動(dòng)態(tài)變化的,將模型自己的原始輸出(π表示)作為歷史:

UI-S1首次提出半在線強(qiáng)化學(xué)習(xí)范式,其核心思想是在固定離線軌跡的基礎(chǔ)上,在每次rollout過程中保留模型自身的原始輸出(包括動(dòng)作選擇與思維鏈),而非僅使用專家動(dòng)作作為歷史輸入。

這一設(shè)計(jì)使得模型能夠在訓(xùn)練中體驗(yàn)“自我行為帶來的上下文變化”,從而增強(qiáng)策略的一致性和多輪連貫性。

換言之,即使沒有真實(shí)環(huán)境反饋,模型也能“感知”自己過去的行為,并據(jù)此調(diào)整后續(xù)決策,實(shí)現(xiàn)了對(duì)在線學(xué)習(xí)過程的有效模擬。

補(bǔ)丁機(jī)制(Patching Module):自適應(yīng)修復(fù)采樣偏差

由于模型在rollout中可能偏離專家路徑,導(dǎo)致后續(xù)狀態(tài)無法匹配原始軌跡,研究者引入了可配置的補(bǔ)丁機(jī)制,以恢復(fù)被中斷的操作流。具體包含三種策略:

  • Thought-Free Patch:僅修正錯(cuò)誤動(dòng)作,保持原思考過程不變
  • Off-Policy Thought Patch:調(diào)用更強(qiáng)外部模型重寫錯(cuò)誤思維鏈
  • On-Policy Thought Patch:引導(dǎo)模型自身生成正確的推理路徑

此外,提高補(bǔ)丁次數(shù)上限可顯著提升模型訪問完整軌跡的能力,進(jìn)而增強(qiáng)對(duì)后期步驟的學(xué)習(xí)效果。

分析顯示,更高的補(bǔ)丁閾值有助于維持策略熵,防止過早收斂,促進(jìn)探索多樣性。

長(zhǎng)程獎(jiǎng)勵(lì)建模:從步驟級(jí)到軌跡級(jí)的優(yōu)勢(shì)估計(jì)

為了彌補(bǔ)傳統(tǒng)離線RL無法捕獲未來收益的缺陷,UI-S1引入了帶折扣因子的未來獎(jiǎng)勵(lì)傳播機(jī)制。對(duì)于每個(gè)中間步驟,系統(tǒng)不僅計(jì)算其即時(shí)規(guī)則獎(jiǎng)勵(lì)還結(jié)合未來步驟的潛在價(jià)值(按衰減因子γ加權(quán))形成綜合獎(jiǎng)勵(lì):有了這個(gè)步驟級(jí)別獎(jiǎng)勵(lì),研究者們用其估計(jì)同一個(gè)步驟組內(nèi)的步驟級(jí)別優(yōu)勢(shì),最后一步的優(yōu)勢(shì)被當(dāng)作軌跡級(jí)別優(yōu)勢(shì),用于評(píng)估軌跡是否完成:研究者將兩個(gè)級(jí)別的優(yōu)勢(shì)加權(quán)后(),采用動(dòng)態(tài)采樣的方式優(yōu)化策略模型:

評(píng)測(cè)革新:SOP——更貼近真實(shí)表現(xiàn)的動(dòng)態(tài)評(píng)估指標(biāo)

針對(duì)傳統(tǒng)靜態(tài)評(píng)測(cè)(如AC-High)無法反映多輪容錯(cuò)能力的問題,研究團(tuán)隊(duì)提出了新的評(píng)測(cè)——SOP(Semi-online Performance)。

該協(xié)議保留模型每一輪的真實(shí)輸出,一旦出現(xiàn)錯(cuò)誤即終止任務(wù),全面模擬真實(shí)使用場(chǎng)景下的連續(xù)交互過程。結(jié)果表明,SOP與真實(shí)在線性能高度對(duì)齊,且支持更高任務(wù)多樣性和更快評(píng)估速度,填補(bǔ)了現(xiàn)有評(píng)測(cè)體系在動(dòng)態(tài)性與實(shí)用性之間的空白。

實(shí)驗(yàn)結(jié)果:全面超越基線,逼近頂尖閉源模型

在多個(gè)主流GUI自動(dòng)化基準(zhǔn)上的測(cè)試中,UI-S1-7B展現(xiàn)出卓越性能:

實(shí)驗(yàn)結(jié)果

特別是在AndroidWorld任務(wù)中,UI-S1-7B取得了34.0%的任務(wù)成功率,接近GPT-4o(34.5%)與UI-TARS-7B(33.0%),顯著優(yōu)于純SFT或離線RL方法。

值得注意的是,部分基線方法在動(dòng)態(tài)評(píng)測(cè)中甚至不如基礎(chǔ)模型,反映出其在多輪泛化方面的根本缺陷。

同時(shí),在單輪任務(wù)(如GUI Odyssey)上,UI-S1-7B仍保持+7.1%的增益,說明半在線訓(xùn)練并未犧牲局部精度,實(shí)現(xiàn)了“長(zhǎng)短兼顧”的雙重優(yōu)化。

在常規(guī)的GUI單輪評(píng)測(cè)上,UI-S1-7B相比于base模型也有一定程度的提升(比如GUI Odyssey +7.1),證明了半在線方法并沒有犧牲單輪預(yù)測(cè)能力。

深入分析:機(jī)制有效性與可擴(kuò)展性驗(yàn)證

補(bǔ)丁機(jī)制顯著提升數(shù)據(jù)利用率

作為UI-S1框架的核心組件之一,補(bǔ)丁模塊(Patch Module)在維持訓(xùn)練穩(wěn)定性與提升策略泛化能力方面發(fā)揮了不可替代的作用。

其設(shè)計(jì)初衷在于解決半在線強(qiáng)化學(xué)習(xí)中一個(gè)根本性矛盾:模型在rollout過程中不可避免地會(huì)偏離原始專家軌跡,導(dǎo)致后續(xù)狀態(tài)無法對(duì)齊真實(shí)數(shù)據(jù),從而中斷整個(gè)軌跡的學(xué)習(xí)進(jìn)程。

為緩解這一問題,研究團(tuán)隊(duì)引入了可調(diào)節(jié)的補(bǔ)丁機(jī)制,允許系統(tǒng)在檢測(cè)到操作偏差時(shí),以有限次數(shù)對(duì)歷史動(dòng)作或思維鏈進(jìn)行修正。通過設(shè)置超參數(shù)閾值控制每條軌跡最多可修補(bǔ)的次數(shù),研究人員系統(tǒng)評(píng)估了不同配置下的性能變化。

實(shí)驗(yàn)結(jié)果表明,提高補(bǔ)丁閾值顯著提升了模型在SOP和AndroidWorld兩個(gè)動(dòng)態(tài)評(píng)測(cè)基準(zhǔn)上的表現(xiàn)。

在具體修補(bǔ)策略的選擇上,研究對(duì)比了三種典型方案,揭示了性能與效率之間的深層權(quán)衡:

  1. On-Policy Thought Patch由目標(biāo)策略模型自身重新生成正確的推理過程,在語義風(fēng)格和推理節(jié)奏上與原輸出高度一致,因此能提供最自然的上下文銜接,帶來最優(yōu)性能。然而,該方法需額外執(zhí)行完整的前向推理,計(jì)算開銷較大,不利于大規(guī)模訓(xùn)練。
  2. Thought-Free Patch僅修正錯(cuò)誤的動(dòng)作標(biāo)簽,保留原有的思維鏈不變。盡管未修復(fù)潛在的邏輯缺陷,但由于GUI動(dòng)作空間相對(duì)結(jié)構(gòu)化且可通過規(guī)則校驗(yàn),該方式在實(shí)踐中表現(xiàn)出接近最優(yōu)的性能,同時(shí)幾乎不引入額外計(jì)算成本,具備極高的工程實(shí)用性。
  3. Off-Policy Thought Patch借助外部更強(qiáng)的大模型(如GPT-4)重寫錯(cuò)誤的思考過程。雖然理論上可提供更高質(zhì)量的推理指導(dǎo),但因生成風(fēng)格、術(shù)語使用與目標(biāo)模型存在分布偏移,反而可能導(dǎo)致上下文斷裂或誤導(dǎo)訓(xùn)練方向,實(shí)際效果不如預(yù)期。

更進(jìn)一步分析發(fā)現(xiàn),較大的補(bǔ)丁閾值有助于在訓(xùn)練過程中維持較高的策略熵(policy entropy),即模型在動(dòng)作選擇上的不確定性水平。

較高的熵值反映了更豐富的探索行為,避免策略過早收斂于少數(shù)高頻路徑。

這說明補(bǔ)丁機(jī)制不僅是誤差糾正工具,更是促進(jìn)策略多樣性和防止模式坍縮的重要手段。

數(shù)據(jù)縮放規(guī)律揭示高效學(xué)習(xí)潛力

研究表明,UI-S1的性能增長(zhǎng)符合指數(shù)型數(shù)據(jù)規(guī)模律。

隨著補(bǔ)丁閾值從0增至無窮,指數(shù)系數(shù)k從?1.13提升至?0.73,表明單位數(shù)據(jù)帶來的邊際收益明顯改善。

這意味著即使在有限數(shù)據(jù)條件下,該方法也能更充分挖掘非完美軌跡中的監(jiān)督信號(hào),具備良好的小樣本適應(yīng)能力。

消融實(shí)驗(yàn)確認(rèn)關(guān)鍵組件貢獻(xiàn)

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了多個(gè)核心組件的技術(shù)貢獻(xiàn)。

首先,在未來獎(jiǎng)勵(lì)建模方面,折扣因子γ的設(shè)置對(duì)多輪任務(wù)表現(xiàn)具有決定性影響:當(dāng)γ=0(完全忽略未來獎(jiǎng)勵(lì))時(shí),模型性能最低;而在 γ=0.5時(shí)達(dá)到峰值,說明適度納入長(zhǎng)程優(yōu)化信號(hào)可顯著提升策略的全局一致性與任務(wù)完成率,凸顯了半在線范式在捕獲跨步依賴關(guān)系上的優(yōu)勢(shì)。

其次,在訓(xùn)練范式組合上,聯(lián)合使用監(jiān)督微調(diào)(SFT)與半在線強(qiáng)化學(xué)習(xí)(Semi-online RL)的效果明顯優(yōu)于任一單獨(dú)方法——在AndroidWorld基準(zhǔn)上,組合方案取得34.0%的任務(wù)成功率,分別高出僅用Semi-online RL(30.4%)和僅用SFT(21.7%)的配置,且平均任務(wù)完成步數(shù)更少,表明其具備更強(qiáng)的路徑規(guī)劃與執(zhí)行效率。

最后,同時(shí)引入軌跡級(jí)與步驟級(jí)優(yōu)勢(shì)函數(shù)計(jì)算,并保留多幀歷史觀測(cè)信息(包括動(dòng)作、思考鏈與界面狀態(tài)),均被證實(shí)對(duì)最終性能有正向增益,去除任一組件均會(huì)導(dǎo)致性能下降,說明這些設(shè)計(jì)共同支撐了模型在復(fù)雜GUI交互中的穩(wěn)健決策能力。

樣例分析

研究者們展示了一項(xiàng)復(fù)雜的跨應(yīng)用任務(wù),該任務(wù)要求在多個(gè)操作步驟中持續(xù)保留關(guān)鍵信息:從Simple Gallery中查看一張包含交易信息的圖片,并在Markor應(yīng)用中創(chuàng)建文件記錄該信息。

實(shí)驗(yàn)表明,基礎(chǔ)模型和離線強(qiáng)化學(xué)習(xí)(Offline RL)模型在執(zhí)行過程中出現(xiàn)了思維與動(dòng)作不一致的問題。

例如,Offline RL模型在規(guī)劃完切換至下一應(yīng)用后便提前終止操作,可能因其過度擬合局部獎(jiǎng)勵(lì),未能統(tǒng)籌后續(xù)任務(wù)目標(biāo)。而經(jīng)過監(jiān)督微調(diào)(SFT)的模型則在流程中遺失了關(guān)鍵信息,導(dǎo)致執(zhí)行冗余操作,如嘗試創(chuàng)建一個(gè)已存在的文件。

相比之下,基于半在線強(qiáng)化學(xué)習(xí)(Semi-Online RL)框架的UI-S1模型在整個(gè)12步操作序列中保持了穩(wěn)定的上下文連貫性,成功將交易信息“2023-03-23, Monitor Stand, $33.22”準(zhǔn)確以CSV格式寫入文件。

這一表現(xiàn)驗(yàn)證了該方法在學(xué)習(xí)多輪復(fù)雜行為方面的優(yōu)勢(shì),實(shí)現(xiàn)了推理過程與動(dòng)作執(zhí)行的高度對(duì)齊。

研究者認(rèn)為,該成果體現(xiàn)了半在線范式在提升GUI智能體長(zhǎng)程規(guī)劃能力與任務(wù)魯棒性方面的關(guān)鍵作用。

感興趣的朋友可戳下方點(diǎn)鏈接獲取更多內(nèi)容~

論文地址:https://arxiv.org/abs/2509.11543

項(xiàng)目代碼:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1

模型地址:https://huggingface.co/mPLUG/UI-S1-7B

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-14 10:25:11

2025-10-24 12:07:12

2025-01-06 12:46:16

模型數(shù)據(jù)訓(xùn)練

2025-07-14 09:00:00

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2025-08-07 14:05:40

OpenAI大模型開源

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2024-12-13 14:03:44

模型訓(xùn)練AI

2025-06-10 09:07:00

2025-10-28 02:11:00

2023-08-28 06:52:29

2024-11-22 14:10:00

AI智能體

2025-09-28 15:35:32

AI模型強(qiáng)化學(xué)習(xí)

2025-02-27 13:45:00

2024-09-23 15:04:16

2025-03-11 13:07:58

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2025-06-06 14:17:11

模型訓(xùn)練AI

2025-08-01 14:32:35

AI模型訓(xùn)練

2025-08-21 16:01:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)