任務(wù)級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
現(xiàn)有Mobile/APP Agent的工作可以適應(yīng)實(shí)時環(huán)境,并執(zhí)行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。
而這些獎勵只能引導(dǎo)代理預(yù)測每一步中最佳的單一動作,因此難以應(yīng)對不斷變化的移動環(huán)境。
比如一句指令:“打開飛豬,進(jìn)入酒店套餐,進(jìn)入熱門直播,找到飛豬超級VIP,并關(guān)注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團(tuán)算法技術(shù)-未來生活實(shí)驗(yàn)室&點(diǎn)淘算法團(tuán)隊(duì)聯(lián)合提出,采用多回合、任務(wù)導(dǎo)向的學(xué)習(xí)方式,結(jié)合在線學(xué)習(xí)和軌跡糾錯,也許能提高Agent的適應(yīng)性和探索能力。
他們提出了個具有任務(wù)級獎勵(Task-level Reward)的交互式強(qiáng)化學(xué)習(xí)框架,即Mobile-R1。

為了確保訓(xùn)練的穩(wěn)定性,團(tuán)隊(duì)提出了一個三階段訓(xùn)練過程:格式微調(diào)、動作級訓(xùn)練和任務(wù)級訓(xùn)練。此外引入新的中文基準(zhǔn)和高質(zhì)量軌跡數(shù)據(jù)集,證明了該方法在移動代理領(lǐng)域的有效性。
結(jié)果Mobile-R1順利地完成了這一任務(wù)。

軌跡數(shù)據(jù)集
團(tuán)隊(duì)使用Qwen2.5-VL-3B執(zhí)行一系列任務(wù)獲得初始軌跡,并人工標(biāo)注這些初始軌跡,得到了高質(zhì)量的軌跡數(shù)據(jù)集。
其構(gòu)造可以分為數(shù)據(jù)收集和軌跡標(biāo)注兩部分,最終得到了4,635條高質(zhì)量的人工標(biāo)注軌跡,包含24,521個單步數(shù)據(jù)。

△軌跡數(shù)據(jù)集構(gòu)造流程
首先,選擇了28個中國移動應(yīng)用程序,通過人工設(shè)計和自動生成相結(jié)合的方法創(chuàng)建了多樣化的任務(wù)指令,隨后統(tǒng)一經(jīng)過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執(zhí)行這些指令后,成功收集了大量動作執(zhí)行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執(zhí)行的動作以及對應(yīng)的工具調(diào)用。
得到軌跡后,針對模型的輸出做了以下三個維度的標(biāo)注:
- 邏輯思考:將所有思考修正為“當(dāng)前狀態(tài)+下一步的動作+動作目的”的格式,比如“當(dāng)前在手機(jī)主屏(當(dāng)前狀態(tài)),下一步是點(diǎn)擊淘寶圖標(biāo)(下一步動作)來進(jìn)入淘寶(動作目的)”。如果原思考內(nèi)容錯誤也會人工標(biāo)注者會按照該格式重寫思考。
- 清晰動作:清晰動作是單步可執(zhí)行操作的一句話描述,動作應(yīng)符合思考的內(nèi)容并且可推動任務(wù)的完成。
- 準(zhǔn)確調(diào)用:人工標(biāo)注者會修正錯誤的操作調(diào)用,包括類型錯誤以及參數(shù)錯誤。
訓(xùn)練流程
訓(xùn)練流程由三個階段構(gòu)成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調(diào)、動作級在線訓(xùn)練和任務(wù)級在線訓(xùn)練。

Stage1:初始格式微調(diào)
在第一階段,對模型進(jìn)行初始格式微調(diào)。這一步是通過監(jiān)督微調(diào)(SFT)的方式進(jìn)行的,使用的是之前人工標(biāo)注的高質(zhì)量軌跡數(shù)據(jù)集。在微調(diào)過程中,模型不僅會學(xué)習(xí)如何將用戶的指令與當(dāng)前的GUI狀態(tài)對應(yīng)起來,還會調(diào)整輸出格式以符合預(yù)期的結(jié)構(gòu),包括邏輯思考、清晰動作和準(zhǔn)確調(diào)用。
Stage2:動作級在線訓(xùn)練
在第二階段,模型通過群體相對策略優(yōu)化(GRPO)進(jìn)行動作級在線訓(xùn)練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗(yàn)證動作獎勵和格式獎勵組成,其中可驗(yàn)證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結(jié)構(gòu)化、可解釋的。
- 動作級獎勵。1)對于基于坐標(biāo)的動作(如點(diǎn)擊、滑動),如果預(yù)測的坐標(biāo)落在目標(biāo)GUI元素的真實(shí)邊界框內(nèi),則獎勵為1,否則為0。2)對于非坐標(biāo)的動作(如輸入文本),如果預(yù)測的動作或參數(shù)與真實(shí)值完全匹配,則獎勵為1,否則為0。
- 格式獎勵。格式獎勵促使模型生成符合標(biāo)簽和結(jié)構(gòu)要求的輸出,確保響應(yīng)的邏輯思考、動作以及工具調(diào)用的格式化。
Stage3:任務(wù)級在線訓(xùn)練
在第三階段,通過多步驟任務(wù)級在線訓(xùn)練來提高模型的泛化能力和探索能力。
在動態(tài)的移動環(huán)境中,模型需要進(jìn)行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。
任務(wù)級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應(yīng)格式的遵循,同時評估任務(wù)的完成情況。
- 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務(wù)的完成情況。
- 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴(yán)格的懲罰,以增強(qiáng)輸出的精確度。
訓(xùn)練的部分階段在淘天自研的強(qiáng)化學(xué)習(xí)框架ROLL上進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中,主要評估了模型在自定義benchmark上的性能,并進(jìn)行了針對模型泛化能力的魯棒性分析,以驗(yàn)證Mobile-R1的表現(xiàn)。

△整體實(shí)驗(yàn)結(jié)果,粗體表示最佳結(jié)果,下劃線表示次優(yōu)結(jié)果
結(jié)果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現(xiàn)類似。
其中,AgentCPM-8B 由于專為中國移動生態(tài)系統(tǒng)優(yōu)化,因此在中文場景中表現(xiàn)優(yōu)異。更為顯著的是,Mobile-R1在所有基準(zhǔn)中表現(xiàn)最佳,任務(wù)成功率達(dá)到49.40,比最優(yōu)秀的baseline model高出將近20點(diǎn)。
Stage 3的訓(xùn)練進(jìn)一步增強(qiáng)了Mobile-R1的表現(xiàn),其成功率比只有階段1和階段2訓(xùn)練的模型高出1.4點(diǎn),這得益于任務(wù)級GRPO的有效應(yīng)用。
特別值得注意的是,通過階段1和階段2的訓(xùn)練,Qwen2.5-VL-3B模型的表現(xiàn)超越了其標(biāo)準(zhǔn)版本,并在多項(xiàng)指標(biāo)上領(lǐng)先于其他基準(zhǔn)模型,突顯了動作級和任務(wù)級獎勵機(jī)制的重要性。

△Stage 3訓(xùn)練的獎勵曲線
此過程中,Stage 3的獎勵分?jǐn)?shù)顯示出在前四個訓(xùn)練步驟中穩(wěn)步增長,表明學(xué)習(xí)過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進(jìn)或探政策的改變導(dǎo)致的不穩(wěn)定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優(yōu)化和改進(jìn)。
Mobile-R1在處理未見應(yīng)用時表現(xiàn)出良好的泛化性,而其他模型在泛化能力上存在挑戰(zhàn)。Mobile-R1的優(yōu)異表現(xiàn)主要?dú)w功于Stage 3的訓(xùn)練,這一階段有效增強(qiáng)了模型的魯棒性和適應(yīng)性。

△魯棒性分析結(jié)果,粗體表示最佳結(jié)果
最后總結(jié),在本文中,Mobile-R1通過在動態(tài)環(huán)境中整合交互式強(qiáng)化學(xué)習(xí)與任務(wù)級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。
通過包括格式微調(diào)、動作級GRPO訓(xùn)練和任務(wù)級GRPO訓(xùn)練在內(nèi)的三階段訓(xùn)練過程,克服了以往方法僅依賴單一動作預(yù)測的局限性。
實(shí)驗(yàn)結(jié)果表明,Mobile-R1在所有指標(biāo)上都超越了所有基準(zhǔn)。此外,團(tuán)隊(duì)計劃全面開源相關(guān)資源以促進(jìn)進(jìn)一步的研究。
論文鏈接:https://arxiv.org/abs/2506.20332
項(xiàng)目主頁:https://mobile-r1.github.io/Mobile-R1/
訓(xùn)練框架參考:https://github.com/alibaba/ROLL/
開源數(shù)據(jù): https://huggingface.co/datasets/PG23/Mobile-R1


































