手機(jī)「自動(dòng)駕駛」大揭秘!vivo萬(wàn)字綜述探討大模型手機(jī)自動(dòng)化
1. 導(dǎo)言
你是否想過(guò),手機(jī)能像電影鋼鐵俠中的智能管家賈維斯那般,一句話就能順暢自如地完成各種復(fù)雜任務(wù)。
最近國(guó)內(nèi)外的手機(jī)廠商和 AI 公司紛紛發(fā)布了手機(jī) AI 智能體相關(guān)產(chǎn)品,讓曾經(jīng)的幻想逐漸有了可行性。
vivo 作為行業(yè)領(lǐng)跑者,在十月的開(kāi)發(fā)者大會(huì)上推出了其手機(jī)智能體產(chǎn)品 “PhoneGPT",能幫用戶實(shí)現(xiàn)一句話點(diǎn)咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過(guò) AI 實(shí)現(xiàn)電話預(yù)定包廂,被網(wǎng)友們稱作 “i 人救星”。

圖 1 vivo PhoneGPT訂座(藍(lán)心小V對(duì)話或小V主界面下滑探索-智能體廣場(chǎng)體驗(yàn))
與此同時(shí),各大廠家似乎提前約好一樣,都瞄準(zhǔn)了一句話訂咖啡的場(chǎng)景,頗有當(dāng)年喬布斯使用初代 iPhone 訂星巴克的即視感。更有坊間戲稱,今年秋天第一杯咖啡是手機(jī)智能體幫你點(diǎn)的。

圖 2 vivo PhoneGPT訂咖啡(藍(lán)心小V對(duì)話或小V主界面下滑探索-智能體廣場(chǎng)體驗(yàn))
盡管行業(yè)發(fā)展迅速,最近關(guān)于手機(jī) AI 智能體的論文井噴,相關(guān)技術(shù)路線迭代發(fā)展迅速,但這一領(lǐng)域仍缺少系統(tǒng)性的綜述。此次 vivo AI Lab 聯(lián)合香港中文大學(xué) MMLab 等團(tuán)隊(duì)發(fā)布了 “大模型驅(qū)動(dòng)的手機(jī) AI 智能體” 綜述論文,該論文長(zhǎng)達(dá) 48 頁(yè),覆蓋 200 余篇文獻(xiàn),對(duì)基于大模型的手機(jī)自動(dòng)操作智能體相關(guān)技術(shù)展開(kāi)了全面且深入的研究,希望給學(xué)界和產(chǎn)業(yè)界作為參考,共同推進(jìn)行業(yè)發(fā)展。

- 論文標(biāo)題:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
 - 論文地址:https://www.preprints.org/manuscript/202501.0413/v1
 
1.1 研究背景
- 手機(jī) GUI 自動(dòng)化旨在通過(guò)編程模擬人類與手機(jī)界面的交互,以完成復(fù)雜任務(wù),傳統(tǒng)方法包括自動(dòng)化測(cè)試、快捷指令和機(jī)器人流程自動(dòng)化(RPA),但存在通用性、靈活性、維護(hù)成本、意圖理解和屏幕感知等方面的挑戰(zhàn)。
 - 大語(yǔ)言模型(LLM)的出現(xiàn)為手機(jī)自動(dòng)化帶來(lái)了新的范式,基于 LLM 的手機(jī) GUI 智能體能夠理解自然語(yǔ)言指令,感知界面并執(zhí)行任務(wù),有望實(shí)現(xiàn)更智能、自適應(yīng)的自動(dòng)化操作。
 
1.2 研究目的
- 系統(tǒng)總結(jié) LLM 驅(qū)動(dòng)的手機(jī) GUI 智能體的研究成果,包括框架、模型、數(shù)據(jù)集和評(píng)估方法。
 - 分析 LLM 在手機(jī)自動(dòng)化中的應(yīng)用現(xiàn)狀,探討其優(yōu)勢(shì)和面臨的挑戰(zhàn)。
 - 指出未來(lái)研究的方向,為相關(guān)領(lǐng)域的研究人員和從業(yè)者提供參考。
 
1.3 主要貢獻(xiàn)

圖 3 大模型驅(qū)動(dòng)的手機(jī) GUI 智能體文獻(xiàn)分類
- 對(duì) LLM 驅(qū)動(dòng)的手機(jī) GUI 智能體進(jìn)行全面系統(tǒng)的綜述,涵蓋發(fā)展軌跡、核心技術(shù)和應(yīng)用場(chǎng)景。
 - 提出多視角的方法論框架,包括框架設(shè)計(jì)、模型選擇與訓(xùn)練、數(shù)據(jù)集與評(píng)估指標(biāo)。
 - 深入分析 LLM 賦能手機(jī)自動(dòng)化的原因,探討其在自然語(yǔ)言理解、推理和決策等方面的優(yōu)勢(shì)。
 - 介紹和評(píng)估最新進(jìn)展、數(shù)據(jù)集和基準(zhǔn),為研究提供資源支持。
 - 識(shí)別關(guān)鍵挑戰(zhàn)并提出未來(lái)研究的新視角,如數(shù)據(jù)集多樣性、設(shè)備端部署效率和安全問(wèn)題。
 
2. 手機(jī)自動(dòng)化的發(fā)展歷程
2.1 LLM 時(shí)代之前的手機(jī)自動(dòng)化
- 自動(dòng)化測(cè)試:為解決手機(jī)應(yīng)用復(fù)雜度增加帶來(lái)的測(cè)試難題,經(jīng)歷了從隨機(jī)測(cè)試到基于模型的測(cè)試、基于學(xué)習(xí)的測(cè)試,再到強(qiáng)化學(xué)習(xí)測(cè)試的發(fā)展,但仍面臨測(cè)試覆蓋范圍、效率、成本和模型泛化能力等挑戰(zhàn)。
 - 快捷指令:如 Tasker 和 iOS Shortcuts,通過(guò)預(yù)定義規(guī)則或觸發(fā)條件實(shí)現(xiàn)任務(wù)自動(dòng)化,但范圍和靈活性有限。
 - 機(jī)器人流程自動(dòng)化(RPA):在手機(jī)上模擬人類執(zhí)行重復(fù)性任務(wù),但在處理動(dòng)態(tài)界面和腳本更新方面存在困難。
 
2.2 傳統(tǒng)方法的挑戰(zhàn)
- 通用性有限:傳統(tǒng)方法針對(duì)特定應(yīng)用和界面,難以適應(yīng)不同應(yīng)用和動(dòng)態(tài)環(huán)境,缺乏靈活性和上下文適應(yīng)能力。
 - 維護(hù)成本高:編寫(xiě)和維護(hù)自動(dòng)化腳本需要專業(yè)知識(shí),且隨著應(yīng)用更新,腳本需頻繁修改,耗時(shí)費(fèi)力,入門門檻高限制了用戶使用。
 - 意圖理解能力差:基于規(guī)則和腳本的系統(tǒng)只能執(zhí)行預(yù)定義任務(wù),難以理解復(fù)雜自然語(yǔ)言指令,無(wú)法滿足用戶多樣化需求。
 - 屏幕 GUI 感知能力弱:傳統(tǒng)方法難以準(zhǔn)確識(shí)別和交互不同應(yīng)用中的各種 GUI 元素,對(duì)動(dòng)態(tài)內(nèi)容和復(fù)雜界面的處理能力有限。
 
2.3 LLM 推動(dòng)手機(jī)自動(dòng)化

圖 4 大模型驅(qū)動(dòng)的手機(jī) GUI 智能體發(fā)展里程碑
- 發(fā)展歷程與里程碑:LLM 在手機(jī)自動(dòng)化中的應(yīng)用不斷演進(jìn),通過(guò)自然語(yǔ)言理解、多模態(tài)感知和推理決策能力的提升,逐步實(shí)現(xiàn)更復(fù)雜任務(wù)的自動(dòng)化。
 - LLM 解決傳統(tǒng)挑戰(zhàn)的方式
 - 上下文語(yǔ)義理解:從大量文本語(yǔ)料庫(kù)學(xué)習(xí),理解復(fù)雜語(yǔ)言結(jié)構(gòu)和領(lǐng)域知識(shí),準(zhǔn)確解析多步驟命令。
 - 屏幕 GUI 多模態(tài)感知:利用多模態(tài)感知能力,統(tǒng)一文本和視覺(jué)感知信息,實(shí)現(xiàn)對(duì)屏幕元素的準(zhǔn)確定位和交互。
 - 推理和決策制定:基于語(yǔ)言、視覺(jué)上下文和歷史交互進(jìn)行復(fù)雜推理、多步驟規(guī)劃和上下文感知適應(yīng),提高任務(wù)執(zhí)行成功率。
 
2.4 新興商業(yè)應(yīng)用
- Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通過(guò)智能總結(jié)、優(yōu)先級(jí)通知和上下文感知回復(fù)增強(qiáng)通信、生產(chǎn)力和專注功能,保障用戶隱私和安全。
 - vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系統(tǒng)中的個(gè)人 AI 助手,具備自主拆解需求、主動(dòng)規(guī)劃路徑、實(shí)時(shí)環(huán)境識(shí)別和動(dòng)態(tài)反饋決策的能力,能幫用戶實(shí)現(xiàn)一句話點(diǎn)咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館并通過(guò) AI 實(shí)現(xiàn)電話預(yù)定包廂等任務(wù)。
 - Honor YOYO Agent:2024 年 10 月發(fā)布,適應(yīng)用戶習(xí)慣和復(fù)雜指令,通過(guò)語(yǔ)音或文本命令自動(dòng)化多步驟任務(wù),如購(gòu)物比價(jià)、自動(dòng)填表、定制飲品和會(huì)議靜音,提升用戶體驗(yàn)。
 - Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能體能像人類一樣操作計(jì)算機(jī),觀察屏幕、移動(dòng)光標(biāo)、點(diǎn)擊按鈕和輸入文本,改變?nèi)藱C(jī)交互范式。
 - Zhipu.AI AutoGLM:2024 年 10 月推出,通過(guò)簡(jiǎn)單命令模擬人類操作智能手機(jī),如點(diǎn)贊評(píng)論、購(gòu)物、訂票和點(diǎn)餐,能導(dǎo)航界面、解讀視覺(jué)線索并執(zhí)行任務(wù),展示 LLM 驅(qū)動(dòng)的手機(jī)自動(dòng)化在商業(yè)應(yīng)用中的潛力。
 
3. 手機(jī) GUI 智能體框架
3.1 基本框架

圖 5 大模型驅(qū)動(dòng)的手機(jī) GUI 智能體基礎(chǔ)框架
- 感知模塊
 - UI 信息:包括 UI 樹(shù)(如 DroidBot - GPT 將其轉(zhuǎn)換為自然語(yǔ)言句子)、截圖(如 AutoUI 依賴截圖進(jìn)行 GUI 控制)、Set - of - Marks(用于標(biāo)注截圖,如 MM - Navigator)和 Icon & OCR 增強(qiáng)(如 Mobile - Agent - v2 集成 OCR 和圖標(biāo)數(shù)據(jù))。
 - 手機(jī)狀態(tài):如鍵盤(pán)狀態(tài)和位置數(shù)據(jù),用于上下文感知操作。
 - 大腦模塊
 - 存儲(chǔ):包括記憶(如記錄歷史屏幕任務(wù)相關(guān)內(nèi)容)和知識(shí)(來(lái)自預(yù)訓(xùn)練知識(shí)、領(lǐng)域特定訓(xùn)練和知識(shí)注入)。
 - 決策制定:包括規(guī)劃(如 Mobile - Agent - v2 的規(guī)劃智能體生成任務(wù)進(jìn)度)、推理(可以利用 Chain - of - thought 增強(qiáng)推理能力)和反思(如 Mobile - Agent - v2 的反思智能體評(píng)估決策并調(diào)整)。
 - 行動(dòng)模塊:通過(guò)執(zhí)行觸摸交互、手勢(shì)操作、輸入文本、系統(tǒng)操作和媒體控制等類型的動(dòng)作,實(shí)現(xiàn)與手機(jī) UI 和系統(tǒng)功能的交互,確保決策轉(zhuǎn)化為設(shè)備上的實(shí)際操作。
 
3.2 多智能體框架

圖 6 多智能體框架分類
- 角色協(xié)調(diào)多智能體框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多個(gè)具有不同功能的智能體協(xié)作,包括規(guī)劃、決策、記憶管理、反思和工具調(diào)用等,通過(guò)預(yù)定義工作流程共同完成任務(wù)。
 - 基于場(chǎng)景的任務(wù)執(zhí)行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根據(jù)特定任務(wù)場(chǎng)景動(dòng)態(tài)分配任務(wù)給專家智能體,每個(gè)智能體可以具有針對(duì)特定場(chǎng)景(如購(gòu)物、編碼、導(dǎo)航)的能力,提高任務(wù)成功率和效率。
 
3.3 計(jì)劃 - 然后 - 行動(dòng)框架(Plan-Then-Act Framework)
- 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了該框架的有效性,通過(guò)先生成動(dòng)作描述,再根據(jù)動(dòng)作描述定位到要操作的控件位置,提高了任務(wù)執(zhí)行的清晰度、可靠性和適應(yīng)性,允許獨(dú)立改進(jìn)規(guī)劃和 UI 定位模塊。
 
4. 用于手機(jī)自動(dòng)化的大語(yǔ)言模型

圖 7 模型分類
4.1 提示工程(Prompt Engineering)

圖 8 提示詞設(shè)計(jì)
- 純文本提示詞(Text-Based Prompt):主要架構(gòu)為單文本模態(tài) LLM,通過(guò)解釋 UI 樹(shù)信息進(jìn)行決策,如 DroidBot - GPT、Enabling Conversational 等,在不同應(yīng)用中有一定進(jìn)展,但存在對(duì)屏幕的全局信息理解利用不足等問(wèn)題。
 - 多模態(tài)提示詞(Multimodal Prompt):多模態(tài)大語(yǔ)言模型(MLLM)集成視覺(jué)和文本信息,通過(guò)截圖和補(bǔ)充 UI 信息進(jìn)行決策,包括基于 SoM 輸出索引方法(如 MM - Navigator、AppAgent)和直接坐標(biāo)輸出方法(如 VisionTasker、Mobile - Agent 系列),提高了準(zhǔn)確性和魯棒性,但在 UI 定位準(zhǔn)確性方面仍面臨挑戰(zhàn)。
 
4.2 基于訓(xùn)練的方法(Training-Based Methods)
- GUI 任務(wù)專用模型架構(gòu)(Task Specific Model Architectures)
 - 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增強(qiáng)直接 GUI 交互、高分辨率視覺(jué)識(shí)別、全面環(huán)境感知和條件行動(dòng)預(yù)測(cè)能力,以應(yīng)對(duì)不同應(yīng)用和界面的任務(wù)。
 

圖 9 不同的 UI 理解任務(wù)
- 特定領(lǐng)域:專注于屏幕理解任務(wù),包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕問(wèn)答(如 ScreenAI、WebVLN、UI - Hawk),通過(guò)特定技術(shù)提升智能體在復(fù)雜用戶界面中的交互能力。
 - 監(jiān)督微調(diào)(Supervised Fine-Tuning)
 - 通用目的:通過(guò)在特定任務(wù)數(shù)據(jù)集上微調(diào),增強(qiáng)模型在 GUI 定位、OCR、跨應(yīng)用導(dǎo)航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
 - 特定領(lǐng)域:應(yīng)用于特定任務(wù),如 ReALM 解決參考分辨率問(wèn)題,IconDesc 用于生成 UI 圖標(biāo)替代文本,提高了模型在特定領(lǐng)域的性能。
 - 強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
 - 手機(jī)智能體:如 DigiRL、DistRL 和 AutoGLM,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練智能體適應(yīng)動(dòng)態(tài)手機(jī)環(huán)境,提高決策能力和成功率,AutoGLM 還實(shí)現(xiàn)了跨平臺(tái)應(yīng)用。
 - 網(wǎng)頁(yè)智能體:ETO、Agent Q 和 AutoWebGLM 利用強(qiáng)化學(xué)習(xí)使智能體適應(yīng)復(fù)雜網(wǎng)頁(yè)環(huán)境,通過(guò)學(xué)習(xí)交互和改進(jìn)決策,提高在網(wǎng)頁(yè)導(dǎo)航和操作任務(wù)中的性能。
 - Windows 智能體:ScreenAgent 通過(guò)強(qiáng)化學(xué)習(xí)使智能體在 Windows 環(huán)境中與真實(shí)計(jì)算機(jī)屏幕交互,完成多步驟任務(wù),展示了在桌面 GUI 自動(dòng)化中的潛力。
 
5. 數(shù)據(jù)集和基準(zhǔn)
5.1 相關(guān)數(shù)據(jù)集

表1 數(shù)據(jù)集
- 早期數(shù)據(jù)集:如 PixelHelp 將自然語(yǔ)言指令映射到 UI 動(dòng)作,UIBert 通過(guò)預(yù)訓(xùn)練提升 UI 理解,Meta - GUI 收集對(duì)話與 GUI 操作痕跡,UGIF 解決多語(yǔ)言 UI 指令跟隨問(wèn)題,MoTIF 引入任務(wù)可行性和不確定性。
 - 大規(guī)模數(shù)據(jù)集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量設(shè)備交互數(shù)據(jù),GUI Odyssey 用于跨應(yīng)用導(dǎo)航訓(xùn)練和評(píng)估,AndroidControl 研究數(shù)據(jù)規(guī)模對(duì)智能體性能的影響,AMEX 提供詳細(xì)注釋增強(qiáng)智能體對(duì) UI 元素的理解。
 
5.2 基準(zhǔn)

表 2 Benchmarks
- 評(píng)估方法(Evaluation Pipelines):MobileEnv 提供通用訓(xùn)練和評(píng)估平臺(tái),AndroidArena 評(píng)估 LLM 智能體在復(fù)雜 Android 環(huán)境中的性能,LlamaTouch 實(shí)現(xiàn)移動(dòng) UI 任務(wù)的設(shè)備端執(zhí)行和評(píng)估,B - MoCA 評(píng)估不同配置下的移動(dòng)設(shè)備控制智能體,AndroidWorld 提供動(dòng)態(tài)可參數(shù)化任務(wù)環(huán)境,MobileAgentBench 為移動(dòng) LLM 智能體提供高效基準(zhǔn),AUITestAgent 實(shí)現(xiàn)自動(dòng) GUI 測(cè)試,AndroidLab 提供系統(tǒng)框架和基準(zhǔn)。
 - 評(píng)估指標(biāo)(Evaluation Metrics)
 - 任務(wù)完成指標(biāo):如任務(wù)完成率、子目標(biāo)成功率和端到端任務(wù)完成率,評(píng)估智能體完成任務(wù)的有效性。
 - 行動(dòng)執(zhí)行質(zhì)量指標(biāo):包括行動(dòng)準(zhǔn)確性、正確步驟、正確軌跡、操作邏輯和推理準(zhǔn)確性,衡量智能體行動(dòng)的精確性和邏輯性。
 - 資源利用和效率指標(biāo):如資源消耗、步驟效率和反向冗余比,評(píng)估智能體資源利用效率。
 - 任務(wù)理解和推理指標(biāo):如 Oracle 準(zhǔn)確性、點(diǎn)準(zhǔn)確性、推理準(zhǔn)確性和關(guān)鍵信息挖掘能力,考察智能體的理解和推理能力。
 - 格式和合規(guī)性指標(biāo):驗(yàn)證智能體輸出是否符合格式約束。
 - 完成意識(shí)和反思指標(biāo):評(píng)估智能體對(duì)任務(wù)邊界的識(shí)別和學(xué)習(xí)能力。
 - 評(píng)估準(zhǔn)確性和可靠性指標(biāo):確保評(píng)估過(guò)程的一致性和可靠性。
 - 獎(jiǎng)勵(lì)和整體性能指標(biāo):如任務(wù)獎(jiǎng)勵(lì)和平均獎(jiǎng)勵(lì),綜合評(píng)估智能體性能。
 
6. 挑戰(zhàn)與未來(lái)方向
6.1 數(shù)據(jù)集開(kāi)發(fā)與微調(diào)可擴(kuò)展性
- 現(xiàn)有數(shù)據(jù)集缺乏多樣性,未來(lái)需開(kāi)發(fā)大規(guī)模、多模態(tài)且涵蓋廣泛應(yīng)用、用戶行為、語(yǔ)言和設(shè)備類型的數(shù)據(jù)集。
 - 解決微調(diào)在域外性能方面的挑戰(zhàn),探索混合訓(xùn)練方法、無(wú)監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和輔助任務(wù),以減少對(duì)大規(guī)模數(shù)據(jù)的依賴。
 
6.2 輕量級(jí)和高效的設(shè)備端部署
- 克服移動(dòng)設(shè)備在計(jì)算和內(nèi)存方面的限制,采用模型剪枝、量化和高效 transformer 架構(gòu)等方法,如 Octopus v2 和 Lightweight Neural App Control 的創(chuàng)新。
 - 利用專門硬件加速器和邊緣計(jì)算解決方案,減少對(duì)云的依賴,增強(qiáng)隱私保護(hù)并提高響應(yīng)速度。
 
6.3 用戶中心適應(yīng):交互與個(gè)性化
- 提高智能體對(duì)用戶意圖的理解能力,減少手動(dòng)干預(yù),支持語(yǔ)音命令、手勢(shì)和持續(xù)學(xué)習(xí)用戶反饋。
 - 實(shí)現(xiàn)智能體的個(gè)性化適應(yīng),通過(guò)集成多種學(xué)習(xí)技術(shù),使其快速適應(yīng)新任務(wù)和用戶特定上下文,無(wú)需大量重新訓(xùn)練。
 
6.4 模型定位、推理等能力提升
- 改進(jìn)語(yǔ)言指令到 UI 元素的精確映射,集成先進(jìn)視覺(jué)模型、大規(guī)模注釋和有效融合技術(shù),提升多模態(tài)定位能力。
 - 增強(qiáng)智能體在復(fù)雜場(chǎng)景中的推理、長(zhǎng)程規(guī)劃和適應(yīng)性,開(kāi)發(fā)新架構(gòu)、內(nèi)存機(jī)制和推理算法,超越當(dāng)前 LLM 能力。
 
6.5 標(biāo)準(zhǔn)化評(píng)估基準(zhǔn)
- 建立統(tǒng)一的基準(zhǔn),覆蓋多種任務(wù)、應(yīng)用類型和交互模態(tài),提供標(biāo)準(zhǔn)化指標(biāo)、場(chǎng)景和評(píng)估協(xié)議,促進(jìn)公平比較和全面評(píng)估。
 
6.6 確保可靠性和安全性
- 開(kāi)發(fā)強(qiáng)大的安全協(xié)議、錯(cuò)誤處理技術(shù)和隱私保護(hù)方法,防范對(duì)抗攻擊、數(shù)據(jù)泄露和意外行為,保護(hù)用戶信息和信任。
 - 實(shí)施持續(xù)監(jiān)測(cè)和驗(yàn)證過(guò)程,實(shí)時(shí)檢測(cè)和緩解風(fēng)險(xiǎn),確保智能體行為可預(yù)測(cè)、尊重隱私并在各種條件下保持穩(wěn)定性能。
 
7. 總結(jié)
- 綜述了 LLM 驅(qū)動(dòng)的手機(jī)自動(dòng)化技術(shù)發(fā)展,包括多種框架(單智能體、多智能體、計(jì)劃 - 然后 - 行動(dòng))、模型方法(提示工程、基于訓(xùn)練)和數(shù)據(jù)集 / 基準(zhǔn)。
 - 分析了 LLM 在提升手機(jī)自動(dòng)化效率、智能性和適應(yīng)性方面的作用,以及面臨的挑戰(zhàn)和未來(lái)發(fā)展方向。
 - 強(qiáng)調(diào)了標(biāo)準(zhǔn)化基準(zhǔn)和評(píng)估指標(biāo)對(duì)推動(dòng)領(lǐng)域發(fā)展的重要性,有助于公平比較不同模型和方法。
 
展望未來(lái),隨著模型架構(gòu)改進(jìn)、設(shè)備端推理優(yōu)化和多模態(tài)數(shù)據(jù)集成,基于大模型的手機(jī) GUI 智能體有望在復(fù)雜任務(wù)中實(shí)現(xiàn)更高自主性,融合更多 AI 范式,為用戶提供無(wú)縫、個(gè)性化和安全的體驗(yàn)。















 
 
 














 
 
 
 