偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估

發(fā)布于 2025-8-11 06:20
瀏覽
0收藏

VeriGUI: Verifiable Long-Chain GUI Dataset

2025-08-06||??117

??http://arxiv.org/abs/2508.04026v1???
???https://huggingface.co/papers/2508.04026???
???https://github.com/VeriGUI-Team/VeriGUI??

研究背景與意義

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 問題定義與現(xiàn)狀概述

當(dāng)前自主GUI代理的研究已取得初步成果,主要聚焦于短期任務(wù)和基于結(jié)果的驗證,難以滿足現(xiàn)實中復(fù)雜、長鏈任務(wù)的需求?,F(xiàn)有數(shù)據(jù)集多為短步驟操作,缺乏對多步驟、跨應(yīng)用復(fù)雜流程的支持,且驗證方式多為粗粒度的最終結(jié)果判斷,難以細粒度評估中間步驟的正確性。

  • 挑戰(zhàn)與目標(biāo)闡明

真實GUI任務(wù)要求代理具備長鏈規(guī)劃、多步驟推理和動態(tài)環(huán)境適應(yīng)能力,同時需要高質(zhì)量、多樣化且可驗證的長鏈任務(wù)數(shù)據(jù)集支持訓(xùn)練與評估。本文提出的VeriGUI數(shù)據(jù)集,旨在填補現(xiàn)有數(shù)據(jù)集在長鏈復(fù)雜性和子任務(wù)級可驗證性方面的空白,推動通用GUI代理的發(fā)展。

研究方法與創(chuàng)新

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 技術(shù)描述VeriGUI構(gòu)建了一個涵蓋桌面和網(wǎng)頁環(huán)境的長鏈GUI任務(wù)數(shù)據(jù)集,任務(wù)由4-8個相互依賴的子任務(wù)組成,每個子任務(wù)包含數(shù)百個具體GUI操作。數(shù)據(jù)集支持從任意子任務(wù)開始執(zhí)行,促進多階段、多策略的探索。
  • 創(chuàng)新點突出

a.長鏈復(fù)雜性:任務(wù)設(shè)計涵蓋跨應(yīng)用和網(wǎng)頁的復(fù)雜操作序列,逼近真實工作流的復(fù)雜度。

b.子任務(wù)級可驗證性:不僅驗證最終任務(wù)結(jié)果,還對每個子任務(wù)的完成情況進行二元判定,支持細粒度監(jiān)督和評估。

c.多樣化交互動作統(tǒng)一定義:動作空間涵蓋點擊、輸入、拖拽、滾動等多種GUI操作,兼容多平臺。

d.結(jié)合大語言模型與人工標(biāo)注:采用多階段語言模型生成與人類專家審核相結(jié)合的方法,確保任務(wù)指令的真實性和執(zhí)行軌跡的高質(zhì)量。

  • 理論基礎(chǔ)與對比相較于現(xiàn)有數(shù)據(jù)集,VeriGUI在任務(wù)長度、驗證細粒度和多樣性方面均有顯著提升,支持更復(fù)雜的決策與規(guī)劃能力開發(fā),突破了傳統(tǒng)基于結(jié)果的驗證局限。

實驗設(shè)計與結(jié)果分析

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 實驗設(shè)計采用130個網(wǎng)頁任務(wù)軌跡,評估多種基于不同基礎(chǔ)模型的代理,包括閉源深度研究代理、搜索引擎代理、瀏覽器交互代理及多代理系統(tǒng)。評測指標(biāo)涵蓋任務(wù)成功率(SR)、任務(wù)完成率(CR)和動作效率(AE),并引入基于GPT-4.1的語義評判確保結(jié)果準(zhǔn)確性。
  • 結(jié)果分析

a.整體表現(xiàn)不佳:所有模型平均任務(wù)成功率均低于10%,完成率不超過30%,反映任務(wù)的高難度和當(dāng)前模型在長鏈規(guī)劃、復(fù)雜推理上的不足。

b.基礎(chǔ)模型差異顯著:OpenAI-o3和Gemini-2.5-Pro表現(xiàn)相對較好,顯示其較強的推理和泛化能力;GPT-4系列表現(xiàn)不及預(yù)期,表明高性能模型在復(fù)雜GUI任務(wù)中仍面臨挑戰(zhàn)。

c.交互范式影響明顯:瀏覽器交互代理整體優(yōu)于純文本搜索代理,說明直接操作界面和利用結(jié)構(gòu)信息對任務(wù)完成有顯著幫助。

d.領(lǐng)域差異明顯:藝術(shù)娛樂類任務(wù)成功率和完成率最高,因數(shù)據(jù)結(jié)構(gòu)較為規(guī)范;金融、社會政策等領(lǐng)域較難,信息分散且抽象,增加了任務(wù)復(fù)雜度。

結(jié)論與展望

  • 貢獻總結(jié)本文提出的VeriGUI數(shù)據(jù)集突破了現(xiàn)有GUI任務(wù)數(shù)據(jù)集的短鏈與粗粒度驗證限制,首次實現(xiàn)了長鏈、多子任務(wù)且子任務(wù)可驗證的真實GUI操作數(shù)據(jù)集,推動了通用GUI代理長鏈規(guī)劃與決策能力的研究。
  • 局限分析當(dāng)前版本主要包含網(wǎng)頁任務(wù),桌面任務(wù)數(shù)據(jù)仍在收集中,且實驗僅覆蓋部分基礎(chǔ)模型,未來需擴展更多模型和任務(wù)類型。任務(wù)執(zhí)行環(huán)境的復(fù)雜性和不確定性仍是挑戰(zhàn)。
  • 未來展望未來工作將完善桌面任務(wù)數(shù)據(jù),豐富任務(wù)多樣性,提升數(shù)據(jù)集規(guī)模。結(jié)合強化學(xué)習(xí)和更先進的多模態(tài)模型,提升代理在長鏈復(fù)雜任務(wù)中的規(guī)劃和錯誤恢復(fù)能力。同時,探索更細粒度的評估指標(biāo),促進代理性能的全面提升。

Efficient Agents: Building Effective Agents While Reducing Cost

2025-07-24|OPPO AI Agent Team|??51

??http://arxiv.org/abs/2508.02694v1???
???https://huggingface.co/papers/2508.02694???
???https://github.com/OPPO-PersonalAI/OAgents??

研究背景與意義

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 研究背景:隨著大型語言模型(LLM)驅(qū)動的智能代理在復(fù)雜多步驟任務(wù)中的卓越表現(xiàn),其高昂的計算成本成為制約規(guī)?;推占暗钠款i。當(dāng)前研究多聚焦于提升模型性能,鮮有系統(tǒng)性地探討性能與效率的權(quán)衡,尤其是在代理系統(tǒng)層面的優(yōu)化尚處于初步階段。
  • 研究意義:本文首次系統(tǒng)地分析現(xiàn)代智能代理系統(tǒng)中效率與效果的權(quán)衡,深入剖析不同組件(如LLM骨干模型、代理框架設(shè)計、測試時擴展策略)對成本與性能的影響。研究旨在為設(shè)計經(jīng)濟高效且性能優(yōu)異的智能代理提供理論依據(jù)和實踐指導(dǎo),推動AI技術(shù)的可持續(xù)發(fā)展和廣泛應(yīng)用。

研究方法與創(chuàng)新

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 技術(shù)描述:研究基于GAIA基準(zhǔn),采用“cost-of-pass”指標(biāo)衡量代理系統(tǒng)在完成任務(wù)時的經(jīng)濟效率。通過對比不同LLM骨干模型(包括GPT-4.1、Claude 3.7 Sonnet、Qwen系列等)、代理框架設(shè)計(規(guī)劃模塊、工具使用、記憶機制)及測試時擴展策略(Best-of-N等),系統(tǒng)評估各因素對性能和成本的影響。
  • 創(chuàng)新點

a.系統(tǒng)性效率-效果權(quán)衡分析:首次全面解構(gòu)代理系統(tǒng)各組成部分的成本貢獻與性能提升,揭示復(fù)雜度與收益遞減的臨界點。

b.高效代理框架設(shè)計(Efficient Agents):基于實證研究結(jié)果,提出一種任務(wù)自適應(yīng)的代理框架,合理配置組件以實現(xiàn)性能與成本的最優(yōu)平衡。

c.實證驗證:在GAIA基準(zhǔn)上,Efficient Agents實現(xiàn)了96.7%的OWL框架性能,同時將成本降低28.4%,顯著提升經(jīng)濟效益。

  • 理論基礎(chǔ):研究結(jié)合了系統(tǒng)2推理理論、鏈?zhǔn)剿季S(Chain-of-Thought)機制及經(jīng)濟學(xué)中的成本效益分析,融合了強化學(xué)習(xí)和稀疏激活模型架構(gòu)的最新進展,構(gòu)建了多維度的效率評價體系。
  • 優(yōu)勢對比:與現(xiàn)有高性能但成本巨大的代理系統(tǒng)相比,Efficient Agents通過精簡規(guī)劃步驟、合理選擇骨干模型、優(yōu)化工具調(diào)用和記憶策略,有效避免了“過度思考”和資源浪費,兼顧了性能與可持續(xù)性。

實驗設(shè)計與結(jié)果分析

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 實驗設(shè)計

a.采用GAIA基準(zhǔn)測試復(fù)雜推理任務(wù),逐項替換和調(diào)節(jié)骨干模型、規(guī)劃步數(shù)、工具使用策略和記憶機制。

b.評估指標(biāo)包括準(zhǔn)確率(pass@1)、token消耗量、實際成本和cost-of-pass。

c.控制變量法確保單因素影響的準(zhǔn)確測量。

  • 結(jié)果分析

a.骨干模型選擇:高性能模型(如Claude 3.7 Sonnet)雖準(zhǔn)確率高,但成本顯著上升,稀疏模型(Qwen3-30B-A3B)則在簡單任務(wù)中表現(xiàn)出色,成本低廉。

b.測試時擴展策略:Best-of-N策略雖略增準(zhǔn)確率,但成本呈指數(shù)增長,收益遞減明顯。

c.規(guī)劃模塊:增加最大規(guī)劃步數(shù)提升性能,但成本隨之大幅上升,存在最優(yōu)規(guī)劃步數(shù)區(qū)間。

d.工具使用:多源搜索和簡化瀏覽操作提高效率與效果,復(fù)雜瀏覽操作反而增加成本。

e.記憶機制:簡單記憶設(shè)計(僅保留觀察和動作)既節(jié)約成本又提升性能,復(fù)雜記憶策略反而帶來額外負擔(dān)。

  • 多場景表現(xiàn):各組件在不同難度任務(wù)(GAIA Level 1-3)中表現(xiàn)差異明顯,復(fù)雜任務(wù)對成本敏感度更高,強調(diào)了任務(wù)適應(yīng)性設(shè)計的重要性。

結(jié)論與展望

  • 總結(jié)貢獻:本文首次系統(tǒng)揭示了LLM驅(qū)動代理系統(tǒng)中各模塊對性能和經(jīng)濟成本的影響,提出了基于實證分析的Efficient Agents框架,實現(xiàn)了性能與成本的最佳權(quán)衡,推動了智能代理系統(tǒng)的可持續(xù)發(fā)展。
  • 局限分析:當(dāng)前研究主要聚焦于GAIA基準(zhǔn)和特定代理組件,未來需拓展至更多實際應(yīng)用場景和多模態(tài)任務(wù),進一步驗證框架的泛化能力。
  • 方法展望

a.任務(wù)自適應(yīng)復(fù)雜度調(diào)節(jié):未來可探索動態(tài)調(diào)整代理復(fù)雜度以匹配任務(wù)需求,進一步優(yōu)化資源分配。

b.多代理協(xié)作與通信優(yōu)化:減少通信冗余,提升多代理系統(tǒng)整體效率。

c.能耗與環(huán)境影響評估:結(jié)合綠色AI理念,設(shè)計更環(huán)保的智能代理系統(tǒng)。

d.集成更豐富的工具與記憶機制:提升代理的環(huán)境適應(yīng)性和長期學(xué)習(xí)能力。

本研究為智能代理領(lǐng)域提供了系統(tǒng)性的效率優(yōu)化方案,期待未來在理論深化和實際部署中得到更廣泛的應(yīng)用與發(fā)展。

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-06|SJTU, Shanghai AI Lab, CUHK|??37

??http://arxiv.org/abs/2508.04700v1???
???https://huggingface.co/papers/2508.04700???
???https://github.com/SunzeY/SEAgent??

研究背景與意義

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  1. 問題定義與現(xiàn)狀概述隨著大型視覺語言模型(LVLMs)的迅速發(fā)展,計算機使用代理(CUAs)應(yīng)運而生,具備了基于視覺輸入操作計算機的能力。然而,現(xiàn)有CUAs高度依賴昂貴的人類標(biāo)注數(shù)據(jù),難以適應(yīng)新穎或?qū)I(yè)的軟件環(huán)境,尤其在缺乏人工注釋的場景下表現(xiàn)不佳。
  2. 挑戰(zhàn)與目標(biāo)闡述主要挑戰(zhàn)包括:如何在陌生軟件環(huán)境中自動生成可執(zhí)行任務(wù),以及如何準(zhǔn)確評估任務(wù)的完成情況和定位失敗步驟。本文旨在設(shè)計一種自主演化框架,使CUAs能夠通過自主探索和經(jīng)驗學(xué)習(xí),擺脫對人工監(jiān)督的依賴,實現(xiàn)對新軟件的高效掌握。
  3. 研究意義該研究推動了從依賴人類標(biāo)注向經(jīng)驗驅(qū)動的智能代理轉(zhuǎn)變,開辟了CUA自主適應(yīng)和持續(xù)演化的新路徑,對提升智能代理的通用性和實用性具有重要意義。

研究方法與創(chuàng)新

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  1. 核心架構(gòu)設(shè)計SEAgent框架由三大核心組件構(gòu)成:
  • Actor模型:執(zhí)行任務(wù)指令,進行探索性操作。
  • World State模型:基于LVLM,負責(zé)環(huán)境狀態(tài)描述與任務(wù)執(zhí)行軌跡的逐步評估,提供細粒度的獎勵信號。
  • Curriculum Generator:利用大型語言模型自動生成任務(wù),構(gòu)建逐步遞進的學(xué)習(xí)課程,并維護動態(tài)更新的軟件指南。
  1. 自主演化的課程學(xué)習(xí)范式通過多階段迭代,系統(tǒng)從基礎(chǔ)任務(wù)開始,依據(jù)Actor模型的能力和任務(wù)完成情況,自動生成更復(fù)雜多樣的任務(wù),實現(xiàn)任務(wù)集的自我進化。此過程無需人工干預(yù),形成閉環(huán)的自適應(yīng)訓(xùn)練機制。
  2. 強化學(xué)習(xí)策略創(chuàng)新
  • 獎勵模型改進:World State模型對整個操作軌跡進行綜合分析,提供精確的步驟級獎勵,顯著優(yōu)于傳統(tǒng)僅依賴最終狀態(tài)的獎勵機制。
  • 對失敗動作的對抗模仿:通過最大化策略與失敗動作的差異,顯式懲罰錯誤行為,提升探索效率。
  • **Group Relative Policy Optimization (GRPO)**:基于驗證獎勵計算相對優(yōu)勢,促進策略優(yōu)化,支持多樣化自由形式的推理和規(guī)劃。
  1. 專家到通用者的訓(xùn)練策略先分別訓(xùn)練針對單一軟件的專家模型,再通過監(jiān)督微調(diào)整合成功軌跡,最終在多軟件環(huán)境中進行強化學(xué)習(xí)微調(diào),獲得性能超越單一專家集成的通用模型,解決了直接訓(xùn)練通用模型性能不佳的問題。
  2. 理論基礎(chǔ)與對比分析SEAgent結(jié)合了強化學(xué)習(xí)、模仿學(xué)習(xí)和課程學(xué)習(xí)的優(yōu)勢,創(chuàng)新性地設(shè)計了獎勵和任務(wù)生成機制,顯著提升了CUA在新軟件環(huán)境中的自適應(yīng)能力,優(yōu)于傳統(tǒng)依賴靜態(tài)數(shù)據(jù)和單一獎勵信號的方法。

實驗設(shè)計與結(jié)果分析

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  1. 實驗環(huán)境與基線選用五款專業(yè)辦公軟件(如VSCode、GIMP、Impress等)作為測試環(huán)境,基線包括UI-TARS、DigiRL、WebRL等開源CUA模型及大型商業(yè)模型(GPT-4o、Gemini等)。
  2. 獎勵模型評估World State模型在AgentRewardBench和OS-World數(shù)據(jù)集上進行評測,表現(xiàn)出較高的精準(zhǔn)率和負預(yù)測值,尤其在考慮完整操作軌跡的條件下,顯著優(yōu)于其他開源模型,且接近GPT-4o水平,保證了訓(xùn)練中獎勵信號的準(zhǔn)確性和穩(wěn)定性。
  3. 自我演化訓(xùn)練過程采用三階段迭代訓(xùn)練,課程生成器自動升級任務(wù)復(fù)雜度,Actor模型不斷通過強化學(xué)習(xí)優(yōu)化策略。實驗顯示,成功率從初始的11.3%提升至32.2%(專家模型),進一步通過專家到通用者策略提升至34.5%。
  4. 專家與通用模型對比通用模型在多軟件環(huán)境中表現(xiàn)超越單個專家模型的集成,驗證了專家到通用者訓(xùn)練策略的有效性。相比直接訓(xùn)練通用模型,專家先行訓(xùn)練顯著提升了學(xué)習(xí)效率和最終性能。
  5. 消融實驗證明了World State模型作為獎勵信號生成器的關(guān)鍵作用,以及強化學(xué)習(xí)框架中對抗模仿和GRPO策略對性能提升的貢獻,強調(diào)了從失敗和成功中學(xué)習(xí)的重要性。

結(jié)論與展望

  1. 研究貢獻總結(jié)本文提出了SEAgent,一種基于自主探索和經(jīng)驗學(xué)習(xí)的計算機使用代理框架,核心創(chuàng)新包括細粒度軌跡評估的World State模型、自適應(yīng)課程生成機制和專家到通用者的訓(xùn)練策略。實驗驗證了其在多種專業(yè)軟件環(huán)境下顯著提升CUA性能的能力。
  2. 局限性分析
  • 當(dāng)前獎勵信號依賴于World State模型的評估,尚未實現(xiàn)與真實環(huán)境的直接反饋結(jié)合。
  • 任務(wù)復(fù)雜度和持續(xù)時間仍有限,尚未覆蓋人類專家長時間、多步驟的復(fù)雜工作流程。
  1. 未來研究方向
  • 探索更豐富和真實的獎勵信號來源,提升環(huán)境交互的真實感和反饋質(zhì)量。
  • 擴展系統(tǒng)以支持更長時序、更復(fù)雜的任務(wù),適應(yīng)真實世界中專業(yè)軟件的復(fù)雜操作需求。
  • 探討該框架在游戲和實體機器人等其他智能體系統(tǒng)中的應(yīng)用潛力,推動智能代理的跨領(lǐng)域發(fā)展。

HPSv3: Towards Wide-Spectrum Human Preference Score

2025-08-05|MizzenAI, CUHK MMLab, KCL, Shanghai AI Lab, CPII|ICCV 2025|??12

??http://arxiv.org/abs/2508.03789v1???
???https://huggingface.co/papers/2508.03789???
???https://mizzenai.github.io/HPSv3.project/??

研究背景與意義

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 背景概述:隨著文本到圖像生成模型的快速發(fā)展,評估這些模型的質(zhì)量越來越依賴于與人類主觀感知高度一致的指標(biāo)?,F(xiàn)有的人類偏好評估指標(biāo)如HPS、ImageReward、PickScore等,雖然引入了人類反饋,但在數(shù)據(jù)覆蓋范圍、特征提取能力和訓(xùn)練方法等方面存在局限,難以全面反映多樣化生成模型的表現(xiàn)。
  • 問題定義:當(dāng)前評估方法受限于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,主要集中在擴散模型生成的圖像,缺乏對最新模型及高質(zhì)量真實圖像的覆蓋,且缺乏對注釋不確定性的有效建模,導(dǎo)致偏好預(yù)測準(zhǔn)確性不足。
  • 研究目標(biāo):本研究旨在構(gòu)建一個覆蓋更廣泛模型類型和圖像質(zhì)量范圍的“寬頻譜”人類偏好數(shù)據(jù)集(HPDv3),并基于此設(shè)計一個基于視覺語言模型(VLM)且引入不確定性感知的排序損失函數(shù)的偏好評分模型(HPSv3),以提升人類偏好預(yù)測的準(zhǔn)確性和泛化能力。同時,提出一種基于人類偏好的鏈?zhǔn)酵评淼鷥?yōu)化方法(CoHP),用于改進圖像生成質(zhì)量。

研究方法與創(chuàng)新

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 數(shù)據(jù)集構(gòu)建:HPDv3集成了1.08百萬文本-圖像對和1.17百萬對圖像偏好注釋,涵蓋了包括GAN、擴散和自回歸等16種生成模型的輸出,以及高質(zhì)量真實攝影圖像。數(shù)據(jù)來源多樣,包括用戶生成的Midjourney圖像、互聯(lián)網(wǎng)真實照片(通過VLM自動生成描述)、以及多個文本提示類別,保證了數(shù)據(jù)的廣泛性和多樣性。注釋過程嚴(yán)格,采用9至19名專業(yè)注釋員進行多重標(biāo)注,確保超過76.5%的高一致性,顯著優(yōu)于前代數(shù)據(jù)集。
  • 偏好評分模型設(shè)計:HPSv3采用Qwen2-VL視覺語言模型作為骨干,提取圖像和文本的多模態(tài)特征,并通過多層感知機(MLP)進行偏好評分映射。創(chuàng)新性地引入了不確定性感知的排序損失,將評分視為高斯分布,建模注釋中的不確定性,有效緩解了標(biāo)注噪聲帶來的影響,提升了模型對細微偏好差異的識別能力。
  • 迭代推理優(yōu)化框架(CoHP):CoHP基于HPSv3作為獎勵模型,設(shè)計了兩階段的迭代篩選機制——模型級選擇階段通過多輪評分選出最優(yōu)生成模型,樣本級選擇階段則迭代優(yōu)化單個提示下生成圖像的細節(jié)和語義一致性。該方法無需額外訓(xùn)練數(shù)據(jù),利用鏈?zhǔn)酵评硭枷胂到y(tǒng)性提升生成圖像的整體質(zhì)量和人類偏好匹配度。

實驗設(shè)計與結(jié)果分析

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

可驗證GUI數(shù)據(jù)集;智能體調(diào)用中的經(jīng)濟效率平衡;自我進化的GUI智能體,從經(jīng)驗學(xué)習(xí);寬頻譜人類圖片偏好評估-AI.x社區(qū)

  • 實驗設(shè)計:構(gòu)建包含12,000條提示的HPDv3基準(zhǔn)測試集,涵蓋多種圖像類別和模型生成的圖像。采用11個主流生成模型生成圖像,并使用HPSv3及其他主流偏好模型進行評分比較。訓(xùn)練HPSv3時,使用1.5百萬高置信度的注釋對,訓(xùn)練參數(shù)充分,采用448×448分辨率輸入。
  • 結(jié)果分析

a.在模型排名任務(wù)中,HPSv3與人類偏好具有最高的相關(guān)性(Spearman r=0.94,Kendall τ=0.82),明顯優(yōu)于HPSv2、PickScore和ImageReward,體現(xiàn)了其卓越的判別能力和泛化性。

b.在多數(shù)據(jù)集偏好預(yù)測準(zhǔn)確率測試中,HPSv3分別在PickScore、HPDv2和HPDv3測試集上達到72.8%、85.4%和76.9%的準(zhǔn)確率,領(lǐng)先其他模型顯著,且在更具挑戰(zhàn)性的HPDv3數(shù)據(jù)集上表現(xiàn)尤為穩(wěn)定。

c.消融實驗表明,采用Qwen2VL-7B骨干和不確定性感知排序損失顯著提升性能,較CLIP和較小骨干模型分別提升10%以上準(zhǔn)確率,驗證了方法設(shè)計的有效性。

d.CoHP框架實驗顯示,通過4輪模型選擇和樣本選擇迭代,生成圖像的HPSv3評分持續(xù)提升,圖像質(zhì)量和語義一致性顯著增強,優(yōu)于基于其他偏好模型的迭代方法。

e.用戶研究進一步證實CoHP-HPSv3生成的圖像在真實人類評估中具有更高的偏好得分,勝率遠超其他方法。

結(jié)論與展望

  • 研究貢獻總結(jié):本研究成功構(gòu)建了首個覆蓋廣泛模型和圖像質(zhì)量范圍的寬頻譜人類偏好數(shù)據(jù)集HPDv3,極大豐富了文本到圖像生成評估的數(shù)據(jù)基礎(chǔ)?;谠摂?shù)據(jù)集,提出的HPSv3模型利用VLM強大特征表達和不確定性感知排序損失,實現(xiàn)了對人類偏好的精準(zhǔn)建模,顯著優(yōu)于現(xiàn)有方法。進一步,CoHP推理框架創(chuàng)新性地將偏好評分應(yīng)用于生成過程的迭代優(yōu)化,提升了圖像生成的整體質(zhì)量和人類滿意度。
  • 局限性分析:盡管HPDv3數(shù)據(jù)集規(guī)模龐大且多樣,但仍依賴人工注釋,存在成本和時間限制。HPSv3模型雖提升了偏好預(yù)測準(zhǔn)確性,但在極端復(fù)雜語義或風(fēng)格上仍有提升空間。CoHP方法的迭代過程增加了生成計算開銷,實際應(yīng)用需權(quán)衡效率與質(zhì)量。
  • 未來展望:未來可探索結(jié)合更大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,進一步提升偏好模型的泛化能力和細粒度識別能力。同時,可研究自動化注釋策略降低人工成本,擴展數(shù)據(jù)集多樣性。CoHP框架可與生成模型的訓(xùn)練過程深度融合,實現(xiàn)端到端的偏好驅(qū)動生成優(yōu)化。此外,拓展該方法至視頻、三維等多模態(tài)生成領(lǐng)域,推動人類偏好對生成內(nèi)容的全面引導(dǎo)。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇


已于2025-8-11 09:57:31修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄