偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像 精華

發(fā)布于 2025-10-15 00:47
瀏覽
0收藏

Hunyuan-PromptEnhancer 是一款基于騰訊混元模型構(gòu)建的提示符重寫工具。它可以在保留原始意圖的同時重構(gòu)輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務(wù)。

  • 保留關(guān)鍵元素(主題/動作/數(shù)量/樣式/布局/關(guān)系/屬性/文本等)的意圖。
  • 鼓勵“總體-細節(jié)-總結(jié)”的敘述,首先描述主要元素,然后描述次要/背景元素,最后以簡潔的風(fēng)格/類型總結(jié)。
  • 具有優(yōu)雅回退的強大輸出解析:優(yōu)先考慮...;如果缺失,則刪除...并提取干凈的文本;否則回退到原始輸入。
  • 可配置推理參數(shù)(溫度、top_p、max_new_tokens)用于平衡確定性和多樣性。

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

PromptEnhancer 能夠根據(jù)用戶提示生成高保真且風(fēng)格多樣的圖像。 該方法以 HunyuanImage 2.1 作為基礎(chǔ) T2I 模型,展現(xiàn)了其在照片級寫實主義、數(shù)字藝術(shù)、抽象幾何以及多語言圖文生成等各個領(lǐng)域的多功能性。示例展示了如何將極少的用戶輸入轉(zhuǎn)化為豐富細致的提示,從而生成高質(zhì)量的視覺輸出,彌合了用戶意圖與模型執(zhí)行之間的差距。

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

相關(guān)鏈接

論文閱讀

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

  • 論文名:PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

文本到圖像 (T2I) 擴散模型的最新進展已展示出在生成高保真圖像方面的卓越能力。然而,這些模型通常難以忠實地呈現(xiàn)復(fù)雜的用戶提示,尤其是在屬性綁定、否定和組合關(guān)系等方面。這導(dǎo)致用戶意圖與生成的輸出之間嚴重不匹配。

為了應(yīng)對這一挑戰(zhàn),論文推出了PromptEnhancer,這是一個新穎且通用的提示重寫框架,它可以增強任何預(yù)訓(xùn)練的 T2I 模型,而無需修改其權(quán)重。與依賴于特定模型微調(diào)或隱式獎勵信號(如 CLIP 分數(shù))的先前方法不同,該框架將重寫器與生成器分離。通過強化學(xué)習(xí)訓(xùn)練思路鏈 (CoT) 重寫器來實現(xiàn)這一點,稱之為 AlignEvaluator 的專用獎勵模型為指導(dǎo)。AlignEvaluator 經(jīng)過訓(xùn)練,可根據(jù) 24 個關(guān)鍵點的系統(tǒng)分類法提供明確且細粒度的反饋,這些分類法源自對常見 T2I 故障模式的全面分析。

通過優(yōu)化 CoT 重寫器以最大化 AlignEvaluator 的獎勵,該框架學(xué)習(xí)生成更適合 T2I 模型解釋的提示。在 HunyuanImage 2.1 模型上進行的大量實驗表明,PromptEnhancer 顯著提升了各種語義和構(gòu)圖挑戰(zhàn)中的圖文對齊效果。此外論文引入了一個全新的高質(zhì)量人類偏好基準(zhǔn),以促進未來該方向的研究。

方法概述

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

PromptEnhancer 兩階段訓(xùn)練框架概述。框架訓(xùn)練一個通用的 Rewriter,以增強預(yù)訓(xùn)練的文本轉(zhuǎn)圖像 (T2I) 模型,而無需改變其權(quán)重。這是通過一個由專門的獎勵模型引導(dǎo)的兩階段過程實現(xiàn)的。

  • 第一階段:SFT 用于重寫器 初始化。CoT 重寫器首先通過監(jiān)督微調(diào) (SFT) 進行初始化。在此階段,模型通過使用標(biāo)準(zhǔn)的下一個標(biāo)記預(yù)測損失對(用戶提示,重新提示)進行訓(xùn)練,學(xué)習(xí)生成結(jié)構(gòu)化的、思路鏈?zhǔn)降捻憫?yīng)。這為后續(xù)的對齊階段奠定了堅實的基礎(chǔ)。
  • 第二階段:使用 GRPO 進行策略對齊。然后,使用基于生成獎勵策略優(yōu)化的強化學(xué)習(xí)循環(huán)對初始化后的重寫器進行優(yōu)化。對于給定的提示,CoT 重寫器會生成多個候選重新提示。這些提示會被輸入到凍結(jié)的 T2I 模型中以生成圖像。然后,對齊評估器會評估每個(圖像,提示)對并提供標(biāo)量獎勵。該獎勵信號會優(yōu)化重寫器的策略,使其生成能夠最大程度地提高圖像與用戶意圖之間一致性的提示。

數(shù)據(jù)管道

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

Rewriter 訓(xùn)練數(shù)據(jù)的構(gòu)建和過濾流程概述。 該流程包括用戶提示模擬、基于 Gemini 的生成、人工參與的選擇以及自動過濾,以確保高質(zhì)量。

數(shù)據(jù)分析

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

數(shù)據(jù)集中評估維度的分布。(a)24 個細粒度關(guān)鍵點的詳細百分比,按降序排列。(b)六個主要超類別的匯總百分比,由其組成關(guān)鍵點的百分比相加計算得出。兩張圖表中,顏色代表超類別,在視覺上將詳細點與其更廣泛的分類聯(lián)系起來。

實驗結(jié)果

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

PromptEnhancer 對 Prompt Following 準(zhǔn)確率影響的定量評估。 該圖展示了在 24 個不同語義類別中,使用和不使用 PromptEnhancer 框架的文本轉(zhuǎn)圖像生成準(zhǔn)確率的比較分析。左側(cè)面板顯示了每個類別的百分點 (pp) 提升,突出顯示了語法理解和構(gòu)圖推理等領(lǐng)域的顯著提升(藍色),以及其他領(lǐng)域的回歸(紅色)。右側(cè)面板直接比較了絕對準(zhǔn)確率得分,展示了基線模型(“不使用 Ours”)與增強模型(“使用 Ours”)的性能。

還在擔(dān)心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風(fēng)格多樣圖像-AI.x社區(qū)

PromptEnhancer 對 Prompt Following 準(zhǔn)確率影響的定量評估。 該圖展示了在 24 個不同語義類別中,使用和不使用 PromptEnhancer 框架的文本轉(zhuǎn)圖像生成準(zhǔn)確率的比較分析。左側(cè)面板顯示了每個類別的百分點 (pp) 提升,突出顯示了語法理解和構(gòu)圖推理等領(lǐng)域的顯著提升(藍色),以及其他領(lǐng)域的回歸(紅色)。右側(cè)面板直接比較了絕對準(zhǔn)確率得分,展示了基線模型(“不使用 Ours”)與增強模型(“使用 Ours”)的性能。

結(jié)論

PromptEnhancer 是一個新穎的框架,旨在幫助文本轉(zhuǎn)圖像 (T2I) 模型更好地理解復(fù)雜的用戶提示。T2I 模型通常難以遵循詳細的指令,導(dǎo)致生成的圖像與用戶的意圖不符。

PromptEnhancer會自動將用戶的初始提示重寫為任何 T2I 模型都能輕松理解的更詳細的提示。關(guān)鍵創(chuàng)新在于一個使用思維鏈 (CoT) 流程的提示重寫器。使用強化學(xué)習(xí)來訓(xùn)練這個重寫器稱之為 AlignEvaluator 的自定義獎勵模型為指導(dǎo)。該評估器針對圖文對齊的 24 個不同方面提供具體的、細粒度的反饋,使重寫器能夠?qū)W習(xí)如何創(chuàng)建高質(zhì)量的提示。

PromptEnhancer框架是通用的,可以與任何預(yù)先訓(xùn)練的 T2I 模型兼容,而無需對其進行修改。實驗表明,PromptEnhancer 在各種挑戰(zhàn)中顯著提高了生成的圖像與用戶提示之間的對齊程度。通過將提示增強任務(wù)與圖像生成任務(wù)分離,該工作提供了一種有效且可擴展的解決方案,以提升 T2I 系統(tǒng)的控制力和準(zhǔn)確性。

本文轉(zhuǎn)載自???AIGC Studio????,作者:AIGC Studio 

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦