偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nav id="taf4x"><strong id="taf4x"></strong></nav><var id="taf4x"></var><del id="taf4x"><b id="taf4x"></b></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

極低成本，復(fù)現(xiàn)GPT-4o圖像風(fēng)格化一致性！NUS推出OmniConsistency

2025-06-03 08:26:00

人工智能新聞

我們提出?OmniConsistency，利用配對數(shù)據(jù)復(fù)現(xiàn) GPT-4o 的出色風(fēng)格化一致性，為開源生態(tài)注入接近商業(yè)級的能力。

本文由 NUS ShowLab 主導(dǎo)完成。第一作者宋亦仁為新加坡國立大學(xué) ShowLab@NUS 在讀博士生，研究方向是視覺生成和多模態(tài)，在 CVPR、SIGGRAPH、NeurIPS 等國際頂級會議上發(fā)表多篇研究成果。共同一作劉成為 NUS 重慶研究院四年級本科生，研究方向是視覺生成。項(xiàng)目負(fù)責(zé)作者為該校校長青年教授壽政。

不久前，GPT-4o 的最新圖像風(fēng)格化與編輯能力橫空出世，用吉卜力等風(fēng)格生成的效果令人驚艷，也讓我們清晰看到了開源社區(qū)與商業(yè) API 在圖像風(fēng)格化一致性上的巨大差距。

目前，開源擴(kuò)散模型在 image-to-image 風(fēng)格遷移中普遍面臨一個蹺蹺板困境：要想增強(qiáng)風(fēng)格化效果，往往會犧牲細(xì)節(jié)、結(jié)構(gòu)和語義一致性；而要保持一致性，風(fēng)格表達(dá)則明顯退化。

為了解決這一難題，我們提出 OmniConsistency，利用配對數(shù)據(jù)復(fù)現(xiàn) GPT-4o 的出色風(fēng)格化一致性，為開源生態(tài)注入接近商業(yè)級的能力。

論文標(biāo)題：OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
項(xiàng)目主頁：https://github.com/showlab/OmniConsistency
論文鏈接：https://arxiv.org/abs/2505.18445
Demo 試用鏈接：https://huggingface.co/spaces/yiren98/OmniConsistency

我們的解決方案：OmniConsistency

我們提出 OmniConsistency，一個基于 DiT 的通用一致性增強(qiáng)插件，它可以在保持強(qiáng)烈風(fēng)格化效果的同時，精準(zhǔn)保留輸入圖像的細(xì)節(jié)、語義和結(jié)構(gòu)。

OmniConsistency 的訓(xùn)練僅用了 2600 對 GPT-4o 生成的高質(zhì)量圖像，全流程只用約 500 小時 GPU 算力，成本極低。

OmniConsistency 有哪些亮點(diǎn)？來看三句話總結(jié)：

? 解決風(fēng)格化與一致性之間的蹺蹺板問題

? 即插即用，兼容社區(qū)任意 Flux 底模的風(fēng)格 LoRA

? 輕量高效，效果出色，媲美 GPT-4o

為什么現(xiàn)有方法會出現(xiàn)風(fēng)格退化？

目前各大廠商的 AI 圖生圖業(yè)務(wù)的主流做法是組合風(fēng)格化 LoRA + 一致性插件 + image2image pipeline。在特定風(fēng)格數(shù)據(jù)上微調(diào)得到的風(fēng)格 LoRA 模塊，能夠在文本到圖像（text-to-image, T2I）任務(wù)中實(shí)現(xiàn)高質(zhì)量風(fēng)格圖像生成。一致性模塊（如 ControlNet、IP-Adapter、Redux 等）負(fù)責(zé)在圖像到圖像（image-to-image, I2I）任務(wù)中維持結(jié)構(gòu)、邊緣或姿態(tài)等條件，允許使用更大的去噪強(qiáng)度來獲得更強(qiáng)的風(fēng)格化效果。

問題是，當(dāng)把這兩類模塊組合在一起用時，風(fēng)格模塊要的 “自由發(fā)揮” 和一致性模塊要的 “嚴(yán)謹(jǐn)控制” 彼此掣肘。尤其在 I2I 任務(wù)中，風(fēng)格表達(dá)往往會被削弱，出現(xiàn)明顯的風(fēng)格退化。換句話說，現(xiàn)有方法被困在風(fēng)格化強(qiáng)度和一致性之間的蹺蹺板上，無法兩全。

方法介紹：OmniConsistency 的核心設(shè)計

OmniConsistency 的核心目標(biāo)是打破圖像風(fēng)格化任務(wù)中 “風(fēng)格表達(dá)” 與 “一致性保持” 之間的蹺蹺板困境。為了解決這一問題，我們提出了一種全新的、風(fēng)格 - 一致性解耦學(xué)習(xí)方法，其包括以下三項(xiàng)關(guān)鍵設(shè)計：

1. In-Context 一致性學(xué)習(xí)框架：從數(shù)據(jù)對學(xué)習(xí)

OmniConsistency 創(chuàng)新性地提出了一種基于風(fēng)格化圖像對的一致性學(xué)習(xí)機(jī)制：不是像現(xiàn)有方法那樣先在風(fēng)格結(jié)果上訓(xùn)練 LoRA，再用一致性插件去適配（這往往帶來沖突）；而是直接利用原圖與其高一致性風(fēng)格化結(jié)果的成對關(guān)系，專門學(xué)習(xí)圖像在風(fēng)格遷移中的一致性保持規(guī)律。

具體做法是：將原圖經(jīng)過 VAE 編碼得到的 clean latent token 拼接到 denoise token 上，通過因果注意力機(jī)制引導(dǎo)模型學(xué)習(xí)配對圖像風(fēng)格化前后的一致性。

2. 兩階段風(fēng)格 - 一致性解耦訓(xùn)練策略：穩(wěn)健泛化的關(guān)鍵

為了從訓(xùn)練策略上徹底分離風(fēng)格表達(dá)與一致性保持，我們采用了階段化解耦訓(xùn)練機(jī)制：

第一階段：風(fēng)格學(xué)習(xí)。我們基于 22 種不同的藝術(shù)風(fēng)格，用風(fēng)格化結(jié)果圖為每種風(fēng)格獨(dú)立訓(xùn)練一個 LoRA 模塊，最終構(gòu)建出一個穩(wěn)定的風(fēng)格 LoRA 模塊庫。
第二階段：一致性學(xué)習(xí)。在該階段，我們凍結(jié)所有風(fēng)格 LoRA，用風(fēng)格化前后的配對數(shù)據(jù)訓(xùn)練一個輕量級的一致性模塊（Consistency LoRA）。我們設(shè)計了 LoRA Bank 滾動加載機(jī)制，即訓(xùn)練時動態(tài)輪換風(fēng)格 LoRA 與其對應(yīng)的訓(xùn)練子集。這樣能確保一致性模塊專注于跨風(fēng)格保持結(jié)構(gòu)和語義，而不學(xué)習(xí)任何具體風(fēng)格內(nèi)容。

這種訓(xùn)練解耦策略在保持風(fēng)格表達(dá)能力的同時，極大提升了模型對多風(fēng)格場景下的一致性泛化能力。

3. 模塊化架構(gòu)設(shè)計：即插即用，兼容性強(qiáng)

OmniConsistency 被設(shè)計為一套完全模塊化的插拔系統(tǒng)，兼容性極強(qiáng)：

Plug-and-Play LoRA：一致性模塊專門作用于條件分支，與風(fēng)格 LoRA 使用獨(dú)立 “插槽”，二者在架構(gòu)上無參數(shù)沖突。因此，任何 HuggingFace 社區(qū)風(fēng)格 LoRA 模型均可直接與 OmniConsistency 聯(lián)動，無需修改或重訓(xùn)練。
因果注意力：不同于 Flux 和之前的可控性生成工作，我們將雙向注意力機(jī)制改成 Causal Attention. 我們定義了一個注意力 mask，限制 Condition token 的 Query 和 Noised&Text Token 的 Key 計算注意力。這樣的好處是 Flux 的 Noised&Text 分支上沒有新增可訓(xùn)練的 LoRA 參數(shù)，完全為風(fēng)格化 LoRA 騰出掛載位點(diǎn)。
兼容 EasyControl/ IP-Adapter 等控制信號：由于一致性模塊采用因果注意力 + 條件注入策略，其他控制方法也可無縫集成，互不干擾。

數(shù)據(jù)集構(gòu)建

我們采用 GPT-4o 自動生成了一套高質(zhì)量配對數(shù)據(jù)：設(shè)計 22 種不同風(fēng)格的提示詞，上傳原始圖像，生成對應(yīng)的風(fēng)格化版本，還配上詳細(xì)文本描述。

然后，我們通過人工篩選，剔除了風(fēng)格不一致、細(xì)節(jié)錯誤、姿態(tài)錯位等問題圖，最終精選出 2600 對高質(zhì)量圖像對，涵蓋了動漫、素描、像素畫、水彩、賽博朋克等風(fēng)格。

效果如何？

直接上圖， OmniConsistency 能很好的維持風(fēng)格化前后構(gòu)圖、語義、細(xì)節(jié)一致，對人物面部特征的維持也有一定作用。對多人合影等復(fù)雜場景，很好的維持了人數(shù)、姿勢、性別、種族、年齡，甚至還能維持圖片中的英文文字正確性。

OmniConsistency 對訓(xùn)練階段沒見過的風(fēng)格 LoRA 也有很好的泛化作用。

定量評估

論文構(gòu)建了一個全新數(shù)據(jù)集，包括：22 種風(fēng)格、2600 對高質(zhì)量圖像對，由 GPT-4o 構(gòu)建并進(jìn)行人工篩選。用 100 張復(fù)雜場景測試圖（多人合影、建筑、動物等）作為 benchmark。使用 LibLib 網(wǎng)站上 5 個訓(xùn)練階段未見過的全新風(fēng)格 LoRA ，進(jìn)行定量計算。

采用用多項(xiàng)指標(biāo)全面評估，包括風(fēng)格一致性評估（FID、CMMD、DreamSim、CLIP Image Score、GPT-4o Score）；內(nèi)容一致性評估（DreamSim、CLIP Image Score、GPT-4o 評分）；圖文對齊（CLIP Score）。

總結(jié)

風(fēng)格一致性：FID 和 CMMD 指標(biāo)顯著優(yōu)于基線，風(fēng)格化程度接近 LoRA 文生圖效果。

內(nèi)容一致性：復(fù)雜場景下的細(xì)節(jié)、語義、結(jié)構(gòu)保持能力大幅提升。

泛化能力：在未見過的 LoRA 風(fēng)格上泛化效果出色，顯示出強(qiáng)大的風(fēng)格無關(guān)性。

輕量高效：得益于特征復(fù)用和位置編碼差值技術(shù)，推理顯存與時間開銷相比 Flux text2image pipeline 僅增加約 5%，適合部署到生產(chǎn)環(huán)境。

即插即用、廣泛兼容：模塊化設(shè)計支持與社區(qū) LoRA、EasyControl、IPAdapter 等主流插件無縫集成，無需重訓(xùn)即可使用。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<button id="upm8q"><th id="upm8q"></th></button>

<menuitem id="upm8q"><delect id="upm8q"></delect></menuitem>