偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解 精華

發(fā)布于 2024-5-15 09:42
瀏覽
0收藏

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

非常令人激動,騰訊混元文生圖大模型已在 Hugging Face 平臺及 Github 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型。


且不管是企業(yè)還是個人開發(fā)者,全部免費可用。


主頁:https://dit.hunyuan.tencent.com/
代碼:https://github.com/Tencent/HunyuanDiT


國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

下面來詳細介紹下混元大模型的技術(shù)細節(jié),期待國內(nèi)更多大模型能發(fā)布,讓AIGC行業(yè)應(yīng)用全面爆發(fā):


Hunyuan-DiT,這是一種具備細粒度理解能力的文本到圖像擴散transformer,能夠處理中文和英文。為了構(gòu)建Hunyuan-DiT,精心設(shè)計了transformer結(jié)構(gòu)、文本編碼器和位置編碼。此外,還從頭開始建立了完整的數(shù)據(jù)pipeline,以更新和評估數(shù)據(jù),進行迭代的模型優(yōu)化。


為了實現(xiàn)細粒度的語言理解,訓(xùn)練了一種多模態(tài)大語言模型,用于細化圖像的標(biāo)題描述。

最終,Hunyuan-DiT能夠與用戶進行多輪多模態(tài)對話,根據(jù)上下文生成和優(yōu)化圖像。通過我們綜合的人類評估協(xié)議,超過50位專業(yè)評估員參與評估,Hunyuan-DiT在中文到圖像生成方面相比其他開源模型設(shè)立了新的標(biāo)桿。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

介紹

基于擴散的文本生成圖像模型,如DALL-E、Stable Diffusion和Pixart,已經(jīng)展示了生成前所未有質(zhì)量圖像的能力。然而,它們?nèi)狈χ苯永斫庵形奶崾镜哪芰Γ拗屏似湓谥形奈谋咎崾鞠碌膱D像生成潛力。為了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它們的生成質(zhì)量仍需改進。


在本報告中,介紹了構(gòu)建Hunyuan-DiT的完整流程,該模型可以根據(jù)中文和英文提示生成不同分辨率的高質(zhì)量詳細圖像。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

Hunyuan-DiT的貢獻:

  • (1) 設(shè)計了基于擴散transformer的新網(wǎng)絡(luò)架構(gòu)。它結(jié)合了兩個文本編碼器:雙語CLIP和多語言T5編碼器,以提高語言理解能力并增加上下文長度。
  • (2) 從頭構(gòu)建了一個數(shù)據(jù)處理pipeline,用于添加數(shù)據(jù)、過濾數(shù)據(jù)、維護數(shù)據(jù)、更新數(shù)據(jù)并應(yīng)用數(shù)據(jù)來優(yōu)化我們的文本到圖像模型。具體來說,我們設(shè)計了一個稱為“數(shù)據(jù)護航”的迭代過程來檢查新數(shù)據(jù)的有效性。
  • (3) 使用多模態(tài)大語言模型(MLLM)來優(yōu)化圖像-文本數(shù)據(jù)對中的原始標(biāo)題描述。我們的MLLM經(jīng)過微調(diào)以生成具有世界知識的結(jié)構(gòu)化標(biāo)題描述。
  • (4) 使Hunyuan-DiT能夠通過與用戶進行多輪對話來交互地修改其生成內(nèi)容。
  • (5) 我們在推理階段進行后期訓(xùn)練優(yōu)化,以降低Hunyuan-DiT的部署成本。


為了全面評估Hunyuan-DiT的性能,還制定了一個包含50多位專業(yè)評估員的評估協(xié)議。該協(xié)議仔細考慮了文本生成圖像模型的不同維度,包括文本-圖像一致性、AI偽影、主體清晰度、美學(xué)等。評估協(xié)議被納入數(shù)據(jù)護航中以更新生成模型。


Hunyuan-DiT在開源模型中實現(xiàn)了SOTA性能。在中文生成圖像方面,Hunyuan-DiT在文本-圖像一致性、排除AI偽影、主體清晰度和美學(xué)方面優(yōu)于現(xiàn)有開源模型,包括Stable Diffusion 3。在主體清晰度和美學(xué)方面,其表現(xiàn)與頂級閉源模型如DALL-E 3和MidJourney v6相當(dāng)。


在中文元素理解方面,包括古代漢詩和中國菜等類別,Hunyuan-DiT生成的圖像質(zhì)量和語義準確性較其他比較算法更高。Hunyuan-DiT支持長文本理解,最多可達256個token。Hunyuan-DiT可以使用中文和英文文本提示生成圖像。在本報告中,除非另有說明,所有圖像均使用中文提示生成。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

方法

基于擴散transformer的改進生成

Hunyuan-DiT 是一個在潛空間中運行的擴散模型,如下圖7所示。按照潛擴散模型(Latent Diffusion Model),使用預(yù)訓(xùn)練的變分自編碼器(VAE)將圖像壓縮到低維潛空間,并訓(xùn)練一個擴散模型來學(xué)習(xí)數(shù)據(jù)分布。擴散模型通過transformer進行參數(shù)化。為了編碼文本提示,結(jié)合了預(yù)訓(xùn)練的雙語(中文和英文)CLIP和多語言T5編碼器。下面將詳細介紹每個模塊。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

VAE 使用SDXL中的VAE,該模型在512 × 512圖像上進行了微調(diào),基于SD 1.5的VAE。實驗結(jié)果顯示,基于高分辨率SDXL VAE訓(xùn)練的文本到圖像模型在清晰度、過飽和緩解和失真減少方面優(yōu)于SD 1.5 VAE。由于VAE的潛空間極大地影響生成質(zhì)量,將在未來探索更好的VAE訓(xùn)練范式。


國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)


文本編碼器 一個高效的文本編碼器在文本生成圖像過程中至關(guān)重要,因為它們需要準確理解和編碼輸入的文本提示以生成對應(yīng)的圖像。CLIP和 T5已成為這些編碼器的主流選擇。Matryoshka擴散模型、Imagen、MUSE和 Pixart-α僅使用 T5 來增強對輸入文本提示的理解。相比之下,eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 兩種編碼器,以進一步提高其文本理解能力。Hunyuan-DiT 選擇結(jié)合 T5 和 CLIP 進行文本編碼,以利用這兩種模型的優(yōu)勢,從而增強文本生成圖像過程的準確性和多樣性。


位置編碼和多分辨率生成 在視覺transformer中,一種常見的做法是應(yīng)用正弦位置編碼來編碼token的絕對位置。在Hunyuan-DiT中,采用旋轉(zhuǎn)位置embedding(RoPE),同時編碼絕對位置和相對位置依賴性。使用二維RoPE,將RoPE擴展到圖像域。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

  • 擴展位置編碼:擴展位置編碼X以一種簡單的方式給出的位置編碼,即:

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

  • 中心插值位置編碼:使用中心插值位置編碼來對齊不同 h 和 w 的位置編碼。假設(shè) h≥w,中心插值位置編碼計算位置編碼的方式為:

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

盡管擴展位置編碼更易于實現(xiàn),但我們發(fā)現(xiàn)它在多分辨率訓(xùn)練中是次優(yōu)選擇。它無法對齊不同分辨率的圖像,也無法覆蓋 h 和 w 都較大的罕見情況。相反,中心插值位置編碼允許不同分辨率的圖像共享相似的位置編碼空間。使用中心插值位置編碼,模型收斂更快,并能更好地推廣到新分辨率。


提高訓(xùn)練穩(wěn)定性 為了穩(wěn)定訓(xùn)練,提出了三種技術(shù):

  • 在所有注意力模塊中計算Q、K 和 V 之前添加層歸一化。這種技術(shù)被稱為 QK-Norm,提出于[12]。發(fā)現(xiàn)它對 Hunyuan-DiT 的訓(xùn)練也很有效。
  • 在解碼器塊的跳躍模塊之后添加層歸一化,以避免訓(xùn)練過程中損失爆炸。
  • 發(fā)現(xiàn)某些操作(例如層歸一化)在 FP16 下容易溢出。特意將它們切換到 FP32以避免數(shù)值錯誤。

數(shù)據(jù)pipeline

數(shù)據(jù)處理

訓(xùn)練數(shù)據(jù)準備pipeline由四部分組成,如圖20所示:

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

  1. 數(shù)據(jù)獲取:數(shù)據(jù)獲取的主要渠道目前包括外部購買、開放數(shù)據(jù)下載和授權(quán)合作伙伴數(shù)據(jù)。
  2. 數(shù)據(jù)解讀:在獲得原始數(shù)據(jù)后,對數(shù)據(jù)進行打標(biāo)簽以識別其優(yōu)缺點。目前支持的標(biāo)簽?zāi)芰Π▓D像清晰度、美學(xué)、猥褻內(nèi)容、暴力、色情內(nèi)容、水印存在、圖像分類和圖像描述等十多種。
  3. 數(shù)據(jù)分層:數(shù)據(jù)分層是為大批量圖像服務(wù)于模型訓(xùn)練的不同階段而構(gòu)建的。例如,數(shù)十億的圖文對被用作基礎(chǔ)(銅級)數(shù)據(jù)來訓(xùn)練我們的基礎(chǔ)CLIP模型。然后,從這個大庫中篩選出相對高質(zhì)量的圖像集作為銀級數(shù)據(jù),用于訓(xùn)練生成模型,以提高模型的質(zhì)量和理解能力。最后,通過機器篩選和人工標(biāo)注,選擇最高質(zhì)量的數(shù)據(jù)作為金級數(shù)據(jù),用于優(yōu)化和精細化生成模型。
  4. 數(shù)據(jù)應(yīng)用:分層數(shù)據(jù)應(yīng)用于多個領(lǐng)域。專業(yè)數(shù)據(jù)被篩選出來用于專項優(yōu)化,例如人物或風(fēng)格的專業(yè)化。新處理的數(shù)據(jù)不斷加入基礎(chǔ)生成模型的迭代優(yōu)化中。數(shù)據(jù)也經(jīng)常被檢查以保持正在進行的數(shù)據(jù)處理的質(zhì)量。

數(shù)據(jù)類別系統(tǒng)

我們發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中數(shù)據(jù)類別的覆蓋范圍對于訓(xùn)練精確的文本生成圖像模型至關(guān)重要。這里我們討論兩個基本類別:

  1. 主體:主體生成是文本生成圖像模型的基礎(chǔ)能力。訓(xùn)練數(shù)據(jù)涵蓋了大多數(shù)類別,包括人物、風(fēng)景、植物、動物、商品、交通工具、游戲等,擁有超過一萬個子類別。
  2. 風(fēng)格:風(fēng)格的多樣性對用戶的偏好和粘性至關(guān)重要。目前覆蓋了一百多種風(fēng)格,包括動漫、3D、繪畫、寫實和傳統(tǒng)風(fēng)格。

數(shù)據(jù)評估

為了評估引入專業(yè)數(shù)據(jù)或新處理數(shù)據(jù)對生成模型的影響,設(shè)計了一個“數(shù)據(jù)護航”機制,如圖21所示,具體包括:

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

  1. 根據(jù)數(shù)據(jù)類別系統(tǒng)將訓(xùn)練數(shù)據(jù)分類,包含主體、風(fēng)格、場景、構(gòu)圖等。然后我們調(diào)整不同類別之間的分布,以滿足模型的需求,并使用類別平衡的數(shù)據(jù)集微調(diào)模型。
  2. 在類別級別上對比微調(diào)后的模型和原始模型,以評估數(shù)據(jù)的優(yōu)缺點,并據(jù)此確定數(shù)據(jù)更新的方向。

成功運行該機制需要一個完整的文本生成圖像模型評估協(xié)議。我們的模型評估協(xié)議由兩部分組成:

  1. 評估集構(gòu)建:通過結(jié)合壞案例和業(yè)務(wù)需求,根據(jù)我們的數(shù)據(jù)類別構(gòu)建初始評估集。通過人工標(biāo)注測試案例的合理性、邏輯性和全面性,確保評估集的可用性。
  2. 數(shù)據(jù)護航中的評估:在每次數(shù)據(jù)護航中,從評估集中隨機選擇一個子集,形成一個包含主體、風(fēng)格、場景和構(gòu)圖的整體評估子集。計算所有評估維度的總體評分,以輔助數(shù)據(jù)迭代。

細粒度中文理解的標(biāo)題優(yōu)化

從互聯(lián)網(wǎng)上抓取的圖文對通常是低質(zhì)量的,為圖像提供更好的對應(yīng)標(biāo)題對訓(xùn)練文本生成圖像模型非常重要。Hunyuan-DiT 采用訓(xùn)練良好的多模態(tài)大語言模型(MLLM)來重新生成原始圖文對的標(biāo)題,以提高數(shù)據(jù)質(zhì)量。采用結(jié)構(gòu)化標(biāo)題來全面描述圖像。此外,還使用原始標(biāo)題和包含世界知識的專家模型,以便在重新生成標(biāo)題時生成特殊概念。


使用結(jié)構(gòu)化標(biāo)題重新生成標(biāo)題現(xiàn)有的MLLMs,例如 BLIP-2 和 Qwen-VL,往往生成過于簡化的標(biāo)題,這些標(biāo)題類似于 MS-COCO 標(biāo)題或高度冗余且與圖像無關(guān)的標(biāo)題。為了訓(xùn)練適合改進原始圖文對的MLLM,我們構(gòu)建了一個大規(guī)模的結(jié)構(gòu)化標(biāo)題數(shù)據(jù)集,并對MLLM進行了微調(diào)。


我們使用AI輔助pipeline來構(gòu)建數(shù)據(jù)集。人工標(biāo)注圖像標(biāo)題非常困難,且標(biāo)注質(zhì)量難以標(biāo)準化。因此,使用三階段pipeline,通過AI輔助提高標(biāo)注效率。在第一階段,集成多個基本圖像標(biāo)注模型的標(biāo)題,并結(jié)合人工標(biāo)注,獲得初始數(shù)據(jù)集。在第二階段,用初始數(shù)據(jù)集訓(xùn)練MLLM,然后用訓(xùn)練好的模型為圖像生成新標(biāo)題。隨著重新生成標(biāo)題準確性的提高,人工標(biāo)注的效率提高了約4倍。


我們的模型結(jié)構(gòu)類似于LLAVA-1.6,由視覺部分的ViT、語言部分的僅解碼LLM和連接視覺與文本的適配器組成。訓(xùn)練目標(biāo)是與其他自回歸模型相同的分類損失。


通過信息注入重新生成標(biāo)題在人類對結(jié)構(gòu)化標(biāo)題進行標(biāo)注時,世界知識總是缺失的,因為人類不可能識別圖像中的所有特殊概念。我們采用兩種方法將世界知識注入標(biāo)題中:

  1. 通過標(biāo)簽注入重新生成標(biāo)題:為了簡化標(biāo)注過程,可以標(biāo)注圖像的標(biāo)簽,并使用MLLM從標(biāo)注的標(biāo)簽生成包含標(biāo)簽的標(biāo)題。除了由人類專家進行標(biāo)注外,我們還可以使用專家模型獲取標(biāo)簽,包括但不限于通用物體檢測器、地標(biāo)分類模型和動作識別模型。從標(biāo)簽中獲取的附加信息可以顯著增加生成標(biāo)題中的世界知識。為此,我們設(shè)計了一個MLLM,將圖像和標(biāo)簽作為輸入,輸出包含標(biāo)簽信息的更全面的標(biāo)題。我們發(fā)現(xiàn)這個MLLM可以用非常稀疏的人類標(biāo)注數(shù)據(jù)進行訓(xùn)練。
  2. 通過原始標(biāo)題重新生成標(biāo)題:Capsfusion提出了使用ChatGPT融合原始標(biāo)題和生成的描述性標(biāo)題。然而,原始標(biāo)題通常存在噪音,單靠LLM無法糾正原始標(biāo)題中的錯誤信息。為了解決這個問題,我們構(gòu)建了一個MLLM,從圖像和原始標(biāo)題生成標(biāo)題,該模型可以通過考慮圖像信息來糾正錯誤。

多輪對話中的提示增強

理解自然語言指令并與用戶進行多輪交互對于文本到圖像系統(tǒng)至關(guān)重要。它有助于建立一個動態(tài)而迭代的創(chuàng)作過程,逐步將用戶的想法逐步變?yōu)楝F(xiàn)實。在本節(jié)中,我們將詳細介紹如何賦予Hunyuan-DiT執(zhí)行多輪對話和圖像生成的能力。已經(jīng)有許多工作努力為文本到圖像模型配備了使用MLLM的多輪功能,例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。這些模型要么使用MLLM生成文本提示,要么使用文本嵌入來為文本到圖像模型生成文本。我們選擇了第一種選擇,因為生成文本提示更靈活。我們訓(xùn)練MLLM以理解多輪用戶對話并輸出用于圖像生成的新文本提示。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)


主題一致性的保證在多輪文本到圖像中,用戶可能要求AI系統(tǒng)多次編輯特定主題。我們的目標(biāo)是確保跨多個對話輪次生成的主題盡可能保持一致。為了實現(xiàn)這一目標(biāo),我們在對話AI代理的“對話提示”中添加了以下約束條件。對于基于前幾輪生成的圖像進行的圖像生成,轉(zhuǎn)換后的文本提示應(yīng)滿足用戶當(dāng)前的需求,同時盡量少地改變與之前圖像使用的文本提示。此外,在給定對話的推理階段,我們固定了文本到圖像模型的隨機種子。這種方法顯著增加了對話中的主題一致性。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

推理階段的優(yōu)化

工程優(yōu)化將Hunyuan-DiT部署給用戶是昂貴的,我們采用了多種工程優(yōu)化策略來提高推理效率,包括ONNX圖優(yōu)化、內(nèi)核優(yōu)化、運算符融合、預(yù)計算和GPU內(nèi)存重用。


算法加速最近,提出了各種方法來減少基于擴散的文本到圖像模型的推理步驟。我們嘗試將這些方法應(yīng)用于加速Hunyuan-DiT,出現(xiàn)了以下問題:

  1. 訓(xùn)練穩(wěn)定性:觀察到對抗訓(xùn)練往往由于不穩(wěn)定的訓(xùn)練方案而導(dǎo)致崩潰。
  2. 適應(yīng)性:發(fā)現(xiàn)幾種方法導(dǎo)致的模型無法重用預(yù)訓(xùn)練的插件模塊或LoRAs。
  3. 靈活性:在實踐中,潛變一致性模型只適用于低步驟生成。當(dāng)推理步驟的數(shù)量超過一定閾值時,其性能會下降。這種限制阻礙了我們在生成性能和加速之間靈活調(diào)整平衡。
  4. 訓(xùn)練成本:對抗訓(xùn)練引入了額外的模塊來訓(xùn)練鑒別模型,這對額外的GPU內(nèi)存和訓(xùn)練時間需求很大。


考慮到這些問題,我們選擇了漸進蒸餾。它具有穩(wěn)定的訓(xùn)練,并允許在加速比和性能之間平滑地進行權(quán)衡,為我們提供了最便宜和最快的模型加速方式。為了鼓勵學(xué)生模型準確模仿教師模型,我們在訓(xùn)練過程中仔細調(diào)整了優(yōu)化器、無分類器指導(dǎo)和正則化。

評估協(xié)議

評估指標(biāo)

評估維度:在確定評估維度時,參考了現(xiàn)有文獻,并另外邀請了專業(yè)設(shè)計師和普通用戶參與訪談,以確保評估指標(biāo)既具有專業(yè)性又具有實用性。具體來說,在評估我們的文本到圖像模型的能力時,采用了以下四個維度:文本-圖像一致性、AI偽影、主題清晰度和整體美感。對于引起安全問題的結(jié)果(如涉及色情、政治、暴力或流血等),直接token為不可接受。


多輪交互評估:在評估多輪對話交互的能力時,還評估了額外的維度,如指令符合性、主題一致性和多輪提示增強對圖像生成的性能。


評估數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集構(gòu)建將人工生成的測試提示與人類創(chuàng)建的測試提示相結(jié)合,構(gòu)建了一個具有各種難度級別的分層評估數(shù)據(jù)集。具體而言,我們根據(jù)文本提示內(nèi)容的豐富程度、描述元素的數(shù)量(主題、主題修飾語、背景描述、風(fēng)格等)、元素是否常見以及是否包含抽象語義(如詩歌、成語、諺語等)等因素,將評估數(shù)據(jù)集分為三個難度級別 - 簡單、中等和困難。

此外,由于使用人工創(chuàng)建測試提示時存在同質(zhì)性和長期生產(chǎn)周期的問題,我們依賴于LLM來增加測試提示的多樣性和難度,快速迭代提示生成,并減少人工勞動。


評估數(shù)據(jù)集類別和分布在構(gòu)建分層評估數(shù)據(jù)集的過程中,分析了用戶在使用文本到圖像生成模型時使用的文本提示,并結(jié)合用戶訪談和專家設(shè)計師意見,覆蓋了功能應(yīng)用、角色性質(zhì)、中國元素、多輪文本到圖像生成、藝術(shù)風(fēng)格、主題細節(jié)等主要類別。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

不同的類別進一步分為多個層次。例如,“主題細節(jié)”類別進一步細分為動物、植物、車輛和地標(biāo)等子類別。對于每個子類別,我們保持提示數(shù)量超過30。

評估執(zhí)行

評估團隊評估團隊由專業(yè)評估人員組成。他們具有豐富的專業(yè)知識和評估經(jīng)驗,能夠準確執(zhí)行評估任務(wù)并提供深入分析。評估團隊擁有50多名成員。


評估流程評估流程包括兩個階段:評估標(biāo)準培訓(xùn)和多人校正。在評估標(biāo)準培訓(xùn)階段,我們?yōu)樵u估人員提供詳細的培訓(xùn),以確保他們對評估指標(biāo)和工具有清晰的理解。在多人校正階段,讓多名評估人員獨立評估同一組圖像,然后總結(jié)和分析評估結(jié)果,以減輕評估人員之間的主觀偏見。


特別是,評估數(shù)據(jù)集以3級分層方式構(gòu)建,包括8個一級類別和70多個二級類別。對于每個二級類別,我們在評估集中有30 - 50個提示。評估集總共有3000多個提示。具體來說,我們的評估分數(shù)計算步驟如下:


  1. 計算單個提示的結(jié)果:對于每個提示,邀請多名評估人員獨立評估模型生成的圖像。然后,匯總評估人員的評估結(jié)果,并計算認為圖像可接受的評估人員所占的比例。例如,如果有10名評估人員參與,其中7名認為圖像可接受,則該提示的通過率為70%。
  2. 計算二級類別分數(shù):根據(jù)內(nèi)容將提示分類為二級類別。同一二級類別下的每個提示具有相等的權(quán)重。對于同一二級類別下的所有提示,計算其通過率的平均值,以獲得該二級類別的分數(shù)。例如,如果一個二級類別有5個通過率分別為60%、70%、80%、90%和100%的提示,則該二級類別的分數(shù)為(60% + 70% + 80% + 90% + 100%) / 5 = 80%。
  3. 計算一級類別分數(shù):基于二級類別分數(shù),計算一級類別的分數(shù)。對于每個一級類別,取其下屬二級類別分數(shù)的平均值,以獲得一級類別分數(shù)。例如,如果一個一級類別有3個二級類別分別為70%、80%和90%,則該一級類別的分數(shù)為(70% + 80% + 90%) / 3 = 80%。
  4. 計算總體通過率:最后,根據(jù)每個一級類別的權(quán)重計算總體通過率。假設(shè)有3個一級類別,分別為70%、80%和90%,其權(quán)重分別為0.3、0.5和0.2,那么總體通過率將為0.3 ×70% + 0.5 ×80% + 0.2 ×90% = 79%。一級類別的權(quán)重是通過與用戶、設(shè)計師和專家進行仔細討論確定的,如表2所示。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

通過上述過程,我們可以獲得模型在不同類別級別上的通過率,以及總體通過率,從而全面評估模型的性能。


評估結(jié)果分析:在評估后,我們對結(jié)果進行深入分析,包括:

  1. 對不同評估指標(biāo)(文本-圖像一致性、AI偽像、主題清晰度和整體美感)的結(jié)果進行綜合分析,以了解模型在各個方面的表現(xiàn)。
  2. 對模型在不同難度級別任務(wù)上的表現(xiàn)進行比較分析,以了解模型在處理復(fù)雜情景和抽象語義方面的能力。
  3. 確定模型的優(yōu)勢和劣勢,為未來優(yōu)化提供方向。
  4. 與其他最先進的模型進行比較。

評估協(xié)議演進

在評估框架的持續(xù)優(yōu)化中,將考慮以下幾個方面來改進我們的評估協(xié)議以適應(yīng)新的挑戰(zhàn):

  • 引入新的評估維度;
  • 在評估反饋中添加深入分析,例如文本-圖像不一致發(fā)生的地點或扭曲位置的精確token;
  • 動態(tài)調(diào)整評估數(shù)據(jù)集;
  • 利用機器評估來提高評估效率。

結(jié)果

定量評估

與最新技術(shù)的比較 將混沌-DiT與最新技術(shù)的模型進行了比較,包括開源模型(Playground 2.5、PixArt-α、SDXL)和閉源模型(DALL-E 3、SD 3、MidJourney v6)。遵循前面中的評估協(xié)議。所有模型都在四個維度上進行評估,包括文本-圖像一致性、排除AI偽像的能力、主題清晰度和美感。如表1所示,與其他開源模型相比,Hunyuan-DiT在所有四個維度上取得了最佳得分。與閉源模型相比,Hunyuan-DiT在主題清晰度和圖像美感方面可以達到與MidJourney v6和DALL-E 3等SOTA模型類似的性能。就總體通過率而言,Hunyuan-DiT在所有模型中排名第三,優(yōu)于現(xiàn)有的開源替代方案。Hunyuan-DiT總共有15億參數(shù)。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

消融研究

實驗設(shè)置 我們遵循先前研究中的設(shè)置,在MS COCO 256×256驗證數(shù)據(jù)集上使用零樣本Frechet Inception Distance(FID)評估模型的不同變體,通過從驗證集中的提示生成30,000張圖像。還報告了這些生成圖像的平均CLIP分數(shù),以檢查文本提示和圖像之間的對應(yīng)關(guān)系。這些消融研究是在較小的0.7B擴散Transformer上進行的。


跳過模塊的影響 長跳過連接用于在U-Net中的對稱位置的編碼和解碼層之間實現(xiàn)特征融合。我們在Hunyuan-DiT中使用跳過模塊來模仿這種設(shè)計。如圖所示,觀察到去除長跳過連接會增加FID并降低CLIP分數(shù)。


旋轉(zhuǎn)位置編碼(RoPE) 將正弦位置編碼(DiT中的原始位置編碼)與RoPE進行了比較。結(jié)果如圖15所示。我們發(fā)現(xiàn)在大多數(shù)訓(xùn)練階段,RoPE位置編碼的性能優(yōu)于正弦位置編碼。特別是,我們發(fā)現(xiàn)RoPE加速了模型的收斂。我們假設(shè)這是由于RoPE能夠封裝絕對位置信息和相對位置信息。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

我們還評估了在文本特征中包含一維RoPE位置編碼的情況,如圖15所示。我們發(fā)現(xiàn),將RoPE位置編碼添加到文本嵌入中并沒有帶來顯著的收益。文本編碼器我們評估了三種文本編碼方案:

  • 僅使用我們自己的雙語(中英文)CLIP
  • 僅使用多語言T5
  • 同時使用雙語CLIP和多語言T5。


在圖16中,僅使用CLIP編碼器的性能優(yōu)于僅使用多語言T5編碼器。此外,將雙語CLIP編碼器與多語言T5編碼器相結(jié)合,充分利用了CLIP的高效語義捕捉能力和T5的細粒度語義理解優(yōu)勢,導(dǎo)致FID和CLIP分數(shù)顯著提高。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

我們還在圖17中探索了兩種合并CLIP和T5特征的方法:沿通道維度合并和沿長度維度合并。我們發(fā)現(xiàn),沿文本長度維度連接文本編碼器的特征可以獲得更好的性能。我們的假設(shè)是,通過沿文本長度維度連接,模型可以充分利用Transformer的全局注意力機制來聚焦于每個文本槽。這有助于更好地理解和整合T5和CLIP提供的不同維度的語義信息。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

總結(jié)

本報告介紹了構(gòu)建Hunyuan-DiT的整個流程,這是一個具有理解中文和英文能力的文本到圖像模型。報告闡明了Hunyuan-DiT的模型設(shè)計、數(shù)據(jù)處理和評估協(xié)議。通過從不同方面的努力結(jié)合起來,Hunyuan-DiT在開源模型中實現(xiàn)了在中文到圖像生成方面的最佳性能。希望Hunyuan-DiT能成為社區(qū)訓(xùn)練更好的文本到圖像模型的有用參考。

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源!———Hunyuan-DiT技術(shù)報告詳解-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Zhimin Li等


原文鏈接:  ??https://mp.weixin.qq.com/s/aEvVVSx_DC0OOWIlU9uZtA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦