偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CVPR 2025｜北大開(kāi)源多模態(tài)驅(qū)動(dòng)的定制化漫畫(huà)生成框架DiffSensei，還有4.3萬(wàn)頁(yè)漫畫(huà)數(shù)據(jù)集

作者：機(jī)器之心 2025-03-10 07:00:00

人工智能新聞

北京大學(xué)、上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)聯(lián)合推出 DiffSensei，首個(gè)結(jié)合多模態(tài)大語(yǔ)言模型（MLLM）與擴(kuò)散模型的定制化漫畫(huà)生成框架。

隨著生成式人工智能技術(shù)（AIGC）的突破，文本到圖像模型在故事可視化領(lǐng)域展現(xiàn)出巨大潛力，但在多角色場(chǎng)景中仍面臨角色一致性差、布局控制難、動(dòng)態(tài)敘事不足等挑戰(zhàn)。

為此，北京大學(xué)、上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)聯(lián)合推出 DiffSensei，首個(gè)結(jié)合多模態(tài)大語(yǔ)言模型（MLLM）與擴(kuò)散模型的定制化漫畫(huà)生成框架。

論文地址：https://arxiv.org/pdf/2412.07589
GitHub 倉(cāng)庫(kù)：https://github.com/jianzongwu/DiffSensei
項(xiàng)目主頁(yè) - https://jianzongwu.github.io/projects/diffsensei/
數(shù)據(jù)鏈接 - https://huggingface.co/datasets/jianzongwu/MangaZero

該框架通過(guò)創(chuàng)新的掩碼交叉注意力機(jī)制與文本兼容的角色適配器，實(shí)現(xiàn)了對(duì)多角色外觀、表情、動(dòng)作的精確控制，并支持對(duì)話布局的靈活編碼。同時(shí)，團(tuán)隊(duì)發(fā)布了首個(gè)專為漫畫(huà)生成設(shè)計(jì)的 MangaZero 數(shù)據(jù)集（含 4.3 萬(wàn)頁(yè)漫畫(huà)與 42.7 萬(wàn)標(biāo)注面板），填補(bǔ)了該領(lǐng)域的數(shù)據(jù)空白。實(shí)驗(yàn)表明，DiffSensei 在角色一致性、文本跟隨能力與圖像質(zhì)量上顯著優(yōu)于現(xiàn)有模型，為漫畫(huà)創(chuàng)作、教育可視化、廣告設(shè)計(jì)等場(chǎng)景提供了高效工具。

團(tuán)隊(duì)公開(kāi)了訓(xùn)練，測(cè)試代碼、預(yù)訓(xùn)練模型及 MangaZero 數(shù)據(jù)集，支持本地部署。開(kāi)發(fā)者可通過(guò) Hugging Face 獲取資源，并利用 Gradio 界面快速體驗(yàn)生成效果。

1.DiffSensei 效果及應(yīng)用

DiffSensei 功能

DiffSensei 生成漫畫(huà)的技術(shù)優(yōu)勢(shì)：

角色一致性：跨面板保持角色特征穩(wěn)定，支持連續(xù)敘事，可根據(jù)文本動(dòng)態(tài)調(diào)整任務(wù)狀態(tài)和動(dòng)作。
布局精準(zhǔn)：通過(guò)掩碼機(jī)制與邊界框標(biāo)注，實(shí)現(xiàn)多角色與對(duì)話框的像素級(jí)定位。
動(dòng)態(tài)適應(yīng)性：MLLM 適配器使角色可依據(jù)文本提示調(diào)整狀態(tài)（如 “憤怒表情” 或 “揮手動(dòng)作”），突破傳統(tǒng)模型的靜態(tài)生成限制。

2.DiffSensei 應(yīng)用場(chǎng)景

真人長(zhǎng)篇故事生成

DiffSensei 真人長(zhǎng)篇故事生成效果

定制漫畫(huà)生成

DiffSensei 定制漫畫(huà)生成效果

更多結(jié)果

DiffSensei 生成整頁(yè)漫畫(huà)結(jié)果，每頁(yè)漫畫(huà)的故事梗概在其上方，更多結(jié)果在項(xiàng)目主頁(yè)

4. 模型框架

DiffSensei 方法框架

DiffSensei 的技術(shù)架構(gòu)以 “動(dòng)態(tài)角色控制” 和 “高效布局生成” 為核心，通過(guò)以下模塊實(shí)現(xiàn)端到端的漫畫(huà)生成：

多模態(tài)特征融合:
結(jié)合 CLIP 圖像編碼器與漫畫(huà)專用編碼器（Magi），提取角色語(yǔ)義特征，避免直接復(fù)制像素細(xì)節(jié)導(dǎo)致的 “粘貼效應(yīng)”。
通過(guò)重采樣模塊將特征壓縮為低維 token，適配擴(kuò)散模型的交叉注意力機(jī)制，增強(qiáng)生成靈活性。
掩碼交叉注意力機(jī)制：復(fù)制擴(kuò)散模型的鍵值矩陣，創(chuàng)建獨(dú)立的角色注意力層，僅允許角色在指定邊界框內(nèi)參與注意力計(jì)算，實(shí)現(xiàn)布局的像素級(jí)控制。
引入對(duì)話布局嵌入，將對(duì)話框位置編碼為可訓(xùn)練的嵌入向量，與噪聲潛在空間融合，支持后期人工文本編輯。
MLLM 驅(qū)動(dòng)的動(dòng)態(tài)適配器：以多模態(tài)大語(yǔ)言模型（如 LLaVA）為核心，接收面板標(biāo)題與源角色特征，生成與文本兼容的目標(biāo)角色特征，動(dòng)態(tài)調(diào)整表情、姿勢(shì)等屬性。訓(xùn)練中結(jié)合語(yǔ)言模型損失（LM Loss）與擴(kuò)散損失，確保生成特征既符合文本語(yǔ)義，又與圖像生成器兼容。
多階段訓(xùn)練優(yōu)化
第一階段：基于 MangaZero 數(shù)據(jù)集訓(xùn)練擴(kuò)散模型，學(xué)習(xí)角色與布局的聯(lián)合生成。
第二階段：凍結(jié)圖像生成器，微調(diào) MLLM 適配器，強(qiáng)化文本驅(qū)動(dòng)的角色動(dòng)態(tài)調(diào)整能力 813，從而適應(yīng)與文本提示對(duì)應(yīng)的源特征。在第一階段使用模型作為圖像生成器，并凍結(jié)其權(quán)重。

5.MangaZero 數(shù)據(jù)集

MangaZero 數(shù)據(jù)集統(tǒng)計(jì)信息

上圖展示了 MangaZero 數(shù)據(jù)集的基本信息，該數(shù)據(jù)集中包含最著名的日本黑白漫畫(huà)系列。圖 a 顯示了所有 48 系列的封面。這些漫畫(huà)系列之所以被選中，主要是因?yàn)樗鼈兊氖軞g迎程度、獨(dú)特的藝術(shù)風(fēng)格和廣泛的人物陣容，為該模型提供了發(fā)展強(qiáng)大而靈活的 IP 保持能力。

圖 b 展示了一些人物和對(duì)話標(biāo)注的示例。

圖 c 描繪了數(shù)據(jù)集中的面板分辨率分布。為了提高清晰度，其中包括三條參考線，分別表示 1024×1024、512×512 和 256×256 的分辨率。大多數(shù)漫畫(huà)畫(huà)板都集中在第二行和第三行周圍，這表明與最近研究中通常強(qiáng)調(diào)的分辨率相比，大多數(shù)畫(huà)板的分辨率相對(duì)較低。這一特性是漫畫(huà)數(shù)據(jù)所固有的，該工作專門針對(duì)漫畫(huà)數(shù)據(jù)。因此，可變分辨率訓(xùn)練對(duì)于有效處理漫畫(huà)數(shù)據(jù)集至關(guān)重要。

MangaZero 數(shù)據(jù)集和同類數(shù)據(jù)集對(duì)比

MangaZero 數(shù)據(jù)集相比同類數(shù)據(jù)，規(guī)模更大，來(lái)源更新，標(biāo)注更豐富，漫畫(huà)以及畫(huà)面分辨率更多樣。與廣為人知的黑白漫畫(huà)數(shù)據(jù)集 Manga109 相比，MangaZero 數(shù)據(jù)集收錄了更多在 2000 年之后出版的漫畫(huà)，這也正是其名稱的由來(lái)。此外，MangaZero 還包含一些 2000 年之前發(fā)行、但并未收錄于 Manga109 的著名作品，例如《哆啦 A 夢(mèng)》（1974 年）。

MangaZero 數(shù)據(jù)集標(biāo)注流程

上圖展示了 MangaDex 數(shù)據(jù)集的構(gòu)建過(guò)程，作者通過(guò)三個(gè)步驟構(gòu)建 MangaZero 數(shù)據(jù)集。

步驟 1 - 從互聯(lián)網(wǎng)中下載一些現(xiàn)有的漫畫(huà)頁(yè)面。
步驟 2 - 使用預(yù)先訓(xùn)練好的模型自主為漫畫(huà)面板添加相關(guān)標(biāo)注。
步驟 3 - 利用人工來(lái)校準(zhǔn)人物 ID 標(biāo)注結(jié)果。

MangaZero 數(shù)據(jù)集應(yīng)用潛力

多 ID 保持，靈活可控的圖片生成訓(xùn)練。漫畫(huà)數(shù)據(jù)天然擁有同一個(gè)人物多個(gè)狀態(tài)的圖像，對(duì)可根據(jù)文本靈活控制人物狀態(tài)的定制化生成訓(xùn)練有很大幫助。
風(fēng)格可控的漫畫(huà)生成。MangaZero 中包含的漫畫(huà)系列多樣且具有代表性，可以在模型結(jié)構(gòu)中增加風(fēng)格定制模塊，實(shí)現(xiàn)畫(huà)風(fēng)可控的漫畫(huà)生成。例如生成龍珠風(fēng)格的柯南。

6. 結(jié)論

DiffSensei 通過(guò)多模態(tài)技術(shù)的深度融合，重新定義了 AI 輔助創(chuàng)作的邊界。其開(kāi)源屬性與行業(yè)適配性，將加速漫畫(huà)生成從實(shí)驗(yàn)工具向產(chǎn)業(yè)級(jí)應(yīng)用的跨越。未來(lái)，研究方向可擴(kuò)展至彩色漫畫(huà)與動(dòng)畫(huà)生成，進(jìn)一步推動(dòng)視覺(jué)敘事技術(shù)的普惠化。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)