廈門(mén)大學(xué)聯(lián)合網(wǎng)易提出StoryWeaver,可根據(jù)統(tǒng)一模型內(nèi)給定的角色實(shí)現(xiàn)高質(zhì)量的故事可視化
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
廈門(mén)大學(xué)聯(lián)合網(wǎng)易提出StoryWeaver,可以根據(jù)統(tǒng)一模型內(nèi)給定的角色實(shí)現(xiàn)高質(zhì)量的故事可視化??筛鶕?jù)故事文本生成與之匹配的圖像,并且確保每個(gè)角色在不同的場(chǎng)景中保持一致。本文的方法主要包括以下幾個(gè)步驟:
- 1. 角色圖構(gòu)建:設(shè)計(jì)一個(gè)角色圖(CG),將故事中的角色、事件和屬性節(jié)點(diǎn)結(jié)構(gòu)化表示。角色作為對(duì)象節(jié)點(diǎn),屬性節(jié)點(diǎn)則附加在角色上,角色之間的關(guān)系通過(guò)邊連接,形成一個(gè)全面的知識(shí)網(wǎng)絡(luò)。
- 2. 定制化生成:通過(guò)角色圖(C-CG)進(jìn)行定制化,生成詳細(xì)的場(chǎng)景描述,捕捉角色的細(xì)節(jié)和它們之間的互動(dòng)。使用視覺(jué)語(yǔ)言模型(VLM)提取圖像的豐富語(yǔ)義信息,并通過(guò)場(chǎng)景圖解析器提取事件相關(guān)的語(yǔ)義。
- 3. 知識(shí)增強(qiáng)的空間引導(dǎo):在交叉注意力機(jī)制中引入知識(shí)增強(qiáng)的空間引導(dǎo),以修改注意力圖,確保角色在生成過(guò)程中的一致性。通過(guò)分配外部知識(shí)來(lái)優(yōu)化角色在圖像中的位置和關(guān)系,從而改善多角色生成的質(zhì)量。
StoryWeaver 可以根據(jù)統(tǒng)一模型內(nèi)給定的角色實(shí)現(xiàn)高質(zhì)量的故事可視化。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.07375v2
- 主頁(yè):https://github.com/Aria-Zhangjl/StoryWeaver
論文閱讀
StoryWeaver:知識(shí)增強(qiáng)型故事角色定制的統(tǒng)一世界模型
摘要
故事可視化在人工智能領(lǐng)域越來(lái)越受到關(guān)注。然而,現(xiàn)有的方法仍然難以在角色身份保存和文本語(yǔ)義對(duì)齊之間保持平衡,這主要是由于缺乏對(duì)故事場(chǎng)景的詳細(xì)語(yǔ)義建模。
為了應(yīng)對(duì)這一挑戰(zhàn),論文提出了一種新的知識(shí)圖譜即角色圖譜(CG),它全面代表了各種與故事相關(guān)的知識(shí),包括角色、與角色相關(guān)的屬性以及角色之間的關(guān)系。然后介紹了StoryWeaver,這是一個(gè)通過(guò)角色圖譜 (CCG) 實(shí)現(xiàn)定制的圖像生成器,能夠?qū)崿F(xiàn)具有豐富文本語(yǔ)義的一致故事可視化。為了進(jìn)一步提高多角色生成性能,論文將知識(shí)增強(qiáng)空間引導(dǎo) (KE-SG) 結(jié)合到 StoryWeaver 中,以精確地將角色語(yǔ)義注入生成中。
為了驗(yàn)證提出方法的有效性,文中使用一個(gè)名為 TBC-Bench 的新基準(zhǔn)進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)證實(shí) StoryWeaver 不僅擅長(zhǎng)創(chuàng)造生動(dòng)的視覺(jué)故事情節(jié),而且還擅長(zhǎng)在各種場(chǎng)景中準(zhǔn)確傳達(dá)人物身份,并且具有相當(dāng)高的存儲(chǔ)效率,例如,DINO-I 平均提升了 9.03%,CLIP-T 平均提升了 13.44%。此外,還進(jìn)行了消融實(shí)驗(yàn)以驗(yàn)證所提模塊的優(yōu)越性。
方法
StoryWeaver 的整體框架。
a. 論文提出 Character-Graph 來(lái)表示故事世界中的語(yǔ)義豐富知識(shí)。
b. 通過(guò)提出的空間指導(dǎo)增強(qiáng)了 StoryWeaver,以進(jìn)一步提高多角色生成的性能
通過(guò)字符圖 (C-CG) 和知識(shí)增強(qiáng)空間引導(dǎo) (KE-SG) 進(jìn)行定制的影響的視覺(jué)示例。
a. 如果沒(méi)有 C-CG,生成器將難以捕捉角色的更細(xì)粒度的細(xì)節(jié)。
b. 如果沒(méi)有 KESG,生成器傾向于在所有區(qū)域均勻分配注意力,從而導(dǎo)致身份混合。
結(jié)果
不同方法在單角色和多角色視覺(jué)敘事上的視覺(jué)比較。StoryWeaver 擅長(zhǎng)角色身份定制和匹配良好的語(yǔ)義對(duì)齊。
(a)單字符生成示例
(b)多字符生成示例
Pororo 數(shù)據(jù)集上的多角色故事可視化示例。
收集的角色和樣本集中于兩部動(dòng)畫(huà)片,即《波魯魯》和《冰雪奇緣》。這些樣本包括對(duì)單個(gè)角色的詳細(xì)描述以及展示多個(gè)角色之間互動(dòng)的場(chǎng)景。
結(jié)論
論文提出了一個(gè)統(tǒng)一的模型StoryWeaver,該框架具有復(fù)雜的角色定制功能,可用于故事可視化。論文首先提出了一種新穎的角色圖,它將故事世界中的豐富語(yǔ)義知識(shí)封裝起來(lái)以增強(qiáng)StoryWeaver。然后引入知識(shí)增強(qiáng)的空間指導(dǎo)來(lái)改進(jìn)交叉注意力圖,以實(shí)現(xiàn)精確的多角色生成。實(shí)驗(yàn)結(jié)果表明,與一組單一和多重定制方法相比,StoryWeaver 在身份定制方面實(shí)現(xiàn)了更好的保真度,并實(shí)現(xiàn)了更好的語(yǔ)義對(duì)齊。