偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AniSoraV3 正式開(kāi)源,長(zhǎng)視頻創(chuàng)作智能體框架AniME技術(shù)揭秘

人工智能
本文提出了 AniME,一個(gè)導(dǎo)演驅(qū)動(dòng)的多智能體長(zhǎng)篇?jiǎng)赢?huà)生成框架。通過(guò)引入模型選擇MCP 機(jī)制,使不同智能體能夠自主選擇最優(yōu)生成方式,實(shí)現(xiàn)了從文本故事到最終視頻的全流程自動(dòng)化。

引言

在動(dòng)畫(huà)制作領(lǐng)域,傳統(tǒng)流程復(fù)雜且勞動(dòng)強(qiáng)度大,涵蓋劇本創(chuàng)作、分鏡設(shè)計(jì)、角色與場(chǎng)景設(shè)計(jì)、動(dòng)畫(huà)制作、配音以及最終剪輯等多個(gè)創(chuàng)作階段。這一過(guò)程不僅需要大量專(zhuān)業(yè)人員參與,還要求不同團(tuán)隊(duì)間緊密協(xié)作,導(dǎo)致成本高昂、制作周期漫長(zhǎng)。

近年來(lái),生成式人工智能取得了顯著進(jìn)展,例如用于動(dòng)畫(huà)生成的 AniSora 等基礎(chǔ)模型,在特定任務(wù)中展現(xiàn)出了令人印象深刻的能力。然而,這些方法在特定領(lǐng)域各有優(yōu)劣,在智能體驅(qū)動(dòng)的視頻生成中,難以維持一致性且精細(xì)可控性欠佳。因此,開(kāi)發(fā)一個(gè)全自動(dòng)的長(zhǎng)篇?jiǎng)赢?huà)生成系統(tǒng)仍是一項(xiàng)亟待解決的挑戰(zhàn),尤其是在選擇合適的控制條件以及確保跨階段內(nèi)容一致性方面。

為此,我們提出 AniME,一種導(dǎo)演驅(qū)動(dòng)的多智能體框架。該框架通過(guò)引入定制化模型選擇MCP機(jī)制,為不同環(huán)節(jié)的專(zhuān)用智能體配置定制化工具箱,實(shí)現(xiàn)了任務(wù)分解、跨階段一致性控制以及迭代式反饋優(yōu)化。AniME 借鑒真實(shí)動(dòng)畫(huà)工作室的生產(chǎn)流程,強(qiáng)調(diào)全局調(diào)度與質(zhì)量控制,使長(zhǎng)篇?jiǎng)赢?huà)的自動(dòng)化生成成為可能。

All In One模型AniSora V3開(kāi)源

在介紹AniME工作流前,先介紹一下團(tuán)隊(duì)近期開(kāi)源的動(dòng)畫(huà)視頻生成模型AniSora V3. 此前AniSora已經(jīng)發(fā)布了2個(gè)版本的模型,在國(guó)內(nèi)外社區(qū)中獲得了比較好的口碑和反饋。本次,V3版本有了比較大的升級(jí),量化版本支持單卡4090推理,單臺(tái)4卡4090生成5秒360p視頻僅需30秒,單臺(tái)8卡A800僅需8秒。

V3版本除了在動(dòng)態(tài)性、畫(huà)面美感、指令遵從等方面進(jìn)行了增強(qiáng)外,還結(jié)合動(dòng)畫(huà)制作實(shí)際流程中的相關(guān)訴求,增加了多種模態(tài)的交互能力,更加貼合動(dòng)畫(huà)制作流程本身,為長(zhǎng)視頻創(chuàng)作提供了有力支撐。

角色單張正面立繪生成360度視頻

圖片圖片

圖片圖片

圖片圖片

任意幀引導(dǎo)

該功能在V1版本中已經(jīng)支持,V3版本中該功能的指令遵從性得到了進(jìn)一步增強(qiáng)

可以通過(guò)首幀、尾幀或任意中間幀,根據(jù)劇情生成視頻

風(fēng)格轉(zhuǎn)繪

輸入視頻

圖片

線稿提取

圖片

風(fēng)格化

圖片

多模態(tài)引導(dǎo)

首幀+多模態(tài)輸入

圖片

圖片

The boy in red and the girl in red are fencing in the scene.


輸出視頻

圖片

首幀+多模態(tài)輸入

圖片

圖片

A worn-out red robot flings its arm away, only to have it fly back and reassemble with a new arm holding a sword.


輸出視頻

圖片

首幀+audio

圖片

輸出視頻





極低分辨率超分

支持90p到720p/1080p的超分,可以用更少的抽卡時(shí)間,生成細(xì)節(jié)更豐富的視頻:

輸入





1080





GT





AniSora為動(dòng)畫(huà)視頻創(chuàng)作提供了多種交互功能,但它只能生成單個(gè)鏡頭。我們通過(guò)AniME組織整體工作流程,實(shí)現(xiàn)長(zhǎng)視頻的創(chuàng)作。

AniME 架構(gòu)

AniME 將從故事到視頻的任務(wù)分解為多個(gè)層級(jí)階段,由導(dǎo)演智能體(Director Agent)統(tǒng)籌調(diào)度,多個(gè)專(zhuān)用智能體(Specialized Agents)協(xié)同完成,系統(tǒng)架構(gòu)如圖1所示。每個(gè)智能體 Ai 都有明確的輸入類(lèi)型 Ii 、輸出類(lèi)型 Oi 以及本地的模型上下文協(xié)議(MCP)工具箱 ,智能體之間通過(guò)結(jié)構(gòu)化 JSON 消息進(jìn)行交互。

圖片 1 AniME架構(gòu)圖圖片 1 AniME架構(gòu)圖

導(dǎo)演智能體與多智能體協(xié)作流程

導(dǎo)演智能體是 AniME 框架的中央控制器,負(fù)責(zé)管理全局工作流程和質(zhì)量保證。它將輸入的故事分解為任務(wù)工作流,為各個(gè)智能體分配子任務(wù),檢查每個(gè)專(zhuān)業(yè)智能體的工作質(zhì)量,并維護(hù)一個(gè)全局資產(chǎn)記憶庫(kù)(Asset Memory Bank)存儲(chǔ)統(tǒng)一的角色、場(chǎng)景、風(fēng)格等資產(chǎn),保證跨鏡頭一致性。

1. 導(dǎo)演工作流程:給定一個(gè)長(zhǎng)篇故事 R,導(dǎo)演通過(guò)分割過(guò)程將其按層級(jí)分解為場(chǎng)景和鏡頭,并確定視覺(jué)風(fēng)格 Sv 和聲學(xué)設(shè)置風(fēng)格 Sa 。隨后,利用鏈?zhǔn)剿季S提示生成初始任務(wù)列表 T,每個(gè)任務(wù)都按照下游智能體的格式明確規(guī)定了輸入 / 輸出規(guī)格。導(dǎo)演還維護(hù)著一個(gè)工作流圖 W=(N,E),其中每個(gè)節(jié)點(diǎn) n∈N對(duì)應(yīng)一個(gè)制作任務(wù),邊 E則編碼了明確的依賴(lài)關(guān)系。 具體算法流程如圖2所示

圖片 2 AniME多智能體協(xié)作算法流程圖圖片 2 AniME多智能體協(xié)作算法流程圖

2. 資產(chǎn)記憶管理:資產(chǎn)記憶庫(kù)存儲(chǔ)經(jīng)過(guò)導(dǎo)演審批后的資產(chǎn),確保整個(gè)流程中的一致性和可重用性。每個(gè)表格都可查詢(xún)、有版本控制,能夠通過(guò)語(yǔ)義相似性進(jìn)行檢索。角色表格不僅存儲(chǔ)參考圖像,還存儲(chǔ)參考風(fēng)格和聲音樣例,以確保動(dòng)畫(huà)保持視覺(jué)保真度。 為防止偏差,導(dǎo)演保持對(duì)全局資產(chǎn)的單一寫(xiě)入權(quán)限,同時(shí)允許下游專(zhuān)家智能體進(jìn)行讀取訪問(wèn)。

專(zhuān)業(yè)智能體與模型選擇MCP 機(jī)制

AniME 參考真實(shí)動(dòng)畫(huà)制作流程,對(duì)應(yīng)一個(gè)創(chuàng)作階段設(shè)計(jì)了專(zhuān)業(yè)智能體。每個(gè)專(zhuān)業(yè)智能體都利用專(zhuān)用的 MCP模型工具箱,可以根據(jù)任務(wù)需求自適應(yīng)地選擇模型。

專(zhuān)業(yè)智能體

劇本和分鏡智能體(Script and Storyboard Agent):該智能體將敘事文本轉(zhuǎn)換為時(shí)間序列的鏡頭,主要執(zhí)行三個(gè)關(guān)鍵步驟:一是利用LLM解析將文本分割為場(chǎng)景和鏡頭;二是進(jìn)行相機(jī)規(guī)劃,包括鏡頭類(lèi)型、軌跡和過(guò)渡方式;三是進(jìn)行參考素材檢索,通過(guò)一系列條件生圖模型生成關(guān)鍵幀。該智能體可根據(jù)需求在多種工具中自適應(yīng)選擇。其中文本到圖像工具適用于空的定場(chǎng)鏡頭,雖簡(jiǎn)單快速但布局控制有限;參考圖像生成工具能維持角色身份一致性,適用于以對(duì)話為中心的面板,但無(wú)法生成空的定場(chǎng)鏡頭;布局引導(dǎo)生成工具則適用于精確的多角色或物體密集型面板,構(gòu)圖準(zhǔn)確但計(jì)算成本較高。此外,基于大型語(yǔ)言模型(LLM)的分割、相機(jī)規(guī)劃和布局規(guī)劃模塊負(fù)責(zé)協(xié)調(diào)鏡頭級(jí)別的結(jié)構(gòu)。

角色智能體(Character Designer):從文本描述和風(fēng)格向量出發(fā),通過(guò)文生圖模型生成角色的多視角圖像。角色參考圖包括多個(gè)視角,確保側(cè)面和背面輪廓與標(biāo)準(zhǔn)正面視圖匹配。 在工具選擇上,該智能體主要利用參考圖像生成來(lái)確保一致的角色身份,多視角合成和超分模塊則用于確保多角度一致性和圖像清晰度。

場(chǎng)景智能體(Scene Designer):負(fù)責(zé)生成故事拍攝環(huán)境和背景,其輸出包括可在多個(gè)場(chǎng)景中重用的分層資產(chǎn)。 工具選擇方面,場(chǎng)景智能體優(yōu)先采用布局引導(dǎo)生成來(lái)實(shí)現(xiàn)精確的物體放置,采用深度引導(dǎo)圖像生成來(lái)創(chuàng)建空間連貫的場(chǎng)景,采用重新照明模型來(lái)維持時(shí)間上的照明一致性。文本到圖像工具可選擇性地生成廣泛的定場(chǎng)鏡頭,但對(duì)構(gòu)圖的控制較少。

動(dòng)畫(huà)師(Animator):從關(guān)鍵幀、姿勢(shì)和相機(jī)軌跡合成運(yùn)動(dòng)序列,主要使用關(guān)鍵幀 / 音頻 / 姿勢(shì) / 相機(jī)條件視頻生成模型。對(duì)于語(yǔ)音驅(qū)動(dòng)的情景,該智能體將關(guān)鍵幀條件視頻擴(kuò)散與音頻驅(qū)動(dòng)的嘴唇同步相結(jié)合。為了維持時(shí)間連貫性,可以使用光流引導(dǎo)和運(yùn)動(dòng)插值。 對(duì)于無(wú)語(yǔ)音場(chǎng)景,該智能體主要通過(guò)首、尾幀驅(qū)動(dòng)的視頻生成模型來(lái)生成片段。

音頻制作智能體(Audio Production Agent):管理對(duì)話、音效和音樂(lè)。它采用說(shuō)話人條件的文本轉(zhuǎn)語(yǔ)音(TTS)生成特定角色的聲音。背景音樂(lè)通過(guò)文本到音樂(lè)生成來(lái)創(chuàng)作,然后由音頻混合器平衡語(yǔ)音、音樂(lè)和音效。 此智能體在說(shuō)話人條件的 TTS、文本到音樂(lè)生成和音頻混合器程序中進(jìn)行選擇。

視頻編輯智能體(Video Editor Agent):將所有資產(chǎn)整合為連貫的最終視頻。自動(dòng)化編輯工具會(huì)設(shè)計(jì)剪輯和過(guò)渡效果,通過(guò) FFmpeg 的多遍編碼生成最終視頻。在此階段支持人機(jī)交互式操作,以進(jìn)行精細(xì)調(diào)整。

質(zhì)量評(píng)估智能體(Quality Evaluator Agent):運(yùn)用多種多模態(tài)評(píng)分模型對(duì)各個(gè)環(huán)節(jié)的效果進(jìn)行打分。文本到視頻相似性評(píng)分、身份驗(yàn)證、視聽(tīng)內(nèi)容對(duì)齊,使用視覺(jué)語(yǔ)言模型(VLM)進(jìn)行敘事一致性評(píng)估,并且對(duì)視頻進(jìn)行抽幀,進(jìn)行身份驗(yàn)證以防止ID偏移。確保生成的序列符合預(yù)期的故事情節(jié)。導(dǎo)演智能體會(huì)根據(jù)評(píng)估分?jǐn)?shù)決定下游智能體的任務(wù)是否需要重新進(jìn)行。

模型選擇MCP機(jī)制

在 AniME 中,模型上下文協(xié)議(MCP)使專(zhuān)業(yè)智能體能夠根據(jù)導(dǎo)演提供的上下文自主選擇和調(diào)用最適合其任務(wù)的工具。例如,當(dāng)導(dǎo)演向分鏡智能體發(fā)送場(chǎng)景描述后,劇本和分鏡智能體首先生成分鏡描述并選擇圖像生成工具,為每個(gè)鏡頭生成包含所選工具、提示、參考和注釋的結(jié)構(gòu)化 JSON 輸出。通過(guò) MCP,分鏡智能體能夠根據(jù)任務(wù)需求和場(chǎng)景上下文調(diào)整其工具選擇,無(wú)需人工干預(yù)即可高效、高質(zhì)量地生成分鏡。導(dǎo)演的作用仍然是提供高級(jí)別的場(chǎng)景上下文,而 MCP 則管理專(zhuān)業(yè)智能體如何在內(nèi)部協(xié)調(diào)其工具。 表1展示了對(duì)于導(dǎo)演智能體切分的場(chǎng)景片段,Script & Storyboard 智能體創(chuàng)作各個(gè)分鏡時(shí)的生圖工具選擇過(guò)程。其生成條件的選擇由場(chǎng)景的構(gòu)圖、一致性需求進(jìn)行決策。

a) scene_YX01_shot_01

圖片

{

"shot_id":"scene_YX01_shot_01",

"tool":"reference_image_generation",

"prompt": "Ye holding a blue-and-white porcelain cup,

       tilting head to drink",

"reference_images":["assets/char_YX_front.png"]

}

b) scene_YX01_shot_02

圖片

{

"shot_id":"scene_YX01_shot_02",

"tool":"layout_guided_generation",

"prompt":"System AI angrily stopping Ye",

"layout_bboxes":[

{

"object":"Ye Xuan",

"bbox":[100,300,400,900]

},

{

"object":"System AI",

"bbox":[600,350,900,850],

}

]

}


c) scene_YX01_shot_03

圖片

{

"shot_id":"scene_YX01_shot_03",

"tool":"reference_image_generation",

"prompt":"Close-up of Ye's facial expression reacting to AI",

reference_images":["assets/char_YX_front.png"]


}

表格 1 StoryBoard Agent的自動(dòng)分鏡示例:“在玄夜的修煉室里,他雙手捧起青花瓷杯仰頭欲飲,人工智能氣急敗壞地阻止他,叫他快停下?!?/p>

借助這一機(jī)制以及各智能體的協(xié)同工作,AniME 能夠順利完成從故事腳本到最終視頻的生成流程,各環(huán)節(jié)銜接緊密,有效保障了生成內(nèi)容的質(zhì)量與一致性。

效果

AniME的多智能體協(xié)作已經(jīng)用于內(nèi)部的端到端動(dòng)漫內(nèi)容生成。例如對(duì)于小說(shuō)片段:“一位算命先生曾說(shuō)我生日那天會(huì)走大運(yùn),一飛沖天。可沒(méi)想到,那天我居然被車(chē)撞了……然后直接被吸進(jìn)了一個(gè)超級(jí)吞噬系統(tǒng)。在這個(gè)系統(tǒng)里,我叫玄夜,是個(gè)氣海被毀的倒霉蛋,而且馬上就要被天元宗圣女休夫了?!?AniME各模塊的工作流程及輸出如示意圖2所示。通過(guò)各智能體協(xié)作,該片段可以自動(dòng)化轉(zhuǎn)換為長(zhǎng)動(dòng)畫(huà)視頻片段。

圖片 2 Story驅(qū)動(dòng)的AniME全流程視頻生成效果演示

最終視頻效果如下:https://www.bilibili.com/video/BV1ipt1zGEj5

總結(jié)

本文提出了 AniME,一個(gè)導(dǎo)演驅(qū)動(dòng)的多智能體長(zhǎng)篇?jiǎng)赢?huà)生成框架。通過(guò)引入模型選擇MCP 機(jī)制,使不同智能體能夠自主選擇最優(yōu)生成方式,實(shí)現(xiàn)了從文本故事到最終視頻的全流程自動(dòng)化。AniME 在保證風(fēng)格一致性、角色身份保持和跨場(chǎng)景敘事連貫性方面展現(xiàn)出強(qiáng)大能力,推動(dòng)了生成式 AI 在長(zhǎng)篇?jiǎng)赢?huà)制作中的落地。

參考文獻(xiàn)

1.  Anthropic. 2024. Introducing the Model Context Protocol. Retrieved Aug 18, 2024 from http://www.anthropic.com/news/model-context-protocol

2.  Chenpeng Du, Yiwei Guo, Hankun Wang, et al . 2025. Vall-t: Decoder-only generative transducer for robust and decoding-controllable text-to-speech. In ICASSP.

3.  Yudong Jiang, Baohan Xu, Siqian Yang, et al . 2024. Anisora: Exploring the frontiers of animation video generation in the sora era. arXiv:2412.10255 (2024).

4.  Yunxin Li, Haoyuan Shi, Baotian Hu, et al . 2024. Anim-director: A large multimodal model powered agent for controllable animation video generation. In SIGGRAPH Asia.

5.  Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, et al . 2024. Tango 2: Aligning-based text-to-audio generations through direct preference optimization. In ACM MM.

6.  Haoyuan Shi, Yunxin Li, Xinyu Chen, et al. 2025. AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation. arXiv:2506.10540 (2025).

7.  Weijia Wu, Zeyu Zhu, and Mike Zheng Shou. 2025. Automated movie generation via multi-agent cot planning. arXiv:2503.07314 (2025).

8.  Haotian Xia, Hao Peng, Yunjia Qi, et al. 2025. StoryWriter: A Multi-Agent Framework for Long Story Generation. arXiv:2506.16445 (2025).

9.  Ling Yang, Zhaochen Yu, Chenlin Meng, et al. 2024. Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs. In ICML.

責(zé)任編輯:武曉燕 來(lái)源: 嗶哩嗶哩技術(shù)
相關(guān)推薦

2024-10-15 17:28:05

2025-06-30 14:01:03

LLM模型AI

2024-03-25 00:30:00

AI框架

2024-10-12 12:30:18

2025-04-07 02:00:00

2018-02-28 10:11:50

騰訊框架開(kāi)源

2025-06-10 09:28:31

智能體開(kāi)發(fā)工具

2024-11-05 14:40:00

智能體AI

2018-12-06 09:59:56

微軟開(kāi)發(fā)開(kāi)源

2022-07-19 14:07:42

Kyligence開(kāi)源Spark

2018-11-16 16:32:51

華為

2024-08-29 18:32:52

2025-10-13 09:46:12

2025-07-18 09:26:25

2025-06-03 08:09:00

AI智能體模型

2025-07-02 08:43:00

數(shù)據(jù)訓(xùn)練模型

2025-06-30 05:30:00

2024-12-19 09:23:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)