偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="kq6qn"></center>

<li id="kq6qn"><font id="kq6qn"></font></li>

<abbr id="kq6qn"></abbr>

<pre id="kq6qn"><source id="kq6qn"><input id="kq6qn"></input></source></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster

快手技術(shù)

發(fā)布于 2025-5-27 16:16

瀏覽

0收藏

?

Sora、可靈等視頻生成模型令人驚艷的性能表現(xiàn)使得創(chuàng)作者僅依靠文本輸入就能夠創(chuàng)作出高質(zhì)量的視頻內(nèi)容。然而，我們常見的電影片段通常是由導(dǎo)演在一個場景中精心布置多個目標(biāo)的運動、攝像機拍攝角度后再剪輯而成的。例如，在拍攝賽車追逐的場景時，鏡頭通常跟隨賽車運動，并通過扣人心弦的超車時刻來展示賽事的白熱化。而如今的視頻生成模型無法實現(xiàn) 3D 場景中目標(biāo)、相機聯(lián)合控制的文本到視頻創(chuàng)作，限制了 AI 影視制作的能力。

近期，可靈研究團隊在「3D 感知可控視頻生成」領(lǐng)域做出了首次嘗試，推出了電影級文本到視頻生成框架 CineMaster，允許用戶在提供全局文本描述的基礎(chǔ)上，通過提出的交互式工作流輔助用戶像專業(yè)導(dǎo)演一樣布置場景，設(shè)定目標(biāo)與相機的運動，指導(dǎo)模型生成用戶想要的視頻內(nèi)容。目前該論文已錄用于 SIGGRAPH 2025。

SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster-AI.x社區(qū)

?

論文標(biāo)題：CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
論文地址：https://arxiv.org/abs/2502.08639
項目主頁：https://cinemaster-dev.github.io/

?

一、支持3D感知的目標(biāo)、相機運動控制

一、支持3D感知的目標(biāo)、相機運動控制一、支持3D感知的目標(biāo)、相機運動控制

a）目標(biāo)相機聯(lián)合控制：

?

b）目標(biāo)運動控制：

?

c）相機運動控制：

?

?

可以觀察到，CineMaster可以根據(jù)用戶提供的多模態(tài)細粒度的控制信號生成期望的視頻，支持較大幅度的目標(biāo)、相機運動的可控生成。

二、CineMaster 框架

二、CineMaster 框架

CineMaster通過兩階段的工作流，實現(xiàn)高度可控的文本到視頻生成：

階段1：構(gòu)建3D感知的控制信號：用戶可以通過交互式界面在 3D 空間中調(diào)整物體的邊界框（3D Bounding Box）和攝像機位置，這個過程類似于真實的電影拍攝過程，即導(dǎo)演多次調(diào)整演員在場景中的排布和相機的運動。隨后，導(dǎo)出相機軌跡和每幀的投影深度圖，作為后續(xù)生成的條件信號。

階段2：如圖所示，該方法框架通過語義布局ControlNet的架構(gòu)集成了物體的運動控制信號和物體的類別標(biāo)簽信息，從而明確地控制每個目標(biāo)的運動。此外，通過Camera Adapter集成了相機運動控制信號表示視頻序列的全局運動。

SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster-AI.x社區(qū)

?

三、CineMaster訓(xùn)練數(shù)據(jù)構(gòu)建流程

三、CineMaster訓(xùn)練數(shù)據(jù)構(gòu)建流程

SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster-AI.x社區(qū)

?

數(shù)據(jù)構(gòu)建流程旨在從任意視頻中提取 3D bounding boxes、類別標(biāo)簽、視頻相機軌

跡，主要包含 4 個步驟：

通過 Qwen2-VL 增強的實體描述提升開放詞匯目標(biāo)檢測模型 Grounding DINO 的性能，并通過 SAM v2 實現(xiàn)視頻實例分割；

利用 DepthAnything V2 估計視頻的絕對深度；

在每個目標(biāo)的 Mask 最大幀通過深度投影分割結(jié)果到點云空間計算 3D bounding box；

訪問由 Spatial Tracker 實現(xiàn)的 3D 點跟蹤結(jié)果，計算所有目標(biāo)在視頻序列中的 3D bounding box，并投影整個 3D 場景得到深度圖。

此外，該框架利用 MonST3R 計算了視頻的相機軌跡。

四、四、對比結(jié)果對比結(jié)果

四、對比結(jié)果

上圖中研究者將 CineMaster 與基線方法進行了比較。據(jù)觀察，基線方法無法顯式地關(guān)聯(lián)給定的運動條件和相應(yīng)的目標(biāo)，也存在目標(biāo)運動和相機運動耦合的問題。而 CineMaster 可以合成符合文本提示、目標(biāo)、相機控制信號的高質(zhì)量視頻。請訪問項目主頁查看視頻結(jié)果。

五、總結(jié)

在本文中，研究者期望為用戶提供強大的 3D 感知的可控視頻生成能力，讓用戶能夠像專業(yè)導(dǎo)演一樣創(chuàng)作。為此，首先設(shè)計了一個 3D 感知的交互工作流，允許用戶直觀地編輯目標(biāo)和相機的運動；隨后開發(fā)了一個多模態(tài)條件控制視頻生成模型，生成用戶想要的視頻。此外，該方法精心設(shè)計了一套從任意視頻中提取 3D 控制信號的數(shù)據(jù)構(gòu)建流程，為 3D 可控視頻生成領(lǐng)域的研究提供了實踐經(jīng)驗。

更多細節(jié)請參閱原論文。

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024 | 長時舞蹈生成：數(shù)秒鐘可生成極長的3D舞蹈

爛漫樹林 ? 6394瀏覽 ? 0回復(fù)
大連理工盧湖川、賈旭團隊提出可插入圖像/視頻/3D生成的StableIdentity

angel ? 3601瀏覽 ? 0回復(fù)
SIGGRAPH`24 | 毫米級接近真實動作生成！LGTM：文本驅(qū)動！(深大&快手&字節(jié))

angel ? 5232瀏覽 ? 0回復(fù)
AI生成3D主題樂園，角色建筑批量生成，風(fēng)格保持一致 | SIGGRAPH 2024

Crystalcxt ? 3980瀏覽 ? 0回復(fù)
AI 視頻戰(zhàn)火：從 Sora 到快手可靈和 Luma 的新時代

wsp_ping ? 4929瀏覽 ? 0回復(fù)
上科大、影眸聯(lián)合提出DressCode：從文本生成3D服裝板片

輕薄滴假象 ? 5327瀏覽 ? 0回復(fù)
快手「可靈」再進化！視頻續(xù)寫可達3分鐘讓全球網(wǎng)友炸鍋

duhorse ? 5907瀏覽 ? 0回復(fù)
ECCV`24 | 首次解決文本到3D NeRFs分解問題！港中文等提出DreamDissector

angel ? 3711瀏覽 ? 0回復(fù)
ECCV 2024 | 引入DiT的原生3D通用框架，適用任意神經(jīng)場、秒級生成

輕薄滴假象 ? 3853瀏覽 ? 0回復(fù)
英偉達提出LATTE3D：大規(guī)模高質(zhì)量的Amortized文本到增強3D 合成

angel ? 4387瀏覽 ? 0回復(fù)
精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 4309瀏覽 ? 0回復(fù)
麻省理工創(chuàng)新模型：用2D視頻擴散，生成 3D 視頻

Aceryt ? 4503瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 3976瀏覽 ? 0回復(fù)
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 3970瀏覽 ? 0回復(fù)
革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 4366瀏覽 ? 0回復(fù)
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 3727瀏覽 ? 0回復(fù)
直擊痛點，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 3281瀏覽 ? 0回復(fù)
CVPR 2025 | 英偉達重塑自動駕駛場景生成！3D點云賦能電影級特效：GEN3C效果炸裂??！

angel ? 5777瀏覽 ? 0回復(fù)
3D動畫革命！北航團隊破解交互難題，一鍵生成影視級打斗場面

穿越時空111 ? 2881瀏覽 ? 0回復(fù)

快手技術(shù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

端到端短視頻多目標(biāo)排序機制框架EMER詳解 2天前發(fā)布
兼顧效率和性能！快手低代碼平臺在大型活動中的技術(shù)實踐！ 2025-09-29 16:40:24發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：破解 RL 訓(xùn)練崩潰難題，快手聯(lián)合中科院、清華、南大提出多模態(tài)獎勵模型 R1-Reward！

下一篇： 6行代碼節(jié)省超千萬成本——記一次字段治理的“巧渡金沙江”

社區(qū)精華內(nèi)容

目錄

<var id="yymcw"></var>

<abbr id="yymcw"><strong id="yymcw"></strong></abbr>

<u id="yymcw"></u>

<code id="yymcw"><wbr id="yymcw"></wbr></code>

<var id="yymcw"></var><bdo id="yymcw"><span id="yymcw"></span></bdo>