偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

妙筆生維:線稿驅(qū)動的三維場景視頻自由編輯

人工智能 新聞
近期,研究人員提出了一種基于線稿的三維場景視頻編輯方法 Sketch3DVE [1],相關(guān)技術(shù)論文發(fā)表于 SIGGRAPH 2025,并入選 Video Trailer。

劉鋒林,中科院計算所泛在計算系統(tǒng)研究中心博士研究生(導(dǎo)師:高林研究員),研究方向為計算機圖形學(xué)與生成式人工智能,在ACM SIGGRAPH\TOG,IEEE TPAMI,IEEE TVCG,IEEE CVPR等期刊會議上發(fā)表論文10余篇,其中5篇為第一作者發(fā)表于SIGGRAPH和CVPR,4篇論文收錄于中科院一區(qū)期刊ACM Transaction on Graphics,第一作者研究工作連續(xù)兩年入選SIGGRAPH亮點工作宣傳片(Video Trailer)。曾獲得國家獎學(xué)金、中國計算機學(xué)會CAD&CG凌迪圖形學(xué)獎學(xué)金等榮譽。

隨著移動攝影設(shè)備的普及,基于手機或相機等可以快速獲取帶有豐富視角變換的三維場景視頻。如何高效、自由地編輯這些三維內(nèi)容成為一個關(guān)鍵挑戰(zhàn)。例如,在視頻中無縫添加新物體、精準(zhǔn)去除不需要的元素,或者自然替換已有部分,這些能力在虛擬現(xiàn)實 (VR)、增強現(xiàn)實 (AR) 以及短視頻創(chuàng)作中具有廣泛的應(yīng)用前景。

然而,現(xiàn)有的經(jīng)典方法,通常只能添加預(yù)定義的三維模型庫中的物體,極大地限制了用戶的個性化創(chuàng)意表達。更關(guān)鍵的是,讓新加入的物體融入原有場景的光影環(huán)境,生成逼真的陰影,以達到照片級的真實感,是具有挑戰(zhàn)性的難題。同樣,移除物體后,如何合理地填補空缺區(qū)域并生成視覺連貫合理的內(nèi)容,也需要更優(yōu)的解決方案。

近期,研究人員提出了一種基于線稿的三維場景視頻編輯方法 Sketch3DVE [1],相關(guān)技術(shù)論文發(fā)表于 SIGGRAPH 2025,并入選 Video Trailer。它賦予用戶基于簡單線稿即可重塑三維場景視頻的能力。無論是為視頻場景個性化地添加全新物體,還是精細地移除或替換已有對象,用戶都能通過繪制關(guān)鍵線稿輕松實現(xiàn)。

  • 論文標(biāo)題:Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
  • 論文地址:https://dl.acm.org/doi/10.1145/3721238.3730623
  • 項目主頁:http://geometrylearning.com/Sketch3DVE/
  • Github:https://github.com/IGLICT/Sketch3DVE

此外,即使是單張靜態(tài)圖片,用戶也能自由規(guī)劃虛擬相機路徑(指定相機軌跡),首先生成具有視角變化的動態(tài)視頻,隨后再進行任意編輯。

現(xiàn)在,就讓我們一同探索 Sketch3DVE 如何將簡單的線稿筆畫,轉(zhuǎn)化為重塑三維世界的鑰匙!

圖 1 基于線稿的三維場景視頻編輯結(jié)果


圖 2 視角可控的視頻生成及編輯結(jié)果

Part 1 背景

近年來,視頻生成基礎(chǔ)模型(如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等)在文本到視頻和圖像到視頻生成方面取得了顯著進展。精確控制生成視頻中的相機軌跡因其重要的應(yīng)用前景而受到廣泛關(guān)注。

現(xiàn)有方法主要分為兩類:一類工作 [2, 3] 直接將相機參數(shù)作為模型輸入,利用注意力機制或 ControlNet 結(jié)構(gòu)來實現(xiàn)對生成視頻視角的控制;另一類工作 [4, 5] 則從單張輸入圖像構(gòu)建顯式的三維表示(如 NeRF),通過指定相機軌跡渲染出新視角圖像,并以此作為控制信號引導(dǎo)視頻生成。

盡管這些方法能夠生成視角可控的視頻,如何對已存在的、包含大幅度相機運動的真實視頻進行精確編輯,仍然是一個有待解決的研究問題。

視頻編輯任務(wù)與視頻生成有本質(zhì)區(qū)別,它需要保持原始視頻的運動模式與局部特征,同時根據(jù)用戶指令合成新的內(nèi)容。早期的視頻編輯方法 [6, 7] 通?;?Stable Diffusion 等圖像擴散模型,對視頻幀進行逐幀處理,并通過引入時序一致性約束來生成編輯結(jié)果。

進一步地,研究者開始利用視頻生成模型進行編輯,例如一些方法 [8] 從輸入視頻中提取注意力特征圖以編碼運動信息,另一些方法 [9] 則采用 LoRA 對預(yù)訓(xùn)練視頻模型進行微調(diào)以捕捉特定視頻的運動模式。然而,這些方法主要擅長外觀層面的編輯(如風(fēng)格化、紋理修改),在幾何結(jié)構(gòu)層面的編輯效果較差,并且難以有效處理包含大幅度相機運動的場景。

線稿(Sketch)作為一種直觀的用戶交互方式,已被廣泛應(yīng)用于圖像、視頻和三維內(nèi)容的生成與編輯中?;诰€稿的視頻編輯方法也已出現(xiàn),例如 VIRES [10] 通過優(yōu)化 ControlNet [11] 結(jié)構(gòu)實現(xiàn)了基于線稿引導(dǎo)的視頻重繪,而 SketchVideo [12] 則設(shè)計了一種關(guān)鍵幀線稿傳播機制,允許用戶僅提供少量幀(1-2 幀)的線稿即可編輯整個視頻。

盡管如此,現(xiàn)有的基于線稿的視頻編輯方法主要面向通用場景。如何處理包含顯著相機視角變化的視頻,并在編輯過程中保持新內(nèi)容的三維幾何一致性,仍是當(dāng)前研究面臨的關(guān)鍵挑戰(zhàn)。

Part 2 算法原理

圖 3 Sketch3DVE 的編輯流程和網(wǎng)絡(luò)架構(gòu)圖

給定輸入的三維場景視頻后,用戶首先選定第一幀圖像。在該幀上,用戶繪制一個掩碼(Mask)標(biāo)記需要編輯的區(qū)域,并繪制線稿(Sketch)來指定新物體的幾何形狀。

同時,用戶輸入文本描述來定義新物體的外觀特征。系統(tǒng)采用 MagicQuill [13] 圖像編輯算法(或其他兼容的基于圖像補全的編輯方法)處理第一幀,生成該幀的編輯結(jié)果。

隨后,系統(tǒng)利用 DUSt3R [14] 三維重建算法處理整個輸入視頻,對場景進行三維分析。該方法輸出第一幀對應(yīng)的場景點云(Point Cloud)以及每一幀對應(yīng)的相機參數(shù)(Camera Parameters),為后續(xù)的視頻編輯傳播提供幾何基礎(chǔ)。

接下來,需要將第一幀圖像上的編輯操作傳播到其對應(yīng)的三維點云上。系統(tǒng)采用基于深度圖的點云編輯方法:首先,使用 DUSt3R 或 DepthAnything [15] 等方法預(yù)測編輯后第一幀圖像的深度圖(Depth Map)。由于預(yù)測得到的是相對深度值,需要將其與原始場景的尺度對齊。

為此,系統(tǒng)利用掩碼外部(非編輯區(qū)域)的像素,通過逐像素的對應(yīng)關(guān)系計算深度值的平移和縮放參數(shù)。應(yīng)用這些參數(shù)對預(yù)測深度圖進行變換,并將編輯區(qū)域的深度值融合到原始場景的深度圖中。最后,通過反投影(Back-projection)處理融合后的深度圖,得到編輯后的三維點云。

為了減少用戶交互,掩碼只需在第一幀繪制。為了將第一幀的掩碼精確傳播到后續(xù)不同視角的幀上,系統(tǒng)設(shè)計了一個基于三維感知的掩碼傳播算法。

該算法在三維空間中構(gòu)建一個網(wǎng)格模型來表示三維掩碼(3D Mask):利用編輯前后幀提供的深度信息和相機參數(shù),將每個像素位置反投影到三維空間,形成網(wǎng)格頂點;根據(jù)像素鄰域關(guān)系連接這些頂點,構(gòu)建出表示編輯區(qū)域前表面的網(wǎng)格面片;后表面則使用平面結(jié)構(gòu)并通過側(cè)面連接,最終形成一個封閉的三維網(wǎng)格模型。該三維掩碼模型可根據(jù)不同幀的相機參數(shù)渲染出對應(yīng)的二維掩碼。

最后,系統(tǒng)構(gòu)建了一個基于三維點云引導(dǎo)的視頻生成模型,其思路類似于 [11, 12]。該模型在預(yù)訓(xùn)練的 CogVideoX 模型基礎(chǔ)上,額外引入了一個條件控制網(wǎng)絡(luò)。

該網(wǎng)絡(luò)以三種信息作為輸入引導(dǎo)視頻生成:1) 編輯后的第一幀圖像;2) 由編輯后點云渲染得到的多視角視頻(提供三維幾何一致性約束);3) 原始輸入視頻(但移除了掩碼區(qū)域的內(nèi)容,用于保持非編輯區(qū)域的時空一致性)。通過融合這些條件信息,模型最終輸出具有精確三維一致性的場景編輯視頻。

Part 3 效果展示

如圖 4 所示,用戶可以在首幀繪制線稿并標(biāo)記編輯區(qū)域,該方法可以生成高質(zhì)量的三維場景視頻編輯結(jié)果,實現(xiàn)物體的添加、刪除和替換等操作,所生成新的物體具有良好的三維一致性。

圖 4 基于線稿的三維場景視頻編輯結(jié)果

如圖 5 所示,當(dāng)視頻中存在陰影和反射等較為復(fù)雜的情景時,由于該工作使用了真實視頻作為數(shù)據(jù)集進行訓(xùn)練,也能在一定程度處理上述情況,并生成相對合理的視頻編輯結(jié)果。

圖 5 陰影和反射等情況的場景編輯效果

如圖 6 所示,給定真實拍攝的三維場景視頻后,用戶可以標(biāo)記指定編輯區(qū)域,并繪制顏色筆畫指定新生成內(nèi)容的外觀。該工作可以生成較為真實自然的三維場景視頻編輯結(jié)果。

圖 6 基于顏色筆畫的三維場景視頻編輯結(jié)果

如圖 7 所示,該工作也支持不以線稿作為輸入,而直接使用圖像補全方法對首幀進行編輯,相關(guān)編輯效果也可以合理應(yīng)用至三維場景。

圖 7 基于圖像補全方法的三維場景視頻編輯結(jié)果

Part 4 結(jié)語

隨著大模型和生成式人工智能的迅速發(fā)展,三維場景視頻編輯問題也有了新的解決范式。傳統(tǒng)的模型插入方法存在難以個性化定制、渲染結(jié)果不夠真實、無法去除已有物體等問題。

Sketch3DVE 則提出了一種有效的解決方案,通過線稿定制化生成三維物體,合成高真實感的三維場景視頻編輯效果,并支持基于單目圖像的三維視頻合成和二次編輯。

借助該方法,用戶無需掌握復(fù)雜的專業(yè)三維處理和視頻處理軟件,也無需投入大量時間和精力,僅憑幾筆簡單的線稿勾勒,便可以將想象中的物體帶到現(xiàn)實,構(gòu)建出靈感和現(xiàn)實的橋梁。該項工作已經(jīng)發(fā)表在SIGGRAPH 2025。

有關(guān)論文的更多細節(jié),及論文、視頻、代碼的下載,請瀏覽項目主頁。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-01 14:14:14

2023-08-05 13:53:34

2024-10-06 10:00:00

3D模型

2010-09-03 09:28:30

2025-03-24 09:41:22

2021-03-16 09:53:35

人工智能機器學(xué)習(xí)技術(shù)

2022-11-09 14:06:11

數(shù)字方法

2009-11-10 12:48:17

VB.NET三維模型

2013-04-17 16:22:53

2023-09-12 11:30:44

自動駕駛技術(shù)

2009-11-10 12:55:26

VB.NET三維模型

2023-06-02 14:10:05

三維重建

2009-05-08 10:19:11

2014-08-26 16:04:30

2010-08-31 09:35:22

百度三維地圖

2014-04-01 12:54:53

2013-05-03 16:50:22

三維實景
點贊
收藏

51CTO技術(shù)棧公眾號