偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

謝賽寧團(tuán)隊(duì)新作:不用提示詞精準(zhǔn)實(shí)現(xiàn)3D畫面控制

人工智能 新聞
這一神奇操作就來(lái)自于謝賽寧團(tuán)隊(duì)新發(fā)布的 Blender Fusion框架,通過(guò)結(jié)合圖形工具 (Blender) 與擴(kuò)散模型,讓視覺(jué)合成不再僅僅依賴文本提示,實(shí)現(xiàn)了精準(zhǔn)的畫面控制與靈活操作。

曾幾何時(shí),用文字生成圖像已經(jīng)變得像用筆作畫一樣稀松平常。

但你有沒(méi)有想過(guò)拖動(dòng)方向鍵來(lái)控制畫面?

像這樣,拖動(dòng)方向鍵(或用鼠標(biāo)拖動(dòng)滑塊)讓畫面里的物體左右移動(dòng):

圖片

還能旋轉(zhuǎn)角度:

圖片

縮放大小:

圖片

這一神奇操作就來(lái)自于謝賽寧團(tuán)隊(duì)新發(fā)布的 Blender Fusion框架,通過(guò)結(jié)合圖形工具 (Blender) 與擴(kuò)散模型,讓視覺(jué)合成不再僅僅依賴文本提示,實(shí)現(xiàn)了精準(zhǔn)的畫面控制與靈活操作。

圖片

圖像合成三步走

BlenderFusion “按鍵生圖” 的核心并不在于模型自身的創(chuàng)新,而在于其對(duì)現(xiàn)有技術(shù)(分割、深度估計(jì)、Blender渲染、擴(kuò)散模型)的高效組合,打通了一套新的Pipeline 。

這套Pipeline包含三個(gè)步驟:先將物體和場(chǎng)景分離 → 再用Blender做3D編輯 → 最后用擴(kuò)散模型生成高質(zhì)量合成圖像。

接下來(lái)看看每一步都是怎么做的吧!

第一步:以物體為中心的分層。(Object-centric Layering)

圖片

第一步是將輸入的圖像或視頻中的各個(gè)物體從原有的場(chǎng)景中分離,并推斷出它們的三維信息。

具體來(lái)說(shuō),BlenderFusion利用現(xiàn)有強(qiáng)大的視覺(jué)基礎(chǔ)模型進(jìn)行分割和深度估計(jì):用Segment Anything Model(SAM)分割畫面中的物體,用Depth Pro模型進(jìn)行深度推斷賦予物體深度。

通過(guò)對(duì)每一個(gè)被分割出的物體進(jìn)行深度估計(jì),將來(lái)自圖像或視頻的2D輸入投影到3D空間,從而為后續(xù)的3D編輯奠定基礎(chǔ)。

這種做法避免了從頭訓(xùn)練3D重建模型,充分利用了現(xiàn)成的大規(guī)模預(yù)訓(xùn)練能力。

第二步:基于Blender的編輯(Blender-grounded Editing)

圖片

第二步是將分離出的物體導(dǎo)入Blender進(jìn)行各種精細(xì)化編輯。在Blender中,既可以對(duì)物體進(jìn)行多種操作(顏色、紋理、局部編輯、加入新物體等),也可以對(duì)相機(jī)進(jìn)行控制(如相機(jī)視點(diǎn)和背景變化)。

第三步:生成式合成(Generative Compositing)


雖然通過(guò)Blender渲染后的場(chǎng)景在空間結(jié)構(gòu)上高度準(zhǔn)確,但外觀、紋理和光照仍然相對(duì)粗糙。

因此,在流程的最后一步,Blender Fusion引入了擴(kuò)散模型(SD v2.1)對(duì)結(jié)果進(jìn)行視覺(jué)增強(qiáng)。

為此,Blender Fusion提出了雙流擴(kuò)散合成器(dual-stream diffusion compositor)。

該模型同時(shí)接收:原始輸入場(chǎng)景(未編輯)和編輯后的粗渲染圖像。通過(guò)對(duì)比兩者,模型學(xué)習(xí)在保持全局外觀一致性的同時(shí),僅在需要編輯的區(qū)域進(jìn)行高保真改動(dòng)。這樣可以避免傳統(tǒng)擴(kuò)散模型“重繪全圖”導(dǎo)致的失真,也防止未修改部分的退化。

一些trick

此外,為了提高Blender Fusion的泛化性,論文中還透露了兩項(xiàng)重要的訓(xùn)練技巧:

源遮擋(Source Masking):在訓(xùn)練時(shí)隨機(jī)遮蔽源圖部分,迫使模型學(xué)會(huì)基于條件信息恢復(fù)完整圖像。

模擬物體抖動(dòng)(Simulated Object Jittering):模擬物體的隨機(jī)偏移和擾動(dòng),提高對(duì)相機(jī)和物體的解耦能力。這一組合顯著提升了生成結(jié)果的真實(shí)感和一致性。

結(jié)果演示

Blender Fusion在針對(duì)物體和相機(jī)操控的視覺(jué)生成中取得了不錯(cuò)的效果。

正如我們?cè)谖恼麻_(kāi)頭的demo中所演示的,通過(guò)任意控制方向鍵來(lái)控制物體在圖像中的位置,畫面保持了較強(qiáng)的一致性與連貫性。

此外,Blender Fusion還能夠在各種復(fù)雜的場(chǎng)景編輯中保持空間關(guān)系和視覺(jué)連貫性,主要包括:

單幅圖像處理:靈活地重新排列、復(fù)制和變換物體,以及改變相機(jī)視角。

圖片

多圖像場(chǎng)景重組:組合任何圖像中的物體以創(chuàng)建全新的場(chǎng)景。

圖片

泛化:這些編輯功能成功地推廣到訓(xùn)練期間未見(jiàn)過(guò)的物體和場(chǎng)景。

圖片

在AI視覺(jué)合成越來(lái)越卷的當(dāng)下,Blender Fusion就像給創(chuàng)作者多了一只“第三只手”。

用戶不再被提示詞困住,也不需要反復(fù)試錯(cuò)就能拼出理想畫面。

從物體分層到三維編輯,再到高保真生成,這套流程不僅讓AI圖像合成更“聽(tīng)話”,也讓玩法更自由。

或許,你的下一次生圖將不再是“遣詞造句”,而是能像搭積木一樣,把每個(gè)細(xì)節(jié)都親手?jǐn)[到位。

論文地址:   https://arxiv.org/abs/2506.17450

項(xiàng)目頁(yè)面:    https://blenderfusion.github.io/#compositing

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-07-08 09:18:12

AI模型論文

2025-10-23 16:56:40

AI模型訓(xùn)練

2025-10-15 08:50:01

2025-04-08 09:10:00

模型訓(xùn)練AI

2021-03-11 17:11:28

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-04-03 11:11:50

2025-08-01 09:12:00

2024-12-23 12:37:34

2025-03-18 10:32:47

2024-10-23 15:05:29

2024-09-20 16:20:00

2012-06-16 16:57:52

WebGL

2012-02-27 10:00:50

HTML 5

2011-05-26 10:55:39

2025-01-20 08:35:00

模型生成AI

2025-04-14 09:38:00

2021-09-16 07:52:18

SwiftUScroll效果

2022-09-19 19:16:42

輪播圖has

2024-01-22 06:40:00

模型視覺(jué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)