Stable Diffusion變身3D神器!一個LoRA將2D圖像轉(zhuǎn)3D模型
在Stable Diffusion當中,只需加入一個LoRA就能根據(jù)圖像創(chuàng)建3D模型了?
港科大(廣州)與趣丸科技合作推出了全新三維生成大模型——Kiss3DGen,創(chuàng)新性地將3D生成與成熟的圖像生成模型進行了對齊。
并且與主流2D擴散模型技術(shù)(如ControlNet、Flux-Redux)兼容協(xié)同,無需額外訓練即可即插即用。

△由Kiss3DGen生成的場景
即使在有限的訓練數(shù)據(jù)條件下,Kiss3DGen仍能生成高質(zhì)量的3D資產(chǎn),減少對大規(guī)模數(shù)據(jù)的依賴,同時在靈活性和性能方面表現(xiàn)出色。
目前,Kiss3DGen單獨使用效果已優(yōu)于現(xiàn)有開源方法,而且在與現(xiàn)有方法相結(jié)合后,性能可進一步增強。

將3D生成轉(zhuǎn)換為2D生圖
Kiss3DGen的核心創(chuàng)新點在充分利用現(xiàn)有2D圖像生成模型的知識與框架,將多視圖圖像和對應(yīng)法線貼圖拼接成三維聚合圖(3D Bundle Image),把傳統(tǒng)3D生成問題轉(zhuǎn)化為2D圖像生成任務(wù)。

這種方式無需調(diào)整現(xiàn)有2D模型的結(jié)構(gòu),能夠最大程度繼承其成熟的技術(shù)優(yōu)勢。
具體流程可分為兩大步驟:
- 三維聚合圖生成:利用DiT(Diffusion Transformer)模型的全局感知能力,高效生成高度對齊的多視圖圖像及對應(yīng)法線貼圖,無需調(diào)整2D模型結(jié)構(gòu),即可繼承其成熟技術(shù)優(yōu)勢。
- Mesh與紋理重建:利用生成的法線貼圖進行Mesh重建,通過圖像部分生成對應(yīng)的貼圖。整個過程無需額外訓練,可直接使用現(xiàn)有重建方法完成高質(zhì)量3D資產(chǎn)生成。

在訓練階段,需要構(gòu)建高質(zhì)量文本-3D數(shù)據(jù)集,使用LoRA技術(shù)對預(yù)訓練的文本-圖像擴散模型(如Flux或SD3.5)進行微調(diào),生成高度符合文本描述的三維聚合圖。
而生成階段又可以分為兩個環(huán)節(jié)——
首先利用訓練好的模型,根據(jù)輸入文本提示,生成包含3D模型多視角信息的三維聚合圖。
然后,通過LRM或球體初始化方法粗略重建幾何和紋理,再通過網(wǎng)格優(yōu)化與紋理投影技術(shù)(如ISOMER),精確重建3D模型的幾何形狀和紋理細節(jié)。
團隊簡介
該研究的作者為林堅濤、楊鑫以及陳美羲,他們是來自于香港科技大學(廣州)ENVISION實驗室的碩博生。



本工作由趣丸科技資助,由陳穎聰教授帶領(lǐng)碩博研究團隊與趣丸科技聯(lián)合打造。
陳穎聰,香港科技大學(廣州)人工智能學域助理教授,博導,受國家人才計劃青年項目資助,他長期致力于計算機視覺和視覺生成模型的研究,已在TPAMI、CVPR、ICCV、ECCV等頂級會議和期刊發(fā)表五十余篇論文。
陳教授的研究方向包括三維生成與重建、圖像視頻生成等,并多次以第一作者身份在頂級會議上做口頭報告。
他的研究成果屢獲大獎,包括ICCV 2023最佳論文提名和中國圖像圖形學會自然科學獎一等獎。
同時,陳教授也在多個學術(shù)會議和期刊中擔任程序委員會成員或?qū)徃迦?,并與多個科技公司建立了深入的合作關(guān)系。

論文:https://arxiv.org/abs/2503.01370
代碼:https://github.com/EnVision-Research/Kiss3DGen
項目主頁:https://ltt-o.github.io/Kiss3dgen.github.io
在線體驗:https://gen3d.funnycp.com
實驗室主頁:https://envision-research.hkust-gz.edu.cn/index.html































