重塑3D生成核心理論:VAST、港大、清華用「零」訓(xùn)練數(shù)據(jù)生成了3D模型
無需任何訓(xùn)練數(shù)據(jù),只需對著模型描述一句話,如「一個做作業(yè)的香蕉人」:
或是「一只戴著 VR 眼鏡的貓」:
就能生成符合描述的帶有高質(zhì)量紋理貼圖的 3D 場景。不僅如此,還能對已有的 3D 模型進行精細(xì)化貼圖。
這是港大與清華大學(xué)聯(lián)合 3D 生成明星公司 VAST AI 研發(fā)的一種新方法,它能夠從復(fù)雜的文本描述中,直接生成富有想象力的高質(zhì)量 3D 模型。
目前,這項研究成果已被人工智能頂級會議 ICLR 2024 收錄,代碼也已經(jīng)開源。對這項研究感興趣的小伙伴,可以戳下方項目主頁和論文地址查看。
- 論文地址:https://arxiv.org/abs/2310.19415
- 項目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
- 代碼地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
- 論文標(biāo)題:Text-to-3D with Classifier Score Distillation
所以它究竟是如何做到的?在了解新方法是什么之前,我們先來了解目前已有的方法存在什么問題。
傳統(tǒng)生成模型面臨的困境
在交互式游戲、電影藝術(shù)、增強 / 虛擬現(xiàn)實以及仿真技術(shù)等多個應(yīng)用場景中,高質(zhì)量的三維資產(chǎn)創(chuàng)建一直是一個重要且具有挑戰(zhàn)性的問題。
目前大多數(shù)生成模型都依賴于本領(lǐng)域的大量高質(zhì)量數(shù)據(jù)做訓(xùn)練,但在 3D 領(lǐng)域,這樣的數(shù)據(jù)集非常匱乏。這導(dǎo)致目前基于 3D 數(shù)據(jù)訓(xùn)練的 3D 生成模型的效果還無法復(fù)刻圖像領(lǐng)域的成功。
基于 2D 先驗的 3D 生成方法
為了解決這一問題,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,證明了可以通過預(yù)訓(xùn)練的二維擴散模型生成高質(zhì)量和復(fù)雜的三維結(jié)果。這一范式的優(yōu)勢在于無需任何 3D 數(shù)據(jù)預(yù)訓(xùn)練即可生成 3D 模型,這一架構(gòu)也一直被研究者們和后續(xù)工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理論在于通過激勵其渲染圖像移向文本條件下的高概率密度區(qū)域,來反向生成 3d 場景。
盡管基于 SDS 的方法取得了令人矚目的成果,然而,本文的研究者們發(fā)現(xiàn),基于 SDS 的方法在實際實現(xiàn)中總是與理論出現(xiàn)一些差距,主要是因為普遍依賴于 Classifier-Free Guidance (CFG)。
在使用 CFG 時,推動優(yōu)化的梯度實際上包含兩個部分:一是數(shù)據(jù)密度的梯度,二是后驗函數(shù)的梯度。其中前者對應(yīng)于 SDS 理論中的關(guān)鍵部分,而后者僅僅是在實驗過程中才加入的輔助手段。
分類器分?jǐn)?shù)蒸餾:重塑 3D 生成的關(guān)鍵所在
這篇論文的核心貢獻,在于重新評估了 SDS 中 CFG 的角色,發(fā)現(xiàn) CFG 不僅僅是輔助手段,恰恰相反,它才是文本到三維生成中的關(guān)鍵驅(qū)動。由于這一部分可以被解釋為一個隱式的分類模型,研究者們將這一新范式命名為分類器分?jǐn)?shù)蒸餾(Classifier Score Distillation, CSD)。
這一發(fā)現(xiàn)從根本上改變了我們對基于分?jǐn)?shù)蒸餾成功的文本到三維生成機制的理解。具體而言,其有效性來自于從隱式分類器中提煉知識,而不是依賴于生成先驗。
CSD 的引入使得我們能夠重新審視現(xiàn)有技術(shù)設(shè)計選擇。例如,研究者們展示了負(fù)面提示可以被視為負(fù)分類器分?jǐn)?shù),從而制定了一個漸進式的負(fù)分類器分?jǐn)?shù)優(yōu)化策略,這增強了生成質(zhì)量,同時保持了與提示的結(jié)果忠實度。
此外,研究還揭示了利用分類器分?jǐn)?shù)進行高效的基于文本驅(qū)動的三維編輯的可能性,以及將變分分?jǐn)?shù)蒸餾技術(shù) (Variational Score Distillation) 視為一種自適應(yīng)性的負(fù)分類器分?jǐn)?shù)優(yōu)化形式。
實驗效果
CSD 不僅在理論上對文本到三維生成領(lǐng)域提供了新的視角,而且在實際應(yīng)用中也表現(xiàn)出優(yōu)越的性能。
在主要的 3D 生成任務(wù)上的實驗結(jié)果顯示,在文本對齊和視覺質(zhì)量方面,該方法相較于 Dream Fusion、Magic3D、Fantasia3D 等現(xiàn)有技術(shù)有顯著提升,生成的紋理也真實豐富。
在速度上,CSD 在單個 A800 GPU 上只需 1 小時即可完成任務(wù),而能達到同樣視覺效果的 Prolific Dreamer 方法則需要長達 8 小時。這一顯著的速度優(yōu)勢,加上其出色的生成質(zhì)量,證明了 CSD 技術(shù)的高效性和實用性。
此外,定量評估中采用的 CLIP R-Precision 指標(biāo)進一步證實了 CSD 的優(yōu)越性。用戶研究也顯示 59.4% 的參與者更傾向于選擇 CSD 生成的結(jié)果。
實驗部分還對比了 CSD 在紋理生成這一任務(wù)上的能力,與多個方法進行比較,實驗結(jié)果顯示無論從效果還是用戶研究中都優(yōu)于其他方法。
此外,研究者們還展示了如何利用 CSD 對現(xiàn)有的 3D 場景進行編輯,如下圖所示,你可以使用 CSD 將一個香蕉人編輯為一個黃瓜人,將模特身上的苔蘚編輯為鮮花,而不損失其他部分。
總而言之,CSD 從理論出發(fā),重新思考了目前 3D 生成的關(guān)鍵所在,重塑優(yōu)化目標(biāo),最終在多個任務(wù)上顯示出其優(yōu)越性與強大的潛力。通過對這一新范式的深入探索和應(yīng)用,我們能夠更有效地從文本描述中生成高質(zhì)量、高精度的三維內(nèi)容,這對于三維內(nèi)容創(chuàng)造領(lǐng)域的未來發(fā)展具有深遠(yuǎn)的影響。