三維點(diǎn)云的開放世界理解,分類、檢索、字幕和圖像生成樣樣行
輸入一把搖椅和一匹馬的三維形狀,能得到什么?
木推車加馬?得到馬車和電動(dòng)馬;香蕉加帆船?得到香蕉帆船;雞蛋加躺椅?得到雞蛋椅。
來自UCSD、上海交大、高通團(tuán)隊(duì)的研究者提出最新三維表示模型OpenShape,讓三維形狀的開放世界理解成為可能。
- 論文地址:https://arxiv.org/pdf/2305.10764.pdf
- 項(xiàng)目主頁(yè):https://colin97.github.io/OpenShape/
- 交互demo: https://huggingface.co/spaces/OpenShape/openshape-demo
- 代碼地址:https://github.com/Colin97/OpenShape_code
通過在多模態(tài)數(shù)據(jù)(點(diǎn)云 - 文本 - 圖像)上學(xué)習(xí)三維點(diǎn)云的原生編碼器,OpenShape 構(gòu)建了一個(gè)三維形狀的表示空間,并與 CLIP 的文本和圖像空間進(jìn)行了對(duì)齊。得益于大規(guī)模、多樣的三維預(yù)訓(xùn)練,OpenShape 首次實(shí)現(xiàn)三維形狀的開放世界理解,支持零樣本三維形狀分類、多模態(tài)三維形狀檢索(文本 / 圖像 / 點(diǎn)云輸入)、三維點(diǎn)云的字幕生成和基于三維點(diǎn)云的圖像生成等跨模態(tài)任務(wù)。
三維形狀零樣本分類
OpenShape 支持零樣本三維形狀分類。無需額外訓(xùn)練或微調(diào),OpenShape 在常用的 ModelNet40 基準(zhǔn)(包含 40 個(gè)常見類別)上達(dá)到了 85.3% 的 top1 準(zhǔn)確率,超過現(xiàn)有零樣本方法 24 個(gè)百分點(diǎn),并首次實(shí)現(xiàn)與部分全監(jiān)督方法相當(dāng)?shù)男阅堋?/span>
OpenShape 在 ModelNet40 上的 top3 和 top5 準(zhǔn)確率則分別達(dá)到了 96.5% 和 98.0%。
與現(xiàn)有方法主要局限于少數(shù)常見物體類別不同,OpenShape 能夠?qū)V泛的開放世界類別進(jìn)行分類。在 Objaverse-LVIS 基準(zhǔn)上(包含 1156 個(gè)物體類別),OpenShape 實(shí)現(xiàn)了 46.8% 的 top1 準(zhǔn)確率,遠(yuǎn)超現(xiàn)有零樣本方法最高只有 6.2% 的準(zhǔn)確率。這些結(jié)果表明 OpenShape 具備有效識(shí)別開放世界三維形狀的能力。
多模態(tài)三維形狀檢索
通過 OpenShape 的多模態(tài)表示,用戶可以對(duì)圖像、文本或點(diǎn)云輸入進(jìn)行三維形狀檢索。研究通過計(jì)算輸入表示和三維形狀表示之間的余弦相似度并查找 kNN,來從集成數(shù)據(jù)集中檢索三維形狀。
圖片輸入的三維形狀檢索
上圖展示了輸入圖片和兩個(gè)檢索到的三維形狀。
文本輸入的三維形狀檢索
上圖展示了輸入文本和檢索到的三維形狀。OpenShape 學(xué)到了廣泛的視覺和語(yǔ)義概念,從而支持細(xì)粒度的子類別(前兩行)和屬性控制(后兩行,如顏色,形狀,風(fēng)格及其組合)。
三維點(diǎn)云輸入的三維形狀檢索
上圖展示了輸入的三維點(diǎn)云和兩個(gè)檢索到的三維形狀。
雙輸入的三維形狀檢索
上圖將兩個(gè)三維形狀作為輸入,并使用它們的 OpenShape 表示來檢索同時(shí)最接近兩個(gè)輸入的三維形狀。檢索到的形狀巧妙地結(jié)合了來自兩個(gè)輸入形狀的語(yǔ)義和幾何元素。
基于三維形狀的文本和圖像生成
由于 OpenShape 的三維形狀表示與 CLIP 的圖像和文本表示空間進(jìn)行了對(duì)齊,因此它們可以與很多基于 CLIP 的衍生模型進(jìn)行結(jié)合,從而支持各種跨模態(tài)應(yīng)用。
三維點(diǎn)云的字幕生成
通過與現(xiàn)成的圖像字幕模型(ClipCap)結(jié)合,OpenShape 實(shí)現(xiàn)了三維點(diǎn)云的字幕生成。
基于三維點(diǎn)云的圖像生成
通過與現(xiàn)成的文本到圖像的擴(kuò)散模型(Stable unCLIP)結(jié)合,OpenShape 實(shí)現(xiàn)了基于三維點(diǎn)云的圖像生成(支持可選的文本提示)。
更多的基于三維點(diǎn)云的圖像生成示例
訓(xùn)練細(xì)節(jié)
基于對(duì)比學(xué)習(xí)的多模態(tài)表示對(duì)齊:OpenShape 訓(xùn)練了一個(gè)三維原生編碼器,它將三維點(diǎn)云作為輸入,來提取三維形狀的表示。繼之前的工作,研究利用多模態(tài)對(duì)比學(xué)習(xí)來與 CLIP 的圖像和文本表示空間進(jìn)行對(duì)齊。與之前的工作不同,OpenShape 旨在學(xué)習(xí)更通用和可擴(kuò)展的聯(lián)合表示空間。研究的重點(diǎn)主要在于擴(kuò)大三維表示學(xué)習(xí)的規(guī)模和應(yīng)對(duì)相應(yīng)的挑戰(zhàn),從而真正實(shí)現(xiàn)開放世界下的三維形狀理解。
集成多個(gè)三維形狀數(shù)據(jù)集:由于訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性在學(xué)習(xí)大規(guī)模三維形狀表示中起著至關(guān)重要的作用,因此研究集成了四個(gè)當(dāng)前最大的公開三維數(shù)據(jù)集進(jìn)行訓(xùn)練。如下圖所示,研究的訓(xùn)練數(shù)據(jù)包含了 87.6 萬(wàn)個(gè)訓(xùn)練形狀。在這四個(gè)數(shù)據(jù)集中,ShapeNetCore、3D-FUTURE 和 ABO 包含經(jīng)過人工驗(yàn)證的高質(zhì)量三維形狀,但僅涵蓋有限數(shù)量的形狀和數(shù)十個(gè)類別。Objaverse 數(shù)據(jù)集是最近發(fā)布的三維數(shù)據(jù)集,包含顯著更多的三維形狀并涵蓋更多樣的物體類別。然而 Objaverse 中的形狀主要由網(wǎng)絡(luò)用戶上傳,未經(jīng)人工驗(yàn)證,因此質(zhì)量參差不齊,分布極不平衡,需要進(jìn)一步處理。
文本過濾和豐富:研究發(fā)現(xiàn)僅在三維形狀和二維圖像之間應(yīng)用對(duì)比學(xué)習(xí)不足以推動(dòng)三維形狀和文本空間的對(duì)齊,即使在對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)也是如此。研究推測(cè)這是由于 CLIP 的語(yǔ)言和圖像表示空間中固有的領(lǐng)域差距引起的。因此,研究需要顯式地將三維形狀與文本進(jìn)行對(duì)齊。然而來自原始三維數(shù)據(jù)集的文本標(biāo)注通常面臨著缺失、錯(cuò)誤、或內(nèi)容粗略單一等問題。為此,本文提出了三種策略來對(duì)文本進(jìn)行過濾和豐富,從而提高文本標(biāo)注的質(zhì)量:使用 GPT-4 對(duì)文本進(jìn)行過濾、對(duì)三維模型的二維渲染圖進(jìn)行字幕生成和圖像檢索。
研究提出了三種策略來自動(dòng)過濾和豐富原始數(shù)據(jù)集中的嘈雜文本。
文本過濾和豐富示例
在每個(gè)示例中,左側(cè)部分展示了縮略圖、原始形狀名稱和 GPT-4 的過濾結(jié)果。右上部分展示來來自兩個(gè)字幕模型的圖像字幕,而右下部分顯示檢索到的圖像及其相應(yīng)的文本。
擴(kuò)大三維骨干網(wǎng)絡(luò)。由于先前關(guān)于三維點(diǎn)云學(xué)習(xí)的工作主要針對(duì)像 ShapeNet 這樣的小規(guī)模三維數(shù)據(jù)集, 這些骨干網(wǎng)絡(luò)可能不能直接適用于我們的大規(guī)模的三維訓(xùn)練,需要相應(yīng)地?cái)U(kuò)大骨干網(wǎng)絡(luò)的規(guī)模。研究發(fā)現(xiàn)在不同大小的數(shù)據(jù)集上進(jìn)行訓(xùn)練,不同的三維骨干網(wǎng)絡(luò)表現(xiàn)出不同的行為和可擴(kuò)展性。其中基于 Transformer 的 PointBERT 和基于三維卷積的 SparseConv 表現(xiàn)出更強(qiáng)大的性能和可擴(kuò)展性,因而選擇他們作為三維骨干網(wǎng)絡(luò)。
在集成數(shù)據(jù)集上擴(kuò)展三維骨干模型的大小時(shí),不同骨干網(wǎng)絡(luò)的性能和可擴(kuò)展性比較。
困難負(fù)例挖掘:該研究的集成數(shù)據(jù)集表現(xiàn)出高度的類別不平衡。一些常見的類別,比如建筑,可能占據(jù)了數(shù)萬(wàn)個(gè)形狀,而許多其他類別,比如海象和錢包,只有幾十個(gè)甚至更少的形狀,代表性不足。因此,當(dāng)隨機(jī)構(gòu)建批次進(jìn)行對(duì)比學(xué)習(xí)時(shí),來自兩個(gè)容易混淆的類別(例如蘋果和櫻桃)的形狀不太可能出現(xiàn)在同一批次中被對(duì)比。為此,本文提出了一種離線的困難負(fù)例挖掘策略,以提高訓(xùn)練效率和性能。
歡迎到 HuggingFace 上嘗試交互 demo。