偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

三維點云的開放世界理解，分類、檢索、字幕和圖像生成樣樣行

作者：機器之心 2023-06-02 13:35:11

人工智能新聞

OpenShape 讓三維形狀的開放世界理解成為可能。

輸入一把搖椅和一匹馬的三維形狀，能得到什么？

木推車加馬？得到馬車和電動馬；香蕉加帆船？得到香蕉帆船；雞蛋加躺椅？得到雞蛋椅。

來自UCSD、上海交大、高通團隊的研究者提出最新三維表示模型OpenShape，讓三維形狀的開放世界理解成為可能。

論文地址：https://arxiv.org/pdf/2305.10764.pdf
項目主頁：https://colin97.github.io/OpenShape/
交互demo： https://huggingface.co/spaces/OpenShape/openshape-demo
代碼地址：https://github.com/Colin97/OpenShape_code

通過在多模態(tài)數(shù)據(jù)（點云 - 文本 - 圖像）上學(xué)習(xí)三維點云的原生編碼器，OpenShape 構(gòu)建了一個三維形狀的表示空間，并與 CLIP 的文本和圖像空間進行了對齊。得益于大規(guī)模、多樣的三維預(yù)訓(xùn)練，OpenShape 首次實現(xiàn)三維形狀的開放世界理解，支持零樣本三維形狀分類、多模態(tài)三維形狀檢索（文本 / 圖像 / 點云輸入）、三維點云的字幕生成和基于三維點云的圖像生成等跨模態(tài)任務(wù)。

三維形狀零樣本分類

OpenShape 支持零樣本三維形狀分類。無需額外訓(xùn)練或微調(diào)，OpenShape 在常用的 ModelNet40 基準(zhǔn)（包含 40 個常見類別）上達到了 85.3% 的 top1 準(zhǔn)確率，超過現(xiàn)有零樣本方法 24 個百分點，并首次實現(xiàn)與部分全監(jiān)督方法相當(dāng)?shù)男阅堋?/span>

OpenShape 在 ModelNet40 上的 top3 和 top5 準(zhǔn)確率則分別達到了 96.5% 和 98.0%。

與現(xiàn)有方法主要局限于少數(shù)常見物體類別不同，OpenShape 能夠?qū)V泛的開放世界類別進行分類。在 Objaverse-LVIS 基準(zhǔn)上（包含 1156 個物體類別），OpenShape 實現(xiàn)了 46.8% 的 top1 準(zhǔn)確率，遠超現(xiàn)有零樣本方法最高只有 6.2% 的準(zhǔn)確率。這些結(jié)果表明 OpenShape 具備有效識別開放世界三維形狀的能力。

多模態(tài)三維形狀檢索

通過 OpenShape 的多模態(tài)表示，用戶可以對圖像、文本或點云輸入進行三維形狀檢索。研究通過計算輸入表示和三維形狀表示之間的余弦相似度并查找 kNN，來從集成數(shù)據(jù)集中檢索三維形狀。

圖片輸入的三維形狀檢索

上圖展示了輸入圖片和兩個檢索到的三維形狀。

文本輸入的三維形狀檢索

上圖展示了輸入文本和檢索到的三維形狀。OpenShape 學(xué)到了廣泛的視覺和語義概念，從而支持細(xì)粒度的子類別（前兩行）和屬性控制（后兩行，如顏色，形狀，風(fēng)格及其組合）。

三維點云輸入的三維形狀檢索

上圖展示了輸入的三維點云和兩個檢索到的三維形狀。

雙輸入的三維形狀檢索

上圖將兩個三維形狀作為輸入，并使用它們的 OpenShape 表示來檢索同時最接近兩個輸入的三維形狀。檢索到的形狀巧妙地結(jié)合了來自兩個輸入形狀的語義和幾何元素。

基于三維形狀的文本和圖像生成

由于 OpenShape 的三維形狀表示與 CLIP 的圖像和文本表示空間進行了對齊，因此它們可以與很多基于 CLIP 的衍生模型進行結(jié)合，從而支持各種跨模態(tài)應(yīng)用。

三維點云的字幕生成

通過與現(xiàn)成的圖像字幕模型（ClipCap）結(jié)合，OpenShape 實現(xiàn)了三維點云的字幕生成。

基于三維點云的圖像生成

通過與現(xiàn)成的文本到圖像的擴散模型（Stable unCLIP）結(jié)合，OpenShape 實現(xiàn)了基于三維點云的圖像生成（支持可選的文本提示）。

更多的基于三維點云的圖像生成示例

訓(xùn)練細(xì)節(jié)

基于對比學(xué)習(xí)的多模態(tài)表示對齊：OpenShape 訓(xùn)練了一個三維原生編碼器，它將三維點云作為輸入，來提取三維形狀的表示。繼之前的工作，研究利用多模態(tài)對比學(xué)習(xí)來與 CLIP 的圖像和文本表示空間進行對齊。與之前的工作不同，OpenShape 旨在學(xué)習(xí)更通用和可擴展的聯(lián)合表示空間。研究的重點主要在于擴大三維表示學(xué)習(xí)的規(guī)模和應(yīng)對相應(yīng)的挑戰(zhàn)，從而真正實現(xiàn)開放世界下的三維形狀理解。

集成多個三維形狀數(shù)據(jù)集：由于訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性在學(xué)習(xí)大規(guī)模三維形狀表示中起著至關(guān)重要的作用，因此研究集成了四個當(dāng)前最大的公開三維數(shù)據(jù)集進行訓(xùn)練。如下圖所示，研究的訓(xùn)練數(shù)據(jù)包含了 87.6 萬個訓(xùn)練形狀。在這四個數(shù)據(jù)集中，ShapeNetCore、3D-FUTURE 和 ABO 包含經(jīng)過人工驗證的高質(zhì)量三維形狀，但僅涵蓋有限數(shù)量的形狀和數(shù)十個類別。Objaverse 數(shù)據(jù)集是最近發(fā)布的三維數(shù)據(jù)集，包含顯著更多的三維形狀并涵蓋更多樣的物體類別。然而 Objaverse 中的形狀主要由網(wǎng)絡(luò)用戶上傳，未經(jīng)人工驗證，因此質(zhì)量參差不齊，分布極不平衡，需要進一步處理。

文本過濾和豐富：研究發(fā)現(xiàn)僅在三維形狀和二維圖像之間應(yīng)用對比學(xué)習(xí)不足以推動三維形狀和文本空間的對齊，即使在對大規(guī)模數(shù)據(jù)集進行訓(xùn)練時也是如此。研究推測這是由于 CLIP 的語言和圖像表示空間中固有的領(lǐng)域差距引起的。因此，研究需要顯式地將三維形狀與文本進行對齊。然而來自原始三維數(shù)據(jù)集的文本標(biāo)注通常面臨著缺失、錯誤、或內(nèi)容粗略單一等問題。為此，本文提出了三種策略來對文本進行過濾和豐富，從而提高文本標(biāo)注的質(zhì)量：使用 GPT-4 對文本進行過濾、對三維模型的二維渲染圖進行字幕生成和圖像檢索。

研究提出了三種策略來自動過濾和豐富原始數(shù)據(jù)集中的嘈雜文本。

文本過濾和豐富示例

在每個示例中，左側(cè)部分展示了縮略圖、原始形狀名稱和 GPT-4 的過濾結(jié)果。右上部分展示來來自兩個字幕模型的圖像字幕，而右下部分顯示檢索到的圖像及其相應(yīng)的文本。

擴大三維骨干網(wǎng)絡(luò)。由于先前關(guān)于三維點云學(xué)習(xí)的工作主要針對像 ShapeNet 這樣的小規(guī)模三維數(shù)據(jù)集，這些骨干網(wǎng)絡(luò)可能不能直接適用于我們的大規(guī)模的三維訓(xùn)練，需要相應(yīng)地擴大骨干網(wǎng)絡(luò)的規(guī)模。研究發(fā)現(xiàn)在不同大小的數(shù)據(jù)集上進行訓(xùn)練，不同的三維骨干網(wǎng)絡(luò)表現(xiàn)出不同的行為和可擴展性。其中基于 Transformer 的 PointBERT 和基于三維卷積的 SparseConv 表現(xiàn)出更強大的性能和可擴展性，因而選擇他們作為三維骨干網(wǎng)絡(luò)。

在集成數(shù)據(jù)集上擴展三維骨干模型的大小時，不同骨干網(wǎng)絡(luò)的性能和可擴展性比較。

困難負(fù)例挖掘：該研究的集成數(shù)據(jù)集表現(xiàn)出高度的類別不平衡。一些常見的類別，比如建筑，可能占據(jù)了數(shù)萬個形狀，而許多其他類別，比如海象和錢包，只有幾十個甚至更少的形狀，代表性不足。因此，當(dāng)隨機構(gòu)建批次進行對比學(xué)習(xí)時，來自兩個容易混淆的類別（例如蘋果和櫻桃）的形狀不太可能出現(xiàn)在同一批次中被對比。為此，本文提出了一種離線的困難負(fù)例挖掘策略，以提高訓(xùn)練效率和性能。

歡迎到 HuggingFace 上嘗試交互 demo。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營