偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="3pvgn"></p>

^{<sub id="3pvgn"><i id="3pvgn"></i></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

無(wú)編碼器架構(gòu)潛力或被低估，首個(gè)無(wú)編碼器3D多模態(tài)LLM大模型來(lái)了

作者：機(jī)器之心 2025-02-28 10:15:00

人工智能新聞

作者首次全面研究了無(wú)編碼器架構(gòu)在 3D 大型多模態(tài)模型中應(yīng)用的潛力，將 3D 編碼器的功能直接整合到 LLM 本身。

本文一作湯軼文本科畢業(yè)于上?？萍即髮W(xué)，導(dǎo)師是李學(xué)龍教授，在上海人工智能實(shí)驗(yàn)室實(shí)習(xí)。他的研究興趣是 3D 視覺(jué)，大模型高效遷移，多模態(tài)大模型和具身智能等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。

論文標(biāo)題: Exploring the Potential of Encoder-free Architectures in 3D LMMs
作者單位：上海人工智能實(shí)驗(yàn)室，西北工業(yè)大學(xué)，香港中文大學(xué)，清華大學(xué)
代碼鏈接：https://github.com/Ivan-Tang-3D/ENEL
論文鏈接：https://arxiv.org/pdf/2502.09620v1

許多近期的研究致力于開(kāi)發(fā)大型多模態(tài)模型（LMMs），使 LLMs 能夠解讀多模態(tài)信息，如 2D 圖像（LLaVA）和 3D 點(diǎn)云（Point-LLM, PointLLM, ShapeLLM）。主流的 LMM 通常是依賴于強(qiáng)大但計(jì)算量大的多模態(tài)編碼器（例如，2D 的 CLIP 和 3D 的 I2P-MAE）。

雖然這些預(yù)訓(xùn)練編碼器提供了強(qiáng)大的多模態(tài)嵌入，富含預(yù)先存在的知識(shí)，但它們也帶來(lái)了挑戰(zhàn)，包括無(wú)法適應(yīng)不同的點(diǎn)云分辨率，以及編碼器提取的點(diǎn)云特征無(wú)法滿足大語(yǔ)言模型的語(yǔ)義需求。

因此，作者首次全面研究了無(wú)編碼器架構(gòu)在 3D 大型多模態(tài)模型中應(yīng)用的潛力，將 3D 編碼器的功能直接整合到 LLM 本身。最終，他們展示了首個(gè)無(wú)編碼器架構(gòu)的 3D LMM—ENEL，其 7B 模型與當(dāng)前最先進(jìn)的 ShapeLLM-13B 相媲美，表明無(wú)編碼器架構(gòu)的巨大潛力。

背景和動(dòng)機(jī)

對(duì)于 3D LMMs，基于編碼器的架構(gòu)有以下潛在缺點(diǎn)：

點(diǎn)云分辨率限制：3D 編碼器通常在固定分辨率的點(diǎn)云數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，例如 PointLLM 的編碼器 Point-BERT 使用 1,024 個(gè)點(diǎn)。然而，在推理過(guò)程中，輸入點(diǎn)云的分辨率可能會(huì)有所不同（例如，8,192 個(gè)點(diǎn)或 512 個(gè)點(diǎn)）。訓(xùn)練和推理分辨率之間的差異可能導(dǎo)致在提取 3D 嵌入時(shí)丟失空間信息，從而使 LLMs 理解變得困難。如（a）所示，PointLLM 在不同的點(diǎn)云分辨率輸入下性能差異過(guò)大，而我們提出的 ENEL 顯示出了一定的魯棒性。
嵌入語(yǔ)義差異：3D 編碼器通常采用自監(jiān)督方法（如掩碼學(xué)習(xí)和對(duì)比學(xué)習(xí)）進(jìn)行預(yù)訓(xùn)練，但 3D 編碼器和大語(yǔ)言模型的訓(xùn)練分離導(dǎo)致訓(xùn)練目標(biāo)可能與 LLMs 的特定語(yǔ)義需求不一致，無(wú)法捕捉到 LLMs 理解 3D 物體所需的最相關(guān)語(yǔ)義。即使使用投影層將 3D 編碼器與 LLMs 連接，簡(jiǎn)單的 MLP 也往往不足以進(jìn)行完全的語(yǔ)義轉(zhuǎn)換。如圖（b）所示，ENEL 架構(gòu)中 text token 更能關(guān)注到點(diǎn)云物體的關(guān)鍵部位，如椅腳和機(jī)翼。

具體方案

作者選擇 PointLLM 作為基準(zhǔn)模型進(jìn)行探索，并使用 GPT-4 評(píng)分標(biāo)準(zhǔn)在 Objaverse 數(shù)據(jù)集上評(píng)估不同策略的表現(xiàn)。在無(wú)編碼器結(jié)構(gòu)的探索中他們提出以下兩個(gè)問(wèn)題：

如何彌補(bǔ) 3D 編碼器最初提取的高層次 3D 語(yǔ)義？在 3D LMMs 中，完全跳過(guò)編碼器會(huì)導(dǎo)致難以捕捉 3D 點(diǎn)云的復(fù)雜空間結(jié)構(gòu)。
如何將歸納偏置整合到 LLM 中，以便更好地感知 3D 幾何結(jié)構(gòu)？傳統(tǒng)的 3D 編碼器通常將顯式的歸納偏置嵌入到其架構(gòu)中，以逐步捕捉多層次的 3D 幾何。例如，像 Point-M2AE 這樣的模型使用局部到全局的層次結(jié)構(gòu)，這一概念在 2D 圖像處理的卷積層中也很常見(jiàn)。

LLM 嵌入的語(yǔ)義編碼

因?yàn)槿狈?3D 編碼器導(dǎo)致點(diǎn)云語(yǔ)義信息的編碼不足，極大地阻礙了 LLM 理解點(diǎn)云的結(jié)構(gòu)細(xì)節(jié)。現(xiàn)有的大多數(shù) 3D 編碼器使用自監(jiān)督損失將點(diǎn)云的高層語(yǔ)義嵌入到 Transformer 中，主要分為四種類型：掩蔽建模損失 (a)、重建損失 (b)、對(duì)比損失 (c) 和知識(shí)蒸餾損失 (d)。基于 token embedding 模塊和 LLM 可學(xué)習(xí)層，作者在預(yù)訓(xùn)練階段實(shí)現(xiàn)并評(píng)估了這些損失對(duì)無(wú)編碼器 3D LMM 的影響，并提出混合語(yǔ)義損失。

點(diǎn)云自監(jiān)督學(xué)習(xí)損失通常有助于無(wú)編碼器 3D LMM。自監(jiān)督學(xué)習(xí)損失通過(guò)特定的任務(wù)設(shè)計(jì)對(duì)復(fù)雜的點(diǎn)云進(jìn)行變換，促使 LLM 學(xué)習(xí)潛在的幾何關(guān)系和高層次的語(yǔ)義信息。
在這些自監(jiān)督學(xué)習(xí)損失中，掩蔽建模損失展示了最強(qiáng)的性能提升。掩蔽比率與訓(xùn)練優(yōu)化難度直接相關(guān)，從 30% 增加到 60% 會(huì)導(dǎo)致性能下降。此外，顯式重建點(diǎn)云 patch 不如掩蔽建模有效，但有助于 LLM 學(xué)習(xí)點(diǎn)云中的復(fù)雜模式。相比前兩種損失，知識(shí)蒸餾損失的效果較差。最后，對(duì)比損失未能提取詳細(xì)的語(yǔ)義信息，表現(xiàn)最差。
基于上述實(shí)驗(yàn)結(jié)果，作者提出混合語(yǔ)義損失 (Hybrid Semantic Loss)，他們對(duì)于掩蔽部分采用掩蔽建模，而對(duì)于可見(jiàn)部分，他們使用重建策略。這種方法不僅將高層次的語(yǔ)義嵌入 LLM 中，而且確保在整個(gè)點(diǎn)云學(xué)習(xí)過(guò)程中保持幾何一致性。

層次幾何聚合策略

在無(wú)編碼器架構(gòu)中，LLM 本身并沒(méi)有明確的局部建模模塊。自注意力機(jī)制主要用于建模全局交互。因此，基于提出的混合語(yǔ)義損失，作者在指令調(diào)優(yōu)階段探索如何使 LLM 主動(dòng)感知 3D 局部細(xì)節(jié)，并補(bǔ)充學(xué)到的全局語(yǔ)義。為此，他們提出了層次幾何聚合策略。

從 LLM 的第二層開(kāi)始，輸入的點(diǎn)云 token 基于它們對(duì)應(yīng)的坐標(biāo)使用最遠(yuǎn)點(diǎn)采樣進(jìn)行下采樣，將 token 數(shù)量從 M 減少到??/2, 作為局部中心。然后，使用 k-NN 算法獲得鄰近點(diǎn)。針對(duì)鄰近點(diǎn)他們采用門控自注意力機(jī)制進(jìn)行組內(nèi)交互，捕捉局部幾何結(jié)構(gòu)。最后，他們應(yīng)用池化操作融合每個(gè)鄰居的特征，結(jié)果特征長(zhǎng)度為 M/2?？偣策M(jìn)行 l-1 次幾何聚合。
為了確保 LLM 充分提取局部信息，作者選擇在聚合操作后經(jīng)過(guò)多層 LLM 層進(jìn)行進(jìn)一步的語(yǔ)義建模，避免丟失細(xì)粒度的幾何細(xì)節(jié)。
隨后，他們進(jìn)行 l 次幾何傳播。按照 PointNet++ 的方法，他們將聚合后的特征從局部中心點(diǎn)傳播到它們周圍的 k 個(gè)鄰近點(diǎn)，經(jīng)過(guò) l 次后重新得到長(zhǎng)度為 M 的點(diǎn)云特征。

定量分析

在 Objaverse 基準(zhǔn)測(cè)試中，ENEL-7B 在 3D 物體描述任務(wù)中取得了 50.92% 的 GPT-4 得分，創(chuàng)下了新的 SOTA 性能。在傳統(tǒng)指標(biāo)中，SentenceBERT 和 SimCSE 分別達(dá)到了 48.61% 和 49.31% 的得分，表現(xiàn)與 ShapeLLM-13B 相當(dāng)。對(duì)于 3D 物體分類任務(wù)，ENEL-7B 超越了先前基于編碼器的 3D LMMs，取得了 55% 的 GPT 得分。
此外，在 3D MM-Vet 數(shù)據(jù)集的 3D-VQA 任務(wù)上，盡管訓(xùn)練集中缺乏空間和具身交互相關(guān)的數(shù)據(jù)，ENEL 仍取得了 42.7% 的 GPT 得分，超過(guò)了 PointLLM-7B 1.5%。
考慮到與 PointLLM 相同的訓(xùn)練數(shù)據(jù)集，這些結(jié)果驗(yàn)證了作者提出的 LLM 嵌入式語(yǔ)義編碼和層次幾何聚合策略在無(wú)編碼器架構(gòu)中的有效性。

實(shí)現(xiàn)、訓(xùn)練和推理細(xì)節(jié)

作者使用 7B Vicuna v1.1 的檢查點(diǎn)。在嵌入層中，點(diǎn)云首先通過(guò)一個(gè)線性層處理，將其維度從 6 擴(kuò)展到 288。輸入點(diǎn)云初始包含 8192 個(gè)點(diǎn)，隨后經(jīng)過(guò)三次最遠(yuǎn)點(diǎn)采樣（FPS），分別將點(diǎn)云數(shù)量減少到 512、256 和 128。每次 FPS 操作后，使用 k 近鄰進(jìn)行聚類，聚類大小為 81，并通過(guò)三角編碼提取幾何特征，隨后通過(guò)線性層逐步將維度增加到 576、1152 和 2304。最后，投影層將特征映射到 LLM 的 4096 維度。

在兩階段訓(xùn)練過(guò)程中，每個(gè)階段使用的數(shù)據(jù)集和預(yù)處理方法與 PointLLM 一致。所有訓(xùn)練均在 4 張 80G 的 A100 GPU 上以 BF16 精度進(jìn)行，使用了 FlashAttention、AdamW 優(yōu)化器以及余弦學(xué)習(xí)率調(diào)度策略。在預(yù)訓(xùn)練階段，模型訓(xùn)練了 3 個(gè) epoch，批量大小為 128，學(xué)習(xí)率為 4e-4。在指令微調(diào)階段，訓(xùn)練進(jìn)行了 3 個(gè) epoch，批量大小為 32，學(xué)習(xí)率為 2e-5。

用于分類和描述任務(wù)評(píng)估的 GPT-4 模型為「gpt-4-0613」版本，與 PointLLM 一致；而用于問(wèn)答性能評(píng)估的 GPT-4 模型為「gpt-4-0125」版本，與 ShapeLLM 對(duì)齊。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

3D 模型編碼器

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)