偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器

發(fā)布于 2024-9-23 11:01

瀏覽

0收藏

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2409.08270
項目鏈接：https://github.com/florinshen/FlashSplat

亮點直擊

引入了一種全局最優(yōu)的 3D Gaussian Splatting分割求解器，大大提高了將 2D 分割結(jié)果提升到 3D 空間的效率。
通過線性化簡化了 3DGS 分割的過程，將 2D 到 3D 的分割任務(wù)轉(zhuǎn)化為線性整數(shù)優(yōu)化問題。該方法對二值分割和場景分割均有效。
在優(yōu)化中引入了背景偏置，展示了在 3D 分割中對噪聲的優(yōu)越魯棒性，證明了該方法在各種場景分割中的魯棒性和高效性。
本文的方法具有顯著的優(yōu)化速度，能在 30 秒內(nèi)完成整個過程，比現(xiàn)有方法快約 50 倍，同時確保給定 2D masks的全局最優(yōu)性。
廣泛的實驗驗證了本文方法在后續(xù)任務(wù)中的優(yōu)越性，包括物體移除和修復(fù)，突顯了其在 3D 數(shù)據(jù)處理和應(yīng)用中的巨大潛力。

總結(jié)速覽

解決的問題

現(xiàn)有方法在從2D mask中精確分割3D Gaussian Splatting（3D Gaussian Splatting, 3D-GS）時效率低下，通常依賴于迭代梯度下降法來給每個高斯分配一個唯一的標(biāo)簽，導(dǎo)致冗長的優(yōu)化和次優(yōu)解，效果欠佳。

提出的方案

提出了一種簡單且全局最優(yōu)的3D-GS分割求解器，通過線性規(guī)劃的方式閉式求解最優(yōu)標(biāo)簽分配。
核心思路在于，利用重建的3D-GS場景，2D mask的渲染可以視為與每個高斯標(biāo)簽的線性函數(shù)。

應(yīng)用的技術(shù)

利用線性規(guī)劃技術(shù)來解決標(biāo)簽分配問題，避免了迭代優(yōu)化。
通過單步優(yōu)化實現(xiàn)分割，并結(jié)合alpha混合特性。
在目標(biāo)函數(shù)中加入背景偏置，增強(qiáng)抗噪性。

達(dá)到的效果

優(yōu)化過程僅需30秒，比現(xiàn)有最優(yōu)方法快50倍。
實驗表明該方法在分割多種場景時高效、魯棒，并在后續(xù)的任務(wù)如物體移除和修復(fù)中表現(xiàn)優(yōu)越。

方法

本節(jié)首先深入探討了3D Gaussian Splatting(3D GS)的渲染過程，重點關(guān)注基于塊的光柵化和alpha混合。接著描述了如何將此過程表述為整數(shù)線性規(guī)劃 (ILP) 優(yōu)化，用于3DGS的分割，并證明該問題可以通過閉式形式求解。鑒于2D mask通常帶有噪聲，引入了一個軟化的最優(yōu)分配來減輕這些噪聲影響。除了二值分割之外，還擴(kuò)展了該方法以涵蓋場景分割，從而實現(xiàn)3D場景中所有物體的分割。最后，提出了一種基于深度信息的2D mask渲染方法，將3D分割結(jié)果從新視角投影到2D mask上。

初步：3D Gaussian Splatting (3DGS) 的光柵化

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

將二值分割表述為整數(shù)線性規(guī)劃

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

形式上，分割問題可以表述為一個具有平均絕對誤差的整數(shù)線性規(guī)劃 (LP) 優(yōu)化：

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

從二值分割到場景分割

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

基于深度引導(dǎo)的新視角mask渲染

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

實驗

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集。為了評估本文方法的有效性，從多個來源收集了3D場景數(shù)據(jù)：MIP-360 數(shù)據(jù)集、T&T 數(shù)據(jù)集、LLFF 數(shù)據(jù)集、Instruct-NeRF2NeRF 和 LERF 數(shù)據(jù)集，這些數(shù)據(jù)集用于定性分析。為了進(jìn)行定量分析，使用了 NVOS 數(shù)據(jù)集。

2D mask生成與關(guān)聯(lián)。在實驗設(shè)置中，使用了 Segment Anything Models (SAM)來提取mask，因為 SAM 的分割輸出在本質(zhì)上是不依賴于語義的。在我們的框架中，需要進(jìn)一步將這些2D mask進(jìn)行關(guān)聯(lián)。本文的方法分為兩種不同的策略，分別針對二值分割和場景分割。

對于二值分割，其目標(biāo)是隔離單個前景實體，我們首先在單個參考視圖上標(biāo)記點提示。這些點提示通過參考視圖的相機(jī)姿態(tài)投影回3D空間，以找到其最近的具有最小正深度的3D高斯點。隨后，這些點提示被投影到其他視圖中，通過投影其對應(yīng)的3D高斯點的中心來傳播。利用這些關(guān)聯(lián)的點提示，SAM 獨立生成每個視圖的二值mask。

對于場景分割，本文的方法首先使用 SAM 為單獨視圖生成實例mask。為了在3D場景中為每個2D物體分配唯一的ID，將多個視圖視作視頻序列。利用zero-shot 視頻跟蹤器，確保在不同視點間一致地關(guān)聯(lián)和傳播物體。

實施細(xì)節(jié)

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

3D 分割結(jié)果

下圖 4 展示了二值和場景 3D 分割的結(jié)果。第一行展示了來自 LERF 數(shù)據(jù)集的 Figurines 場景，第二行展示了來自 MIP-360 數(shù)據(jù)集的 Counter 場景。在這兩個場景中，應(yīng)用了場景分割方法，為每個場景渲染了 2 個視圖的 5 個分割對象（在真值圖像中圈出），展示了本文的方法在使用 SAM 預(yù)測的實例mask進(jìn)行場景分割的能力。此外，第三、第四和第五行展示了二值分割結(jié)果，其中第三行展示了來自 LLFF 數(shù)據(jù)集的 Horns 場景，第四行展示了來自 T&T 數(shù)據(jù)集的 Truck 場景，第五行展示了來自 MIP-360 數(shù)據(jù)集的 Kitchen 場景。兩個視圖的分割對象被渲染，顯示了本文方法在分割 3D 對象方面的能力。

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

對象移除

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

對象修復(fù)

在 3D 對象移除之后，對象修復(fù)旨在修正未觀測區(qū)域的偽影，確保 3D 場景內(nèi)的視圖一致性。首先，在移除后渲染視圖，并使用 Grounding-DINO識別每個視圖中的偽影區(qū)域，這些區(qū)域通過視頻追蹤器在視圖之間進(jìn)行跟蹤。然后，使用預(yù)訓(xùn)練的 2D 修復(fù)模型生成修復(fù)的 2D 視圖。隨后，通過在原始對象位置附近引入 20 萬個新的高斯來調(diào)整 3DGS 參數(shù)，同時保持背景高斯不變。微調(diào)過程中，使用物體mask外的 L1 損失來最小化背景影響，并在修復(fù)mask內(nèi)使用 LPIPS 損失來確保場景的自然性和一致性。在下圖 5 中展示了對象修復(fù)的結(jié)果，為每個場景渲染了三個視圖。對象修復(fù)后，噪聲和孔洞被減少，展示了本文的方法可以有效地將前景與背景在 3D 分割中分離開來。

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

定量比較

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

計算成本

本文對 FlashSplat 的計算效率與之前的 3DGS 分割方法進(jìn)行比較，特別是 SAGA 和 Gaussian Grouping。在評估過程中，使用了 LERF 數(shù)據(jù)集中的 Figurines 場景，并在單個 NVIDIA A6000 GPU 上進(jìn)行測試?；€方法需要通過 30,000 次迭代的梯度下降優(yōu)化，將 2D mask轉(zhuǎn)化為與每個 3D 高斯相關(guān)的對象特征，從而導(dǎo)致顯著的額外訓(xùn)練時間來優(yōu)化 3D 場景。相比之下，本文的方法僅需計算集合 {Ai}e，這一過程大約需時 26 秒，使其速度大約比基線快 50 倍。對于單個 3D 對象的分割，這些基線方法需要進(jìn)行網(wǎng)絡(luò)前向傳播，而 FlashSplat 通過 arg max 高效地確定最優(yōu)分配，僅需 0.4 毫秒。此外，對 GPU 內(nèi)存使用的分析顯示，我們的峰值內(nèi)存消耗僅為之前方法 SAGA的一半。

消融研究

噪聲減少的效果。為了進(jìn)一步闡明之前提到的 2D mask中的噪聲，下圖 6 的左列中提供了由 SAM 生成的 2D mask的可視化結(jié)果，涵蓋了兩個場景。此外，還在相應(yīng)的視圖中渲染了 3D 分割后的對象mask，顯示了提供的 2D mask中的斷裂區(qū)域已得到修復(fù)。這證明了本文的方法在生成 3D 分割時對 2D mask噪聲的魯棒性。

ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器-AI.x社區(qū)

3D Segmentation with Fewer 2D Masks

結(jié)論

本文引入了一種針對 2D mask的 3D Gaussian Splatting分割的最優(yōu)求解器，顯著提升了將 2D 分割提升到 3D 空間的準(zhǔn)確性和效率。通過將 3D-GS 中的 alpha 組合分解為每個高斯的總體貢獻(xiàn)，這種求解器只需要單步優(yōu)化來獲得最優(yōu)分配。它不僅將優(yōu)化過程加快了約 50 倍，而且通過簡單的背景偏差增強(qiáng)了對噪聲的魯棒性。此外，這種方法還擴(kuò)展到場景分割，并能夠在新視圖上渲染mask。大量實驗表明，該方法在場景分割任務(wù)中表現(xiàn)優(yōu)越，包括對象移除和修復(fù)。我們希望這項工作能夠促進(jìn)未來 3D 場景的理解和操作。

本文轉(zhuǎn)自 AI生成未來，作者：Qiuhong Shen等

原文鏈接:??https://mp.weixin.qq.com/s/1uGf3-TIGPcvTNZP5eKr9A??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成

angel ? 3853瀏覽 ? 0回復(fù)
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 4814瀏覽 ? 0回復(fù)
ECCV2024｜LightenDiffusion 超越現(xiàn)有無監(jiān)督方法，引領(lǐng)低光圖像增強(qiáng)新紀(jì)元！

angel ? 6304瀏覽 ? 0回復(fù)
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

angel ? 3917瀏覽 ? 0回復(fù)
ECCV`24 | 首次解決文本到3D NeRFs分解問題！港中文等提出DreamDissector

angel ? 3728瀏覽 ? 0回復(fù)
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 4217瀏覽 ? 0回復(fù)
復(fù)旦提出EAFormer：最新場景文本分割新SOTA！(ECCV`24)

angel ? 4017瀏覽 ? 0回復(fù)
阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法

angel ? 4489瀏覽 ? 0回復(fù)
ECCV 2024 | 引入DiT的原生3D通用框架，適用任意神經(jīng)場、秒級生成

輕薄滴假象 ? 3900瀏覽 ? 0回復(fù)
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D場景、任意提示！

angel ? 4467瀏覽 ? 0回復(fù)
ECCV`24 | 螞蟻集團(tuán)開源風(fēng)格控制新SOTA!StyleTokenizer：零樣本精確控制圖像生成

angel ? 4216瀏覽 ? 0回復(fù)
ECCV`24 | 新加坡國立&華為提出Vista3D: 實現(xiàn)快速且多視角一致的3D生成

angel ? 3616瀏覽 ? 0回復(fù)
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 3978瀏覽 ? 0回復(fù)
3D任意部位分割：FIND 3D模型實現(xiàn)零樣本開放世界文本查詢分割

AIGC最前線 ? 3725瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 7792瀏覽 ? 0回復(fù)
比DeepSeek、o1高3倍！首創(chuàng)無服務(wù)器強(qiáng)化微調(diào)，只需十幾個數(shù)據(jù)點

Aceryt ? 2758瀏覽 ? 0回復(fù)
新加坡國立開源Conceptrol：讓個性化圖像生成更懂你的文字提示

angel ? 3134瀏覽 ? 0回復(fù)
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！

AI博物院 ? 6814瀏覽 ? 0回復(fù)
HedgeSpec：比EAGLE3推理速度快2倍的LLM推測解碼

sbf_2000 ? 410瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

下一篇： ACM MM24 | Hi3D: 3D生成領(lǐng)域再突破！新視角生成和高分辨率生成雙SOTA(復(fù)旦&智象等)

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="ebdaf"></blockquote>}