偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配

發(fā)布于 2025-7-7 06:29
瀏覽
0收藏

3D Scene Generation: A Survey

2025-05-08|NTU|??10

???http://arxiv.org/abs/2505.05474v1????
????https://huggingface.co/papers/2505.05474????
????https://github.com/hzxie/Awesome-3D-Scene-Generation???

研究背景與意義

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)圖片

  • 3D場景生成旨在創(chuàng)建具有空間結(jié)構(gòu)、語義意義和逼真視覺效果的虛擬環(huán)境,支撐沉浸式媒體、機器人、自動駕駛和 embodied AI 等多種應用。隨著虛擬現(xiàn)實、虛擬制作、城市規(guī)劃等需求的增長,逼真、多樣且具有一致性的3D場景成為核心技術(shù)之一。早期方法依賴程序規(guī)則,雖具可擴展性但受制于多樣性不足;近年來,深度生成模型(如GAN、擴散模型)和新型3D表示(如NeRF、3D高斯)推動了場景學習的突破,使得生成的場景在保真度、多樣性和視角一致性方面顯著提升。這不僅滿足了虛擬環(huán)境的需求,也為 embodied AI 提供了豐富的訓練和評估場景,推動智能體在復雜環(huán)境中的導航、交互和適應能力。
  • 近年來,論文數(shù)量的快速增長反映出學界對3D場景生成的高度關注。早期方法多依賴規(guī)則和手工資產(chǎn),受限于控制和多樣性;而深度學習模型(如GAN、擴散模型)結(jié)合新穎的3D表示技術(shù),極大豐富了場景的表達能力。特別是基于擴散模型的研究,逐步將場景生成轉(zhuǎn)向圖像和視頻合成,增強了視角一致性和動態(tài)場景的逼真度。這些技術(shù)的融合,推動了從靜態(tài)到動態(tài)、從單一視角到多視角的全面場景生成,為未來智能交互和虛擬現(xiàn)實提供了堅實基礎。

研究方法與創(chuàng)新

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)圖片

  • 論文系統(tǒng)梳理了4大類3D場景生成方法:程序生成、神經(jīng)3D生成、基于圖像的生成和視頻驅(qū)動生成。程序生成通過預定義規(guī)則、優(yōu)化算法或大模型(如LLMs)實現(xiàn)場景的高效控制,強調(diào)規(guī)則的可解釋性和可控性。神經(jīng)3D方法利用訓練有素的深度生成模型(如GAN、VAE、擴散模型)在多種3D表示(體素、點云、網(wǎng)格、NeRF、3D高斯)中學習場景分布,提升幾何和視覺細節(jié)的逼真度?;趫D像的生成則借助圖像合成模型,從多視角圖像或視頻中反演出場景結(jié)構(gòu),結(jié)合神經(jīng)表示實現(xiàn)高質(zhì)量的3D重建。視頻驅(qū)動方法將時間維度引入,通過動態(tài)視頻生成技術(shù),增強場景的動態(tài)一致性和豐富性。
  • 在創(chuàng)新方面,論文提出了多種融合策略:利用大模型(如LLMs)進行布局設計和參數(shù)優(yōu)化,實現(xiàn)場景的可控性和多樣性;引入場景圖、語義布局和隱式布局作為中間表示,確保場景結(jié)構(gòu)的合理性和語義一致性;結(jié)合物理約束和交互信息,提升場景的物理真實性和交互性。這些技術(shù)創(chuàng)新推動了場景生成的多目標優(yōu)化,從幾何、語義到動態(tài)交互,全面提升了生成效果的真實性、控制力和多樣性。
  • 具體技術(shù)優(yōu)勢包括:神經(jīng)場景表示(NeRF、3D高斯)實現(xiàn)高保真渲染,支持復雜光照和材質(zhì);擴散模型在多模態(tài)條件下生成多樣場景,兼顧細節(jié)和視角一致性;場景圖和語義布局保證結(jié)構(gòu)合理,便于后續(xù)編輯和交互。通過多模態(tài)融合和層次化表示,論文實現(xiàn)了從單一場景到復雜動態(tài)環(huán)境的全方位生成能力。

實驗設計與結(jié)果分析

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)圖片

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 論文對比了不同類別方法在真實感、多樣性、視角一致性、語義一致性、效率、可控性和物理合理性方面的表現(xiàn)。程序生成在效率和可控性上占優(yōu),但逼真度有限;神經(jīng)模型提供高質(zhì)量、多樣化場景,但在控制和一致性方面仍有挑戰(zhàn);圖像和視頻驅(qū)動方法在逼真和動態(tài)表現(xiàn)上表現(xiàn)出色,但計算成本較高。通過在多個公開數(shù)據(jù)集(如 indoor、natural、urban)上驗證,結(jié)果顯示神經(jīng)方法在幾何細節(jié)和視角一致性方面優(yōu)于傳統(tǒng)方法,而程序生成在場景多樣性和控制方面具有優(yōu)勢。
  • 關鍵指標包括:場景的幾何和視覺逼真度(通過渲染質(zhì)量、深度一致性)、多視角一致性(視角變化下場景的連貫性)、語義一致性(語義標簽的準確性)、生成速度和控制能力。實驗還涉及場景編輯、交互和下游任務(如導航、虛擬制作)的應用驗證,展示了各類方法在實際場景中的適用性和局限性。
  • 結(jié)果分析表明:深度生成模型(尤其是擴散模型)在逼真度和多樣性方面表現(xiàn)優(yōu)異,但在控制和效率上仍需優(yōu)化;結(jié)合場景圖、語義布局的結(jié)構(gòu)化表示,有助于提升場景的合理性和可編輯性;多模態(tài)條件和層次化設計,是未來提升生成質(zhì)量和控制能力的關鍵方向。

結(jié)論與展望

  • 論文總結(jié)了當前3D場景生成的主要技術(shù)路徑,強調(diào)深度學習模型在幾何、視覺和語義方面的突破,同時指出現(xiàn)有方法在控制、效率、真實性和復雜場景建模方面仍面臨挑戰(zhàn)。未來,提升生成的分辨率和細節(jié)層次、實現(xiàn)物理仿真與交互、構(gòu)建統(tǒng)一的感知與生成模型,將成為關鍵研究方向。
  • 未來展望包括:追求更高的生成保真度(如支持真實光照和材質(zhì))、實現(xiàn)物理感知和交互式生成(支持場景動態(tài)變化和用戶控制)、發(fā)展多模態(tài)融合技術(shù)(結(jié)合文本、圖像、視頻信息)以及構(gòu)建統(tǒng)一的感知-生成體系,推動虛擬環(huán)境的真實感、互動性和智能化。
  • 綜上,論文強調(diào)多學科融合、層次化設計和多模態(tài)條件的重要性,提出未來3D場景生成應朝著高保真、物理感知、交互控制和結(jié)構(gòu)化表達的方向發(fā)展,以滿足虛擬現(xiàn)實、智能交互和 embodied AI 等多樣需求。

Generating Physically Stable and Buildable LEGO Designs from Text

2025-05-08|Carnegie Mellon U|??9

???http://arxiv.org/abs/2505.05469v1????
????https://huggingface.co/papers/2505.05469????
????https://avalovelace1.github.io/LegoGPT/???

研究背景與意義

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 當前3D生成技術(shù)在虛擬現(xiàn)實、游戲設計、科學模擬等領域取得了顯著進展,但在生成具有實際可構(gòu)建性和物理穩(wěn)定性的實體模型方面仍面臨挑戰(zhàn)。傳統(tǒng)方法多依賴復雜的后期驗證或人工調(diào)節(jié),效率低且難以保證結(jié)構(gòu)的可靠性。
  • LEGO作為一種廣泛應用于教育、創(chuàng)意設計和原型制造的模塊化系統(tǒng),其設計的自動化與智能化具有重要的應用價值。自動生成符合物理穩(wěn)定性且可手工或機器人組裝的LEGO模型,不僅能提升設計效率,還能推動機器人制造、虛擬仿真等技術(shù)的發(fā)展。
  • 本研究引入LEGOGPT,結(jié)合大規(guī)模預訓練語言模型與物理約束驗證技術(shù),旨在實現(xiàn)從文本描述到穩(wěn)定、可建造的LEGO結(jié)構(gòu)的端到端自動生成,填補現(xiàn)有技術(shù)在實際可構(gòu)建性保障方面的空白。

研究方法與創(chuàng)新

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 核心創(chuàng)新在于將預訓練的語言模型(如LLaMA-3.2)微調(diào)為逐磚生成的序列模型,利用文本提示引導結(jié)構(gòu)設計,避免傳統(tǒng)3D建模中的繁瑣步驟。
  • 設計了物理約束感知機制,通過引入穩(wěn)定性分析模型(基于力學平衡和結(jié)構(gòu)完整性)對每一步生成的LEGO塊進行驗證。具體做法包括:
  • 采用多力模型模擬磚塊之間的作用力,確保每個新增磚塊在受力平衡下穩(wěn)定。
  • 使用基于非線性規(guī)劃的優(yōu)化方法(如Gurobi)求解結(jié)構(gòu)的靜力平衡條件,篩除不穩(wěn)定設計。
  • 引入“物理感知回滾”策略,在檢測到不穩(wěn)定結(jié)構(gòu)時回退至穩(wěn)定狀態(tài),保證最終模型的物理可行性。
  • 在數(shù)據(jù)方面,構(gòu)建了包含超過47,000個LEGO結(jié)構(gòu)的龐大數(shù)據(jù)集,配備詳細的文本描述和穩(wěn)定性標簽,為模型訓練提供豐富的監(jiān)督信號。
  • 設計了端到端的文本到LEGO結(jié)構(gòu)生成流程,包括:
  • 結(jié)構(gòu)序列化為文本描述(磚塊類型、位置、朝向)
  • 利用微調(diào)的語言模型逐磚生成
  • 結(jié)合物理約束驗證篩選,確保生成的結(jié)構(gòu)穩(wěn)定且可建造
  • 通過紋理和顏色映射增強模型的表現(xiàn)力,支持多樣化外觀設計。

實驗設計與結(jié)果分析

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 在250個隨機文本提示上進行評估,結(jié)果顯示:
  • 生成結(jié)構(gòu)的有效率(無碰撞、無超出邊界)達37.2%,經(jīng)過回滾后提升至100%,顯著優(yōu)于多項基線方法(如LLaMA-Mesh、LGM等)。
  • 結(jié)構(gòu)穩(wěn)定性方面,采用物理分析后,穩(wěn)定結(jié)構(gòu)比例達到98.8%,遠高于未引入物理驗證的模型(如LLaMA-3.2的50.8%)。
  • 結(jié)構(gòu)質(zhì)量通過CLIP文本相似度評估,保持較高的語義一致性,確保生成的LEGO模型與文本描述緊密匹配。
  • 紋理和顏色生成方面,結(jié)合UV紋理映射技術(shù),能夠生成豐富多彩且符合描述的外觀,增強模型的實用性和趣味性。
  • 機器人自動組裝實驗驗證了模型的實際應用潛力,機器人能高效完成復雜LEGO結(jié)構(gòu)的拼裝任務,展示了從虛擬設計到物理實現(xiàn)的閉環(huán)能力。

結(jié)論與展望

  • 本研究提出的LEGOGPT實現(xiàn)了從文本描述到高質(zhì)量、物理穩(wěn)定、可建造的LEGO模型的自動生成,突破了傳統(tǒng)方法在結(jié)構(gòu)穩(wěn)定性保障方面的限制。
  • 該方法在確保結(jié)構(gòu)穩(wěn)定性的同時,保持了設計的多樣性和語義一致性,為智能制造、機器人組裝、虛擬仿真等應用提供了新的技術(shù)路徑。
  • 未來工作將著重于:
  • 擴展磚塊庫,支持更多樣化的形狀和材質(zhì),提高設計的豐富性。
  • 提升模型的泛化能力,支持更復雜、更抽象的文本描述。
  • 推動端到端的機器人組裝系統(tǒng),實現(xiàn)從虛擬設計到實體制造的完全自動化。
  • 綜上,LEGOGPT為文本引導的實體結(jié)構(gòu)生成提供了創(chuàng)新范例,有望引領智能設計與制造的新方向。

LiftFeat: 3D Geometry-Aware Local Feature Matching

2025-05-06|WHU, SFT, CCNU, A*STAR|ICRA 2025|??6

???http://arxiv.org/abs/2505.03422v1????
????https://huggingface.co/papers/2505.03422????
????https://github.com/lyp-deeplearning/LiftFeat???

研究背景與意義

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 論文關注于機器人視覺中的局部特征匹配,特別是在極端環(huán)境條件下(如光照變化劇烈、低紋理區(qū)域、重復圖案)仍能實現(xiàn)魯棒、有效的匹配。這一問題對于SLAM、視覺定位等關鍵任務至關重要,傳統(tǒng)方法如SIFT、SURF在復雜場景中表現(xiàn)不足,深度學習方法雖提升性能,但存在模型復雜、計算資源消耗大的問題。引入3D幾何信息,特別是表面法線,旨在增強特征的判別能力,為機器人自主感知提供更穩(wěn)健的基礎。這對于推動自主導航、環(huán)境理解等應用具有深遠意義。

研究方法與創(chuàng)新

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 核心創(chuàng)新在于設計了輕量級的LiftFeat網(wǎng)絡,結(jié)合3D幾何信息顯著提升特征匹配的魯棒性。具體方法包括:
  • 利用預訓練的單目深度估計模型(Depth Anything v2)生成偽表面法線標簽,避免額外標注成本。
  • 提出3D幾何感知的特征提升模塊(3D-GFL),將表面法線特征與2D描述子融合,增強特征的判別能力。
  • 通過多層自注意力機制實現(xiàn)特征的交互與增強,確保模型高效且具有良好的尺度、旋轉(zhuǎn)不變性。
  • 采用多任務學習框架,預測關鍵點、描述子和表面法線,利用多尺度特征融合提升匹配性能。
  • 訓練過程中引入表面法線的監(jiān)督,利用單目深度估計模型提供的偽標簽,確保幾何信息的準確學習。
  • 這些設計使得模型在保持輕量級的同時,有效利用3D幾何信息,顯著改善在極端環(huán)境下的匹配效果。

實驗設計與結(jié)果分析

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

3D生成與視覺理解:3D場景生成綜述;樂高結(jié)構(gòu)序列化生成;3D幾何感知局部特征匹配-AI.x社區(qū)

  • 在相對位姿估計、單應性估計和視覺定位三項任務中驗證了LiftFeat的優(yōu)越性能。結(jié)果顯示:
  • 在MegaDepth和ScanNet等多場景數(shù)據(jù)集上,LiftFeat在匹配精度和魯棒性方面均優(yōu)于傳統(tǒng)方法(ORB、SuperPoint)和其他深度學習模型(XFeat、ALIKE)。
  • 在極端條件(低紋理、光照變化、重復圖案)下,LiftFeat保持較高的正確匹配率,顯著優(yōu)于對比模型。
  • 計算資源方面,模型在邊緣設備上實現(xiàn)了7.4毫秒的推理時間,兼顧速度和精度,適合實際機器人系統(tǒng)部署。
  • 在視覺定位任務中,LiftFeat在夜間場景中表現(xiàn)出更強的魯棒性,提升成功率,驗證了引入幾何信息的優(yōu)勢。
  • 這些實驗充分證明了模型在復雜環(huán)境中的實用性和優(yōu)越性,展現(xiàn)了3D幾何特征在輕量級匹配網(wǎng)絡中的巨大潛力。

結(jié)論與展望

  • 本文提出的LiftFeat通過融合3D表面法線,有效提升了極端場景下的特征匹配魯棒性,兼顧模型輕量化與性能優(yōu)化,適應機器人實際應用需求。未來工作可在多模態(tài)信息融合、端到端訓練優(yōu)化以及更復雜場景的適應性方面深入探索,以進一步推動自主感知與導航技術(shù)的發(fā)展。

本文轉(zhuǎn)載自????AI研究前瞻????,作者:胡耀淇

收藏
回復
舉報
回復
相關推薦