偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="gxcco"></big>

<abbr id="gxcco"></abbr>

<tr id="gxcco"><span id="gxcco"><dd id="gxcco"></dd></span></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

PC-BEV：巧用多坐標(biāo)系融合策略，實現(xiàn)點云分割170倍加速，精度顯著提升！

作者：Shoumeng Qiu 2025-01-06 08:20:00

人工智能新聞

本文提出了一種基于鳥瞰圖（BEV）空間的激光雷達(dá)點云分割方法，該方法通過融合極坐標(biāo)和笛卡爾分區(qū)策略，實現(xiàn)了快速且高效的特征融合。該方法利用固定網(wǎng)格對應(yīng)關(guān)系，避免了傳統(tǒng)點云交互中的計算瓶頸，并通過混合Transformer-CNN架構(gòu)增強(qiáng)了場景理解能力。

本文經(jīng)3D視覺之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

論?題目：PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

論文作者：Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

論文地址：https://arxiv.org/pdf/2412.14821

1.背景介紹

激光雷達(dá)點云分割是自動駕駛領(lǐng)域的核心任務(wù)，其目標(biāo)在于精細(xì)地理解周圍環(huán)境的語義信息。目前，該領(lǐng)域的方法主要分為三類：基于點的方法、基于體素的方法和基于投影的方法。

其中，基于投影的方法因其能夠利用2D卷積神經(jīng)網(wǎng)絡(luò)（CNN）高效處理投影點云而受到青睞。但是，相比于計算量大的基于體素方法，從3D到2D的投影過程中不可避免地丟失信息，這限制了這種算法的性能。

為了縮小這一性能差距，多視圖融合技術(shù)應(yīng)運(yùn)而生，通過整合不同投影技術(shù)捕獲的互補(bǔ)信息。近期的多視圖融合方法，如AMVNet、GFNet和CPGNet，通過基于點的特征交互增強(qiáng)了表示學(xué)習(xí)。

然而，由于缺乏視圖間的固定對應(yīng)關(guān)系，這些方法需要進(jìn)行高成本的網(wǎng)格采樣和散射操作，影響了實時性能。此外，特征融合通常僅限于點存在的區(qū)域，可能會忽略周圍區(qū)域中有價值的上下文信息。

▲圖1 | 與其他基于投影的方法比較，結(jié)果展示了本文方法在性能和速度方面的優(yōu)越性。??【深藍(lán)AI】編譯

2.方法提出

為了克服這些限制，作者提出了一種創(chuàng)新的多分區(qū)特征融合框架，完全在BEV空間內(nèi)操作，充分利用了極坐標(biāo)和笛卡爾分區(qū)方案之間的固定對應(yīng)關(guān)系。該方法受到BEV中極坐標(biāo)分區(qū)與范圍視圖中球坐標(biāo)分區(qū)相似性的啟發(fā)，并且實驗表明不同分區(qū)方法的性能具有互補(bǔ)性。

為了促進(jìn)極坐標(biāo)和笛卡爾分支之間的特征融合，作者引入了一種高效且有效的基于重映射的融合方法。利用極坐標(biāo)和笛卡爾空間分區(qū)在相同BEV空間內(nèi)固有的固定坐標(biāo)對應(yīng)關(guān)系，預(yù)先計算對應(yīng)參數(shù)，再通過精心設(shè)計的重映射操作實現(xiàn)高效特征融合。這種方法比以往的基于點的特征交互方法快170倍。此外，所有的特征融合在BEV空間位置操作，不僅實現(xiàn)了密集融合，還保留了比以往基于點的方法更多的寶貴上下文信息。

作者還提出了一種混合Transformer-CNN架構(gòu)，用于BEV特征提取。Transformer塊中的自注意力捕獲全局場景信息，然后是一個輕量級的U-net樣式CNN用于詳細(xì)特征提取。實驗結(jié)果表明，這種架構(gòu)在保持實時推理能力的同時增強(qiáng)了模型性能。

▲圖2 | 極坐標(biāo)-笛卡爾BEV融合框架用于3D點云語義分割任務(wù)的流程圖。??【深藍(lán)AI】編譯

3.方法詳解

3.1. 極坐標(biāo)-笛卡爾BEV融合框架

對于最終的語義預(yù)測，由于本方法的目標(biāo)是為場景中的每個點提供語義預(yù)測，因此需要獲取每個點在投影空間中用于類別預(yù)測的特征。對于從不同分支提取了特征，以前方法中的常見做法是通過網(wǎng)格采樣（GS）操作檢索每個點的相應(yīng)特征。然后從不同分支采樣的特征被融合。最后，融合的特征用于獲得最終的語義預(yù)測結(jié)果。以前的基于點的輸出融合可以表示為（這里作者假設(shè)使用連接操作進(jìn)行融合）：

為了進(jìn)一步加速模型推理，作者使用重映射操作對一個分支的特征與另一個分支對齊，這使模型能夠僅對重映射分支執(zhí)行一次網(wǎng)格采樣。在論文中，作者選擇將從極坐標(biāo)分支提取的特征與笛卡爾空間對齊，因為作者實驗發(fā)現(xiàn)這比相反的方式表現(xiàn)略好。作者將重映射的極坐標(biāo)特征與笛卡爾特征連接，然后使用網(wǎng)格采樣獲得每個點的BEV位置特征。因此，作者方法中的最終點級特征輸出可以表示為：

▲圖3 | 在不同設(shè)置下，比較先前的基于點的方法和基于重映射的方法的特征交互操作過程。??【深藍(lán)AI】編譯

3.2. 特征融合通過重映射

與以前的多視圖融合方法在不同投影空間中操作，由于投影過程中的信息丟失導(dǎo)致動態(tài)網(wǎng)格到網(wǎng)格的對應(yīng)關(guān)系不同，本設(shè)計的方法從兩個分區(qū)分支在同一BEV空間下的固定位置對應(yīng)關(guān)系中受益，這為本設(shè)計提供了改進(jìn)特征融合過程效率的機(jī)會。

具體來說，作者采用重映射技術(shù)來對齊兩種不同分區(qū)方法下的特征。鑒于兩個分支之間網(wǎng)格對應(yīng)關(guān)系是固定的，重映射參數(shù)可以預(yù)先計算，以實現(xiàn)高效特征融合。作者提供了重映射操作的詳細(xì)步驟，突出了基于重映射的交互相對于基于點的交互的優(yōu)勢。以從極坐標(biāo)空間到笛卡爾空間的重映射過程為例，注意從笛卡爾到極坐標(biāo)空間的重映射遵循相同的原則。

到目前為止，建立了笛卡爾和極坐標(biāo)分支之間的坐標(biāo)對應(yīng)關(guān)系，這是固定的，所以可以預(yù)先計算融合?？梢詫⒕W(wǎng)格中心視為一個點，并應(yīng)用以前的基于點的方法進(jìn)行特征融合；然而，作者的實驗表明，這種方法在實踐中是低效的。

為了更高效和有效地進(jìn)行特征融合，作者開發(fā)了一種基于重映射的特征融合操作，顯著提高了兩個分支之間的特征對齊速度。傳統(tǒng)的基于點的方法之所以慢，主要是因為網(wǎng)格采樣操作和散射回操作。它們將每個點單獨視為點級并行處理，導(dǎo)致實驗中的緩存未命中率高。

與基于點的方法不同，作者的基于重映射的操作考慮了空間位置的連續(xù)性，使過程更友好于內(nèi)存訪問，并顯著加快了計算速度。圖3比較了不同特征融合方法。需要注意的是，并非一個分支中的每個網(wǎng)格在另一個分支中都有對應(yīng)的區(qū)域，由于空間占用模式的變化。

如果一個分支中的空間位置在另一個分支中不可用，則簡單地對該位置應(yīng)用零填充。更詳細(xì)的效率分析可以在補(bǔ)充材料中找到?；谥赜成涞娜诤戏椒ㄍㄟ^在融合過程中整合更多的上下文信息提供了額外的優(yōu)勢。

如圖4所示，基于點的方法僅在存在點的區(qū)域進(jìn)行融合，丟棄了沒有點的特征，作者稱之為稀疏融合。相比之下，基于重映射的方法使整個BEV空間內(nèi)的融合成為可能，實現(xiàn)了密集融合，豐富了來自另一分支的特征信息。

▲圖4 | 基于點的交互結(jié)果與基于重映射的交互結(jié)果之間的比較。??【深藍(lán)AI】編譯

3.3. Transformer-CNN混合架構(gòu)

由于注意力機(jī)制缺乏區(qū)分輸入序列中位置信息的能力，作者引入了正弦位置編碼PE到特征中。最終的塊嵌入輸入自注意力可以表示為：

富含全局信息的特征然后被送入一個高效的CNN模型進(jìn)行進(jìn)一步提取。作者使用了一個U-net架構(gòu)的CNN。實驗表明，本文的Transformer-CNN混合架構(gòu)在性能和推理速度方面都提供了優(yōu)勢。

4.實驗結(jié)果

作者在SemanticKITTI和nuScenes數(shù)據(jù)集上進(jìn)行了廣泛的實驗，證明了本方法以更快的推理速度實現(xiàn)了最先進(jìn)的性能。

▲表1 | 在SemanticKITTI 測試集的定量比較。??【深藍(lán)AI】編譯

▲表2 | 在SemanticKITTI 驗證機(jī)的定量比較。??【深藍(lán)AI】編譯

▲表3 | 在nuScenes測試集定量比較。??【深藍(lán)AI】編譯

▲表4 | 基于重映射的交互效率的對比。??【深藍(lán)AI】編譯

▲表5 | 在nuScenes驗證集上的消融研究。??【深藍(lán)AI】編譯

5.本文總結(jié)

本文介紹了一種新穎的實時激光雷達(dá)點云分割方法。該技術(shù)采用作者研發(fā)的高效重映射空間對齊融合策略，通過優(yōu)化內(nèi)存連續(xù)性，不僅大幅提升了處理速度，而且在性能上超越了傳統(tǒng)的基于點的交互方法，同時還能保留更為詳盡的上下文信息。

此外，文章中還介紹了一種Transformer-CNN混合架構(gòu)，該架構(gòu)在維持實時處理能力的基礎(chǔ)上，進(jìn)一步增強(qiáng)了模型的整體性能。通過在SemanticKITTI和nuScenes數(shù)據(jù)集上進(jìn)行的廣泛實驗，充分驗證了該方法的有效性和高效率。

展望未來，研究者可以會進(jìn)一步探索將此技術(shù)應(yīng)用于由多相機(jī)圖像數(shù)據(jù)生成的BEV（鳥瞰圖）表示，以拓展其應(yīng)用范圍。

責(zé)任編輯：張燕妮來源： 3D視覺之心

雷達(dá)AI 生成

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="rew2g"></pre>

<style id="rew2g"></style>

<cite id="rew2g"></cite>