偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

廈門大學(xué)、Intel、大疆聯(lián)合出品,從網(wǎng)絡(luò)視頻中學(xué)習(xí)零樣本圖像匹配大模型

人工智能 新聞
GIM 的提出受到了 GPT 等大模型的啟發(fā),促使作者用海量的視頻數(shù)據(jù)去訓(xùn)練匹配模型,并達(dá)到更高的泛化性能。

圖像匹配是計算機(jī)視覺的一項基礎(chǔ)任務(wù),其目標(biāo)在于估計兩張圖像之間的像素對應(yīng)關(guān)系。圖像匹配是眾多視覺應(yīng)用如三維重建、視覺定位和神經(jīng)渲染 (neural rendering) 等的基礎(chǔ)和前置步驟,其精確度和效率對于后續(xù)處理十分重要。

傳統(tǒng)算法(SIFT)在面臨長基線或極端天氣等復(fù)雜場景時,其匹配的準(zhǔn)確度和密度往往有限。為了解決這些問題,近年來,基于深度學(xué)習(xí)的匹配模型逐漸流行。然而,由于缺乏大規(guī)模且多樣化的具有真值標(biāo)簽的訓(xùn)練數(shù)據(jù),目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分別訓(xùn)練室內(nèi)和室外兩個模型。這種針對特定場景的訓(xùn)練限制了模型對 zero-shot 場景的泛化,無法擴(kuò)展至未知場景中。此外,現(xiàn)有的數(shù)據(jù)構(gòu)建方法往往依賴于 RGBD 掃描或 SfM+MVS 進(jìn)行重建,其效率和適用性有限,無法有效地擴(kuò)展數(shù)據(jù)并用于模型訓(xùn)練。

為了解決基于深度學(xué)習(xí)方法泛化性的問題,來自廈門大學(xué)、Intel、大疆的研究者們提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一個可以讓匹配模型從互聯(lián)網(wǎng)視頻中學(xué)習(xí)到強(qiáng)泛化能力的訓(xùn)練框架。

圖片

論文主頁:https://xuelunshen.com/gim

論文地址:https://arxiv.org/abs/2402.11095

論文視頻:https://www.youtube.com/watch?v=FU_MJLD8LeY

代碼地址:https://github.com/xuelunshen/gim

在線模型:https://huggingface.co/spaces/xuelunshen/gim-online

GIM 從易于獲取、種類繁多且近乎于無限的互聯(lián)網(wǎng)視頻 (如圖 1 所示) 中提取有效的監(jiān)督信號,用于匹配模型的訓(xùn)練。

圖片

圖 1. 部分互聯(lián)網(wǎng)視頻包含的多樣場景

GIM 框架適用于訓(xùn)練所有匹配模型。如圖 2 所示,三個匹配模型 DKM、LoFTR 和 SuperGlue 分別對應(yīng)了:密集匹配、半密集匹配和稀疏匹配這三種主流匹配范式。在 GIM 框架下,用于訓(xùn)練的視頻時長越長,匹配模型的性能就會越高。從目前的折線來看,在使用 50 小時的視頻后,性能還沒有表現(xiàn)出飽和的現(xiàn)象,因此如果使用更多的視頻,性能還會進(jìn)一步提高。

圖 2. 用于訓(xùn)練的視頻時長和模型泛化性能的關(guān)系

為了能充分衡量一個匹配模型的泛化性能,作者提出了第一個 Zero-shot Evaluation Benchmark (ZEB)。如圖 3 所示,ZEB 由 12 個涵蓋各種場景、天氣和相機(jī)模型的公開數(shù)據(jù)集組成,大約包含 4.6 萬對測試圖片。ZEB 所包含的數(shù)據(jù)數(shù)量遠(yuǎn)多于現(xiàn)有方法普遍采用的,由 MegaDepth 和 ScanNet 組成,僅包含 3000 對圖像的測試集。

圖片

圖 3.ZEB 的組成情況

圖 2 中的模型泛化性能正是來自 ZEB 的評估結(jié)果,具體的評估結(jié)果在圖 4 展示。Mean Rank 指標(biāo)代表匹配模型在 12 個測試序列中的平均排名,排名越接近于 1 越好。Mean AUC@5° 代表匹配模型對姿態(tài)估計的準(zhǔn)確度,數(shù)值越高越好。

圖 4. 匹配模型泛化性能評估結(jié)果

從圖 4 可以看到,GIM 可以明顯地提升匹配模型的泛化性能。在被 GIM 訓(xùn)練前,SuperGlue 和 LoFTR 在 GL3、BLE 和 GTA 序列中甚至不如傳統(tǒng)算法 RootSIFT。在被 GIM 訓(xùn)練后,這兩個模型的泛化性能都得到了極大的提升。

正如剛才所說,50 小時的視頻數(shù)據(jù)還遠(yuǎn)未讓模型的性能達(dá)到極限。按照作者最新的 100 小時視頻數(shù)據(jù)訓(xùn)練結(jié)果,圖片的性能已經(jīng)可以達(dá)到 51.2,遠(yuǎn)超現(xiàn)有的模型。

如圖 5 所示,匹配模型的泛化性能提升,同樣會為下游任務(wù)帶來增益。值得注意的是,在圖 5 的重定位任務(wù)中,GIM 都是僅以一個模型和其他特定場景的模型進(jìn)行對比,但依然能取得更好的結(jié)果。

圖片

圖 5. 匹配模型在下游任務(wù):單應(yīng)性矩陣估計、室內(nèi)和室外重定位任務(wù)下的性能表現(xiàn)

雙視圖圖像匹配的結(jié)果如下圖所示:

圖 6. 匹配模型在雙視圖匹配下的可視化結(jié)果

除此之外,如圖 7 所示,GIM 模型強(qiáng)大的泛化性能還可以處理訓(xùn)練中從未見過的點(diǎn)云鳥瞰圖匹配任務(wù)。

圖 7. 匹配模型在點(diǎn)云鳥瞰圖匹配下的可視化結(jié)果

作為多視圖重建的通用方法,COLMAP 被廣泛地應(yīng)用于如 visual localization,neural rendering 等下游任務(wù)。將 COLMAP 中的匹配方法替換成 GIM,多視圖重建的效果更好,這極大程度地提升了 COLMAP 的魯棒性。

 圖 8. 不同匹配模型對多視圖重建的影響。第一行是部分重建圖像的展示。第二行是重建的結(jié)果展示。讀者感興趣可以去論文主頁和介紹視頻中觀看動態(tài)可交互的結(jié)果。

由于 GIM 能夠有效提升 COLMAP 多視角重建的質(zhì)量,因此,GIM 也能為對應(yīng)的下游任務(wù)中「增光添彩」,下面幾張圖展示了用 GIM 的 COLMAP 結(jié)果來初始化 Gaussian Splatting 的效果。可以看到在一些有挑戰(zhàn)性的場景中,基于 SIFT 和 DKM 的 COLMAP 都不能夠很好地提供有效的 initialization,導(dǎo)致渲染效果不佳。

圖片

圖片

圖片

圖 9. 不同匹配模型在多視圖重建后對 Gaussian Splatting 的影響。讀者感興趣可以去論文主頁和介紹視頻中觀看動態(tài)結(jié)果。

框架方法

圖 10.GIM 框架

GIM 框架的方法很簡潔,方法的核心在于利用視頻中幀和幀之間的連續(xù)性,將匹配從短距離的幀傳遞到長距離的幀上,以此獲取寬基線的訓(xùn)練圖像。

第一步,準(zhǔn)備一個用于訓(xùn)練的匹配模型和互聯(lián)網(wǎng)視頻。

第二步,用標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)(非互聯(lián)網(wǎng)視頻,如 MegaDepth)訓(xùn)練匹配模型,然后再收集其他補(bǔ)充的匹配方法,用所有這些方法在互聯(lián)網(wǎng)視頻上的短距離間隔的幀上進(jìn)行匹配,獲取較為密集的匹配結(jié)果。再用 outlier filtering 過濾一遍匹配。

第三步,利用視頻的時序關(guān)系,將匹配傳遞到更遠(yuǎn)的幀上,得到重合度較低和基線較寬的訓(xùn)練圖像對。

最后,對傳遞后的圖像對及其匹配標(biāo)簽進(jìn)行數(shù)據(jù)增強(qiáng)并進(jìn)行訓(xùn)練。

下圖是 GIM 在互聯(lián)網(wǎng)視頻上生成的匹配標(biāo)簽可視化。這僅僅是極小的一部分,用于訓(xùn)練的數(shù)據(jù)的多樣性遠(yuǎn)遠(yuǎn)多于作者能展示出來的圖片。

圖 11. 部分互聯(lián)網(wǎng)視頻標(biāo)簽的可視化

總結(jié)

GIM 的提出受到了 GPT 等大模型的啟發(fā),促使作者用海量的視頻數(shù)據(jù)去訓(xùn)練匹配模型,并達(dá)到更高的泛化性能。GIM 的主頁的地址是 xuelunshen.com/gim。歡迎大家跳轉(zhuǎn)到 GIM 的主頁,瀏覽更詳細(xì)生動的介紹視頻、開源的代碼,在線體驗(yàn) GIM 匹配效果的 HuggingFace Demo。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-02 14:50:00

數(shù)據(jù)AI

2024-08-15 15:20:00

模型生成

2025-09-16 12:49:11

2016-04-08 11:57:26

華為廈門大學(xué)

2025-10-31 08:52:00

2024-09-18 09:50:00

大模型AI

2025-02-06 11:25:50

2025-10-20 17:07:20

AI機(jī)器學(xué)習(xí)模型

2010-02-02 09:57:12

微軟比爾·蓋茨

2024-09-02 07:50:00

模型預(yù)測

2024-12-02 10:40:00

AI模型

2025-03-21 13:25:14

2025-02-07 10:10:05

MusicMagus擴(kuò)散模型音樂編輯

2017-07-24 18:38:14

華為

2023-12-10 15:21:39

2024-03-15 08:00:00

模型數(shù)據(jù)

2024-01-29 13:56:55

AI數(shù)據(jù)

2024-11-06 16:00:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號