一張圖實(shí)現(xiàn)街道級(jí)定位,端到端圖像地理定位大模型AdressCLIP登ECCV2024
拔草星人的好消息來(lái)啦!
中科院自動(dòng)化所和阿里云一起推出了街景定位大模型,只要一張照片就能實(shí)現(xiàn)街道級(jí)精度的定位。
有了模型的幫助,再也不用害怕遇到種草“謎語(yǔ)人”了。
比如給模型看一張舊金山的街景之后,它直接給出了具體的拍攝位置,并列舉了附近的多個(gè)候選地址。
該模型名為AddressCLIP,基于CLIP構(gòu)建。
相關(guān)論文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入選頂會(huì)ECCV2024。
圖片
傳統(tǒng)的圖像位置識(shí)別往往致力于以圖像檢索的方式來(lái)確定圖像的GPS坐標(biāo),這種方法稱為圖像地理定位。
但GPS對(duì)于普通人來(lái)說(shuō)晦澀難懂,并且圖像檢索需要建立并維護(hù)一個(gè)龐大的數(shù)據(jù)庫(kù),難以本地化部署。
本篇工作提出了更加用戶友好的,端到端的圖像地理定位任務(wù)。二者的對(duì)比示意圖如下:
圖片
針對(duì)這個(gè)任務(wù),為了實(shí)現(xiàn)上述效果,研究人員主要從數(shù)據(jù)集構(gòu)建與定制化的模型訓(xùn)練兩方面入手開(kāi)展了研究。
圖像地址定位數(shù)據(jù)集構(gòu)建
圖像地址定位本質(zhì)上是需要將街景圖像與地址文本進(jìn)行圖文模態(tài)的對(duì)齊,因此首先需要收集大量的圖像-地址對(duì)。
考慮到現(xiàn)有的用于多模態(tài)訓(xùn)練的圖文數(shù)據(jù)中包含地址信息的數(shù)據(jù)比例過(guò)于稀少,研究人員選擇基于圖像地理定位中的圖像-GPS數(shù)據(jù)對(duì)進(jìn)行數(shù)據(jù)集的構(gòu)造。
具體來(lái)說(shuō),通過(guò)使用地圖中的Reverse Geocoding API,可以對(duì)一個(gè)GPS查詢到一系列的相近的地址。
接著,通過(guò)篩選、投票等數(shù)據(jù)清洗機(jī)制,可以過(guò)濾得到每個(gè)圖像的街道級(jí)地址文本。
這一過(guò)程如下圖所示:
圖片
然而,考慮到街道本身的長(zhǎng)短分布差異巨大,導(dǎo)致這個(gè)分布極度不均衡,同時(shí)街道級(jí)別的定位精度仍然過(guò)于粗糙。
因此,研究人員模仿人類描述位置的習(xí)慣,對(duì)于街道級(jí)別的地址進(jìn)行了進(jìn)一步的語(yǔ)義地址劃分。
該過(guò)程通過(guò)使用道路交叉的十字路口等信息來(lái)對(duì)地址信息進(jìn)行加強(qiáng),其具體過(guò)程以及最終形成的地址文本描述如下:
圖片
最終,論文構(gòu)造了位于兩個(gè)城市,三種不同尺度的數(shù)據(jù)集,相關(guān)數(shù)據(jù)信息如下:
圖片
AddressCLIP具體實(shí)現(xiàn)
有了上述街景-地址文本的數(shù)據(jù)準(zhǔn)備之后,似乎直接模仿CLIP的方式進(jìn)行對(duì)比學(xué)習(xí)的微調(diào)即可。
但考慮到本任務(wù)的圖像-文本數(shù)據(jù)對(duì)的語(yǔ)義關(guān)聯(lián)十分微弱,這和CLIP預(yù)訓(xùn)練的數(shù)據(jù)存在著比較大的差異。
因此研究人員首先從數(shù)據(jù)和損失函數(shù)層面進(jìn)行了對(duì)CLIP原始的訓(xùn)練框架進(jìn)行了改進(jìn)。
具體來(lái)說(shuō),借助以BLIP為代表的多模態(tài)生成模型的圖像標(biāo)注能力,研究人員對(duì)于訓(xùn)練數(shù)據(jù)中每個(gè)街景圖像進(jìn)行了語(yǔ)義文本的自動(dòng)化標(biāo)注。
圖片
然后,作者將語(yǔ)義文本與地址文本按照一定規(guī)則直接進(jìn)行拼接,顯式的彌補(bǔ)了本任務(wù)和CLIP預(yù)訓(xùn)練任務(wù)的差異。
這樣一來(lái),微調(diào)過(guò)程優(yōu)化更加容易,并且也能過(guò)通過(guò)語(yǔ)義隱式增強(qiáng)了地址文本的判別性。
此外,考慮到圖像特征,地址文本特征在預(yù)訓(xùn)練特征空間的分布可能是十分不均勻的。
受到流形學(xué)習(xí)的啟發(fā),作者認(rèn)為本任務(wù)中圖像-地址文本的理想特征應(yīng)該位于一個(gè)和真實(shí)環(huán)境匹配的低維流形上。
具體來(lái)說(shuō),研究人員們引入了在真實(shí)地理環(huán)境中距離相近的兩個(gè)點(diǎn),其地址與圖像特征在特征空間也應(yīng)當(dāng)接近,反之亦然這一假設(shè)。
利用圖像與圖像兩兩之間歸一化后的真實(shí)地理距離來(lái)監(jiān)督它們?cè)谔卣骺臻g中的距離,從而實(shí)現(xiàn)了圖像特征與真實(shí)地理環(huán)境的在距離層面的匹配,使得模型學(xué)到的特征空間更加均勻。
因此,AddressCLIP將經(jīng)典的CLIP損失優(yōu)化為圖像-地址文本對(duì)比損失,圖像-語(yǔ)義對(duì)比損失以及圖像-地理匹配損失,最終實(shí)現(xiàn)了準(zhǔn)確、均勻的圖像-地址文本對(duì)齊。
圖片
完成上述訓(xùn)練后,AddressCLIP可以通過(guò)給定候選地址集的形式進(jìn)行推理。
值得一提的是,得益于模型將圖像與各種地址的良好對(duì)齊,推理所用的候選文本可以是十分靈活與多樣的形式,而非一定要按照訓(xùn)練集的書寫規(guī)則。
效果優(yōu)于通用多模態(tài)模型
在定量實(shí)驗(yàn)結(jié)果中,團(tuán)隊(duì)主要將模型與與zero-shot的CLIP,直接對(duì)齊地址的CLIP以及各種CLIP微調(diào)策略方法等進(jìn)行對(duì)比。
可以看到,AddressCLIP在不同數(shù)據(jù)集,不同指標(biāo)上均優(yōu)于各個(gè)所比較方法。
圖片
在定性實(shí)驗(yàn)中,論文主要展示了AddressCLIP在推理形式上的靈活性與泛化性。
通過(guò)給定不同精細(xì)程度的地址文本的查詢(如街區(qū),街道,子街道),模型都可以在測(cè)試集圖像上展示出與其真實(shí)覆蓋地理分布一致的激活。
圖片
此外,研究人員也暢想了這一任務(wù)與數(shù)據(jù)集與多模態(tài)大模型結(jié)合的場(chǎng)景。
通過(guò)將數(shù)據(jù)集構(gòu)造成關(guān)于地址問(wèn)答的多輪對(duì)話形式,團(tuán)隊(duì)對(duì)LLaVA-1.5-vicuna進(jìn)行了視覺(jué)指令微調(diào),實(shí)現(xiàn)了對(duì)圖像地址的生成式識(shí)別。
在與前沿多模態(tài)模型的對(duì)比中展現(xiàn)出明顯的優(yōu)勢(shì),尤其是針對(duì)圖像中不存在地標(biāo)與明顯線索的圖像。
圖片
作者預(yù)計(jì),未來(lái)這一技術(shù)可以進(jìn)一步擴(kuò)展應(yīng)用于社交媒體基于位置的個(gè)性化推薦上,或者與多模態(tài)大模型結(jié)合進(jìn)行更加豐富的地址,地理信息相關(guān)問(wèn)答,提供更加智能的城市、地理助手。
論文地址:https://arxiv.org/abs/2407.08156
項(xiàng)目主頁(yè):https://addressclip.github.io