CVPR 2024 Oral:生命之樹大模型 原創(chuàng)

圖1:使用CLIP目標(biāo)(c)來訓(xùn)練一個(gè)ViT-B/16模型,該模型使用超過45萬個(gè)不同的類標(biāo)簽,所有這些標(biāo)簽都來自生命之樹的分類標(biāo)簽(a)。由于文本編碼器是一個(gè)自回歸語言模型,因此排序表示僅能依賴于高級(jí)別的分類,如類、門和界(b)。這自然導(dǎo)致了標(biāo)簽的層次表示,有助于視覺編碼器學(xué)習(xí)更符合生命之樹的圖像表示。
自然界的圖像是生物信息的超豐富來源。有許多計(jì)算方法和工具,特別是計(jì)算機(jī)視覺,可以從圖像中提取信息。但是,現(xiàn)有的方法是針對(duì)特定任務(wù)的定制模型,并且不能適應(yīng)或擴(kuò)展到新的問題、情境和數(shù)據(jù)集。
近日,研究人員開發(fā)了第一個(gè)大規(guī)模多模態(tài)模型,BioCLIP,用于圖像上的一般生物學(xué)問題。利用生物學(xué)作為計(jì)算機(jī)視覺應(yīng)用領(lǐng)域的獨(dú)特特性:
- 植物、動(dòng)物和真菌圖像的豐富性和多樣性;
- 豐富的結(jié)構(gòu)化生物知識(shí)的可用性。
該工作入選CVPR 2024 Oral。作者發(fā)布了一個(gè)大規(guī)模、多樣化的生物圖像數(shù)據(jù)集:TreeOfLife-10M,訓(xùn)練了BioCLIP,并在多樣化的細(xì)粒度生物分類任務(wù)上對(duì)該方法進(jìn)行了嚴(yán)格的基準(zhǔn)測(cè)試,發(fā)現(xiàn)BioCLIP始終顯著優(yōu)于現(xiàn)有基線,絕對(duì)值提高了17%到20%。內(nèi)在評(píng)估進(jìn)一步揭示了BioCLIP已經(jīng)學(xué)習(xí)到符合生命之樹的層次化表示,從而突顯了其強(qiáng)大的泛化能力。
實(shí)驗(yàn)
在各種各樣的與生物學(xué)相關(guān)的分類任務(wù)上,作者評(píng)估了BioCLIP和三個(gè)基準(zhǔn)模型,包括CLIP、OpenCLIP,以及僅使用與BioCLIP相同過程但僅在iNat21上訓(xùn)練的iNat-only模型。作者對(duì)所有模型進(jìn)行了零樣本分類,并在驗(yàn)證集上報(bào)告準(zhǔn)確率。加粗表示每個(gè)任務(wù)的最佳性能。
實(shí)驗(yàn)結(jié)果表明,BioCLIP優(yōu)于通用領(lǐng)域的基準(zhǔn)模型以及iNat-only模型。

內(nèi)在評(píng)估
為什么BioCLIP效果這么好?作者進(jìn)行了內(nèi)在評(píng)估,以了解BioCLIP學(xué)習(xí)到的表示。使用T-SNE在二維平面上繪制了iNat21驗(yàn)證集中10萬個(gè)未見過的圖像的BioCLIP和CLIP的表示,并根據(jù)它們的類別對(duì)點(diǎn)進(jìn)行著色。在下圖中,(B)表示BioCLIP,(O)表示OpenAI的CLIP。
在類群等較高級(jí)別上,CLIP和BioCLIP都有良好的分離性,但您可以看到BioCLIP的表示更加細(xì)粒化,并包含更豐富的聚類結(jié)構(gòu)。在較低級(jí)別上,BioCLIP產(chǎn)生了更具可分辨性的特征,而CLIP的特征往往混亂且缺乏清晰的結(jié)構(gòu)。這表明BioCLIP已經(jīng)學(xué)習(xí)到了符合分類學(xué)層次結(jié)構(gòu)的豐富特征表示,這有助于解釋其在生命之樹上強(qiáng)大的泛化能力。

BioCLIP的表示比OpenAI的CLIP更細(xì)?;?,并且包含更豐富的聚類結(jié)構(gòu)。
數(shù)據(jù)集

TreeOfLife-10M是目前可用的最大和最多樣化的生物圖像數(shù)據(jù)集。研究人員從三個(gè)來源,包括iNaturalist、BIOSCAN-1M和Encyclopedia of Life中獲取圖像,創(chuàng)建了一個(gè)包含1000萬張圖像的數(shù)據(jù)集,涵蓋了45萬多個(gè)物種。
參考:
@article{stevens2023bioclip, title={BioCLIP: A Vision Foundation Model for the Tree of Life}, author={Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, year={2023}, eprint={2311.18803}, archivePrefix={arXiv}, primaryClass={cs.CV} }
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/KgvscZ321hvB-oN2VB7yDQ???

















