偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI一眼認出95萬物種,還能分辨雄雌老幼,2億生物圖像煉成“生命視覺”大模型

人工智能 新聞
俄亥俄州立大學研究團隊在2億生物圖像數(shù)據(jù)上訓練了BioCLIP 2模型。大規(guī)模的訓練讓BioCLIP 2取得了目前最優(yōu)的物種識別性能。

讓AI看懂95萬物種,并自己悟出生態(tài)關系與個體差異!

俄亥俄州立大學研究團隊在2億生物圖像數(shù)據(jù)上訓練了BioCLIP 2模型。大規(guī)模的訓練讓BioCLIP 2取得了目前最優(yōu)的物種識別性能。

而更令人驚喜的是,即使在訓練過程中沒有相應監(jiān)督信號,BioCLIP 2還在棲息地識別、植物疾病識別等5個非物種任務中給出了遠超DINOv2的準確率。

BioCLIP 2在大規(guī)模訓練中獲取了物種之外的涌現(xiàn)的生物學理解:

  • 物種間生態(tài)對齊:不同達爾文雀在特征空間中的排列和他們喙的大小一致;
  • 物種內差異分離:雌雄/幼成體的特征落在與物種區(qū)別正交的子空間,且隨訓練規(guī)模增大而更容易區(qū)分。

圖片

以下是論文詳情:

把“生命之樹”搬進顯存

大語言/視覺模型的“涌現(xiàn)”告訴我們:規(guī)模+結構化監(jiān)督=意料之外的能力

然而,生物多樣性研究領域一直沒有見到一個具有涌現(xiàn)屬性的視覺語義基座。BIOCLIP把CLIP的多模態(tài)對齊搬到物種上,利用〔界-門-綱-目-科-屬-種〕+學名+常用名的多粒度文本提供層級監(jiān)督。在此基礎之上,研究團隊提出一個問題:

如果把層級對比學習從1千萬張圖像直接推到2億,會不會學出超越“物種標簽”的生物學知識?

BIOCLIP 2正是這一實驗的答案。

為了實現(xiàn)這一目標,研究團隊從GBIF、EOL、BIOSCAN-5M、FathomNet等 4 大平臺收集了2.14億生物圖像,提出了TreeOfLife-200M數(shù)據(jù)集。該數(shù)據(jù)集包含95.2萬個不同的分類標簽,涵蓋標本、野外相機陷阱等豐富的圖像類別。這是迄今規(guī)模最大、最豐富的生命圖像庫。

圖片

在增大訓練數(shù)據(jù)量的同時,研究團隊也將模型從ViT-B擴大至ViT-L。更大的參數(shù)量為新知識的涌現(xiàn)做好了準備。

性能一覽

物種識別:零樣本物種識別平均準確率55.6% →比第二好的SigLIP模型提升了16.1。少樣本物種識別遠優(yōu)于常用的視覺模型DINOv2。

圖片

非物種視覺任務:除了物種分類之外,BioCLIP 2還在棲息地識別、生物屬性識別、新物種發(fā)現(xiàn)和植物疾病識別等多項任務上超越了SigLIP和DINOv2等常用視覺模型。

圖片

BioCLIP 2在訓練階段只接觸了物種層級的監(jiān)督信號,但卻在各類非物種生物視覺任務上取得了優(yōu)異的性能。這讓研究團隊深入調查了模型的特征空間,并發(fā)現(xiàn)了大規(guī)模訓練帶來的涌現(xiàn)屬性。

兩大涌現(xiàn)屬性

1. 物種間生態(tài)對齊

具有相似生活習性和生態(tài)學意義的物種在特征空間中聚集在一起,如淡水vs咸水魚隨著訓練規(guī)模擴大分界逐漸清晰。

解釋:層級標簽把生態(tài)近鄰拉向相似的文本原型,從而實現(xiàn)視覺特征和功能特征的對齊。

圖片

2. 物種內差異分離

同一物種雌雄、幼成體之間的差異沒有被對比學習消除,而是沿著物種間差異正交的方向分布,且正交程度隨著訓練規(guī)模增大同步增大。

解釋:當對比學習將不同的物種分開后,物種內的差異可以在正交子空間內分布而不會影響物種分類的損失優(yōu)化(論文中定理 5.1)。

圖片

1M→10M→50M→214M 四檔實驗顯示:所有非物種視覺任務性能單調上升,且體內差異的分離度 / 正交度同步提升,進一步證實了擴大訓練規(guī)模給涌現(xiàn)屬性帶來的增益。

圖片

一句話總結:BIOCLIP 2 證明了“把正確的監(jiān)督做大”同樣能在專業(yè)領域復刻大模型的涌現(xiàn)屬性——不僅準確,而且懂生物。

項目主頁:https://imageomics.github.io/bioclip-2/
Demo網(wǎng)址:https://huggingface.co/spaces/imageomics/bioclip-2-demo
論文網(wǎng)址:https://arxiv.org/abs/2505.23883


責任編輯:張燕妮 來源: 量子位
相關推薦

2018-01-11 15:15:13

2024-09-18 10:40:00

AI生成

2014-08-11 14:36:42

2018-04-26 12:24:22

AI生萬物GMIC開幕

2023-05-08 12:43:14

2010-09-17 10:45:04

李彥宏

2020-11-03 21:06:45

AI華為云ModelArts P

2023-10-22 07:11:58

2024-03-18 09:38:42

騰訊清華模型

2016-08-26 13:35:07

技術WOT移動

2021-03-30 10:46:28

運營商5G物聯(lián)網(wǎng)

2019-12-06 14:23:03

物聯(lián)網(wǎng)NB-IoT5G

2023-06-08 10:28:13

2018-01-08 17:58:34

IT耳朵

2020-10-12 17:21:21

IPv6互聯(lián)網(wǎng)技術

2020-05-09 13:00:08

AI 工具自動化

2022-04-20 10:33:59

人工智能數(shù)字經(jīng)濟互聯(lián)網(wǎng) 文章鏈接:智

2009-09-09 11:14:16

Scala對象

2012-12-12 16:18:32

互聯(lián)網(wǎng)思科IPv6

2017-11-30 13:29:39

邊緣智算ECC
點贊
收藏

51CTO技術棧公眾號