偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

識(shí)別細(xì)胞也能用大模型了!清華系團(tuán)隊(duì)出品,已入選ICML 2024 | 開(kāi)源

人工智能 新聞
LangCell的數(shù)據(jù)集中包含約2750萬(wàn)條數(shù)據(jù),覆蓋了細(xì)胞類(lèi)型、發(fā)育階段、組織器官、疾病等8個(gè)維度的信息,稱(chēng)得上是“細(xì)胞的百科全書(shū)”。

大模型帶來(lái)的生命科學(xué)領(lǐng)域突破,剛剛再傳新進(jìn)展。

來(lái)自清華系,使用大模型實(shí)現(xiàn)了單細(xì)胞身份識(shí)別,同時(shí)模型LangCell也正式對(duì)外開(kāi)源。

它不僅可以準(zhǔn)確識(shí)別細(xì)胞身份,還具有很強(qiáng)的零樣本分析能力,論文已被ICML 2024錄?。

圖片

LangCell的數(shù)據(jù)集中包含約2750萬(wàn)條數(shù)據(jù),覆蓋了細(xì)胞類(lèi)型、發(fā)育階段、組織器官、疾病等8個(gè)維度的信息,稱(chēng)得上是“細(xì)胞的百科全書(shū)”。

實(shí)際測(cè)試中,LangCell也在多個(gè)細(xì)胞識(shí)別理解任務(wù)上超越了前SOTA,在研究人員專(zhuān)門(mén)設(shè)計(jì)的新任務(wù)上也表現(xiàn)突出。

而且,即使在不使用文本信息的情況下,單獨(dú)用其包含的細(xì)胞編碼器模塊,也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。

出品團(tuán)隊(duì):清華系創(chuàng)業(yè)公司??分?清華?學(xué)AIR聶再清教授團(tuán)隊(duì)。

大模型,細(xì)胞識(shí)別的“新武器”

細(xì)胞,是探索?命奧秘的起點(diǎn),細(xì)胞?份的識(shí)別,是?物科學(xué)領(lǐng)域的??熱點(diǎn)。

這不僅關(guān)乎細(xì)胞的“戶?調(diào)查”,還關(guān)系到它們?cè)诮M織中的“社交關(guān)系”,以及它們對(duì)“?物信號(hào)”和“環(huán)境變化”的敏感反應(yīng),?了解這些信息的重要途徑,就是分析單細(xì)胞測(cè)序數(shù)據(jù)。

但單細(xì)胞測(cè)序數(shù)據(jù)分析,就像是?場(chǎng)科學(xué)界的“尋寶游戲”,可能需要?個(gè)??到???不等的跨學(xué)科的團(tuán)隊(duì),用?周到?個(gè)?,甚?更?時(shí)間來(lái)完成。

現(xiàn)在,LangCell模型成為了細(xì)胞?份識(shí)別的“新武器”。

LangCell是?個(gè)結(jié)合單細(xì)胞RNA測(cè)序數(shù)據(jù)與?然語(yǔ)?處理進(jìn)?預(yù)訓(xùn)練的單細(xì)胞表征模型,不僅提?了識(shí)別的準(zhǔn)確性,還減少了對(duì)?量標(biāo)記數(shù)據(jù)的依賴。

傳統(tǒng)的單細(xì)胞RNA測(cè)序數(shù)據(jù)分析,就像是在沒(méi)有地圖的情況下尋找寶藏,雖然能找到?些線索,但總有些?不從?。

?LangCell模型,通過(guò)構(gòu)建單細(xì)胞數(shù)據(jù)和?然語(yǔ)?的統(tǒng)?表?,就像是給了模型?張“藏寶圖”,讓它能夠更直接地找到與細(xì)胞?份相關(guān)的信息。

具體來(lái)說(shuō),LangCell主要由細(xì)胞編碼器(Cell Encoder,CE)和文本編碼器兩部分組成。

其中細(xì)胞編碼器使用預(yù)訓(xùn)練的Geneformer初始化。將排序后的基因表達(dá)序列輸入轉(zhuǎn)化為嵌入向量序列,在序列開(kāi)始處添加[CLS]標(biāo)記,其嵌入向量經(jīng)過(guò)線性變換作為整個(gè)細(xì)胞的表征向量。

文本編碼器又有單模態(tài)和多模態(tài)兩種編碼模式。

單模態(tài)時(shí)相當(dāng)于一個(gè)BERT模型,用于將文本轉(zhuǎn)換為嵌入向量;

多模態(tài)時(shí)在self-attention后添加cross-attention模塊,融合細(xì)胞嵌入向量計(jì)算聯(lián)合表征,并通過(guò)線性層預(yù)測(cè)細(xì)胞-文本匹配概率。

圖片

為訓(xùn)練LangCell,研究?員還構(gòu)建了?個(gè)名為scLibrary的數(shù)據(jù)集,它包含了2750萬(wàn)條scRNA-seq數(shù)據(jù)及從OBO Foundry中獲取的細(xì)胞?份的多視??本描述,就像是細(xì)胞研究的“百科全書(shū)”。

這個(gè)數(shù)據(jù)集不僅包含了?量的原始數(shù)據(jù),還包含了多視?的細(xì)胞?份?本描述,為模型提供了豐富的學(xué)習(xí)材料。

此外在零樣本場(chǎng)景中,只需未知類(lèi)型細(xì)胞的scRNA-seq數(shù)據(jù)輸入到CE中,得到細(xì)胞嵌入向量表征,然后與候選類(lèi)型的文本嵌入向量進(jìn)行相似度計(jì)算,分?jǐn)?shù)最高的類(lèi)型即被預(yù)測(cè)為該未知細(xì)胞的類(lèi)型。

圖片

結(jié)果,LangCell模型在零樣本細(xì)胞?份理解場(chǎng)景中表現(xiàn)出?,即使沒(méi)有進(jìn)?微調(diào),也能直接對(duì)新的細(xì)胞類(lèi)型進(jìn)?注釋。

在PBMC數(shù)據(jù)集上,零樣本的LangCell分類(lèi)準(zhǔn)確率就已達(dá)到86.5%,F(xiàn)1評(píng)分更是超過(guò)了前SOTA模型的9-shot表現(xiàn)。

圖片

在更具挑戰(zhàn)的跨數(shù)據(jù)集的細(xì)胞-文本檢索任務(wù)中,LangCell的零樣本召回率R@1、R@5和R@10結(jié)果都超過(guò)了用30%標(biāo)注數(shù)據(jù)訓(xùn)練的BioTranslator模型。

圖片

此外,研究者還專(zhuān)門(mén)構(gòu)建了“非小細(xì)胞肺癌亞型分類(lèi)”和“細(xì)胞通路識(shí)別”兩個(gè)具有重要生物學(xué)意義的新基準(zhǔn)測(cè)試任務(wù)。

結(jié)果在非小細(xì)胞肺癌亞型分類(lèi)任務(wù)中,LangCell的零樣本分類(lèi)準(zhǔn)確率和F1分?jǐn)?shù)分別達(dá)到93.5%和93.2%,比10-shot的Geneformer高出約20%。

而對(duì)于細(xì)胞批次整合任務(wù),在PBMC10K和Perirhinal Cortex兩個(gè)數(shù)據(jù)集上,LangCell的Avgbio、ASWbatch和Sfinal三個(gè)指標(biāo)均達(dá)到了最優(yōu)。

圖片

不僅LangCell的表現(xiàn)優(yōu)異,即使在不使用文本信息的情況下,單獨(dú)的CE模塊也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。

在多個(gè)細(xì)胞類(lèi)型注釋任務(wù)的數(shù)據(jù)集上,CE模塊的成績(jī)都超過(guò)了前SOTA,在細(xì)胞通路識(shí)別上的表現(xiàn)也十分優(yōu)異。

圖片

作者介紹,LangCell的這些能力,在新疾病或細(xì)胞亞型的研究中尤為重要,可以減少對(duì)?量標(biāo)記數(shù)據(jù)的依賴,加速疾病機(jī)理的發(fā)現(xiàn)。

團(tuán)隊(duì)簡(jiǎn)介

??分?由清華?學(xué)智能產(chǎn)業(yè)研究院(AIR)孵化,重點(diǎn)研究方向是?物醫(yī)藥?業(yè)基礎(chǔ)?模型及新?代對(duì)話式?物醫(yī)藥研發(fā)助?。

水木分子和清華大學(xué)還有兩項(xiàng)與北大和南大共同研發(fā)的成果一同入選了ICML 2024,分別在小分子3D表示學(xué)習(xí)和大分子蛋白質(zhì)表示學(xué)習(xí)方面取得進(jìn)展。

GitHub:https://github.com/PharMolix/OpenBioMed

論文地址https://arxiv.org/abs/2405.06708

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-06-18 15:50:56

模型人工智能深度學(xué)習(xí)

2024-06-11 07:40:00

2024-07-30 13:42:57

2024-02-27 09:14:01

AI模型

2024-07-19 10:39:38

2024-10-25 14:30:00

模型AI

2023-10-17 12:34:04

2025-05-07 13:48:48

AIGC生成機(jī)器人

2024-07-22 08:22:00

2023-03-15 09:36:14

模型

2024-06-28 16:03:38

2023-08-08 14:36:11

模型AI

2025-09-01 08:54:00

2024-01-15 06:30:00

模型AI

2025-07-17 09:28:09

2021-06-02 10:01:20

開(kāi)源技術(shù) 軟件

2025-07-23 10:07:31

2025-02-12 12:45:59

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機(jī)器學(xué)習(xí)

2024-02-07 12:39:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)