識(shí)別細(xì)胞也能用大模型了!清華系團(tuán)隊(duì)出品,已入選ICML 2024 | 開(kāi)源
大模型帶來(lái)的生命科學(xué)領(lǐng)域突破,剛剛再傳新進(jìn)展。
來(lái)自清華系,使用大模型實(shí)現(xiàn)了單細(xì)胞身份識(shí)別,同時(shí)模型LangCell也正式對(duì)外開(kāi)源。
它不僅可以準(zhǔn)確識(shí)別細(xì)胞身份,還具有很強(qiáng)的零樣本分析能力,論文已被ICML 2024錄?。

LangCell的數(shù)據(jù)集中包含約2750萬(wàn)條數(shù)據(jù),覆蓋了細(xì)胞類(lèi)型、發(fā)育階段、組織器官、疾病等8個(gè)維度的信息,稱(chēng)得上是“細(xì)胞的百科全書(shū)”。
實(shí)際測(cè)試中,LangCell也在多個(gè)細(xì)胞識(shí)別理解任務(wù)上超越了前SOTA,在研究人員專(zhuān)門(mén)設(shè)計(jì)的新任務(wù)上也表現(xiàn)突出。
而且,即使在不使用文本信息的情況下,單獨(dú)用其包含的細(xì)胞編碼器模塊,也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。
出品團(tuán)隊(duì):清華系創(chuàng)業(yè)公司??分?與清華?學(xué)AIR聶再清教授團(tuán)隊(duì)。
大模型,細(xì)胞識(shí)別的“新武器”
細(xì)胞,是探索?命奧秘的起點(diǎn),細(xì)胞?份的識(shí)別,是?物科學(xué)領(lǐng)域的??熱點(diǎn)。
這不僅關(guān)乎細(xì)胞的“戶?調(diào)查”,還關(guān)系到它們?cè)诮M織中的“社交關(guān)系”,以及它們對(duì)“?物信號(hào)”和“環(huán)境變化”的敏感反應(yīng),?了解這些信息的重要途徑,就是分析單細(xì)胞測(cè)序數(shù)據(jù)。
但單細(xì)胞測(cè)序數(shù)據(jù)分析,就像是?場(chǎng)科學(xué)界的“尋寶游戲”,可能需要?個(gè)??到???不等的跨學(xué)科的團(tuán)隊(duì),用?周到?個(gè)?,甚?更?時(shí)間來(lái)完成。
現(xiàn)在,LangCell模型成為了細(xì)胞?份識(shí)別的“新武器”。
LangCell是?個(gè)結(jié)合單細(xì)胞RNA測(cè)序數(shù)據(jù)與?然語(yǔ)?處理進(jìn)?預(yù)訓(xùn)練的單細(xì)胞表征模型,不僅提?了識(shí)別的準(zhǔn)確性,還減少了對(duì)?量標(biāo)記數(shù)據(jù)的依賴。
傳統(tǒng)的單細(xì)胞RNA測(cè)序數(shù)據(jù)分析,就像是在沒(méi)有地圖的情況下尋找寶藏,雖然能找到?些線索,但總有些?不從?。
?LangCell模型,通過(guò)構(gòu)建單細(xì)胞數(shù)據(jù)和?然語(yǔ)?的統(tǒng)?表?,就像是給了模型?張“藏寶圖”,讓它能夠更直接地找到與細(xì)胞?份相關(guān)的信息。
具體來(lái)說(shuō),LangCell主要由細(xì)胞編碼器(Cell Encoder,CE)和文本編碼器兩部分組成。
其中細(xì)胞編碼器使用預(yù)訓(xùn)練的Geneformer初始化。將排序后的基因表達(dá)序列輸入轉(zhuǎn)化為嵌入向量序列,在序列開(kāi)始處添加[CLS]標(biāo)記,其嵌入向量經(jīng)過(guò)線性變換作為整個(gè)細(xì)胞的表征向量。
文本編碼器又有單模態(tài)和多模態(tài)兩種編碼模式。
單模態(tài)時(shí)相當(dāng)于一個(gè)BERT模型,用于將文本轉(zhuǎn)換為嵌入向量;
多模態(tài)時(shí)在self-attention后添加cross-attention模塊,融合細(xì)胞嵌入向量計(jì)算聯(lián)合表征,并通過(guò)線性層預(yù)測(cè)細(xì)胞-文本匹配概率。

為訓(xùn)練LangCell,研究?員還構(gòu)建了?個(gè)名為scLibrary的數(shù)據(jù)集,它包含了2750萬(wàn)條scRNA-seq數(shù)據(jù)及從OBO Foundry中獲取的細(xì)胞?份的多視??本描述,就像是細(xì)胞研究的“百科全書(shū)”。
這個(gè)數(shù)據(jù)集不僅包含了?量的原始數(shù)據(jù),還包含了多視?的細(xì)胞?份?本描述,為模型提供了豐富的學(xué)習(xí)材料。
此外在零樣本場(chǎng)景中,只需未知類(lèi)型細(xì)胞的scRNA-seq數(shù)據(jù)輸入到CE中,得到細(xì)胞嵌入向量表征,然后與候選類(lèi)型的文本嵌入向量進(jìn)行相似度計(jì)算,分?jǐn)?shù)最高的類(lèi)型即被預(yù)測(cè)為該未知細(xì)胞的類(lèi)型。

結(jié)果,LangCell模型在零樣本細(xì)胞?份理解場(chǎng)景中表現(xiàn)出?,即使沒(méi)有進(jìn)?微調(diào),也能直接對(duì)新的細(xì)胞類(lèi)型進(jìn)?注釋。
在PBMC數(shù)據(jù)集上,零樣本的LangCell分類(lèi)準(zhǔn)確率就已達(dá)到86.5%,F(xiàn)1評(píng)分更是超過(guò)了前SOTA模型的9-shot表現(xiàn)。

在更具挑戰(zhàn)的跨數(shù)據(jù)集的細(xì)胞-文本檢索任務(wù)中,LangCell的零樣本召回率R@1、R@5和R@10結(jié)果都超過(guò)了用30%標(biāo)注數(shù)據(jù)訓(xùn)練的BioTranslator模型。

此外,研究者還專(zhuān)門(mén)構(gòu)建了“非小細(xì)胞肺癌亞型分類(lèi)”和“細(xì)胞通路識(shí)別”兩個(gè)具有重要生物學(xué)意義的新基準(zhǔn)測(cè)試任務(wù)。
結(jié)果在非小細(xì)胞肺癌亞型分類(lèi)任務(wù)中,LangCell的零樣本分類(lèi)準(zhǔn)確率和F1分?jǐn)?shù)分別達(dá)到93.5%和93.2%,比10-shot的Geneformer高出約20%。
而對(duì)于細(xì)胞批次整合任務(wù),在PBMC10K和Perirhinal Cortex兩個(gè)數(shù)據(jù)集上,LangCell的Avgbio、ASWbatch和Sfinal三個(gè)指標(biāo)均達(dá)到了最優(yōu)。

不僅LangCell的表現(xiàn)優(yōu)異,即使在不使用文本信息的情況下,單獨(dú)的CE模塊也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。
在多個(gè)細(xì)胞類(lèi)型注釋任務(wù)的數(shù)據(jù)集上,CE模塊的成績(jī)都超過(guò)了前SOTA,在細(xì)胞通路識(shí)別上的表現(xiàn)也十分優(yōu)異。

作者介紹,LangCell的這些能力,在新疾病或細(xì)胞亞型的研究中尤為重要,可以減少對(duì)?量標(biāo)記數(shù)據(jù)的依賴,加速疾病機(jī)理的發(fā)現(xiàn)。
團(tuán)隊(duì)簡(jiǎn)介
??分?由清華?學(xué)智能產(chǎn)業(yè)研究院(AIR)孵化,重點(diǎn)研究方向是?物醫(yī)藥?業(yè)基礎(chǔ)?模型及新?代對(duì)話式?物醫(yī)藥研發(fā)助?。
水木分子和清華大學(xué)還有兩項(xiàng)與北大和南大共同研發(fā)的成果一同入選了ICML 2024,分別在小分子3D表示學(xué)習(xí)和大分子蛋白質(zhì)表示學(xué)習(xí)方面取得進(jìn)展。
GitHub:https://github.com/PharMolix/OpenBioMed
論文地址https://arxiv.org/abs/2405.06708





































