偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<form id="ae0vu"><optgroup id="ae0vu"></optgroup></form>

<tt id="ae0vu"></tt>

<em id="ae0vu"><ul id="ae0vu"><small id="ae0vu"></small></ul></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

識(shí)別細(xì)胞也能用大模型了！清華系團(tuán)隊(duì)出品，已入選ICML 2024 | 開(kāi)源

作者：量子位 2024-05-16 12:48:12

人工智能新聞

LangCell的數(shù)據(jù)集中包含約2750萬(wàn)條數(shù)據(jù)，覆蓋了細(xì)胞類(lèi)型、發(fā)育階段、組織器官、疾病等8個(gè)維度的信息，稱(chēng)得上是“細(xì)胞的百科全書(shū)”。

大模型帶來(lái)的生命科學(xué)領(lǐng)域突破，剛剛再傳新進(jìn)展。

來(lái)自清華系，使用大模型實(shí)現(xiàn)了單細(xì)胞身份識(shí)別，同時(shí)模型LangCell也正式對(duì)外開(kāi)源。

它不僅可以準(zhǔn)確識(shí)別細(xì)胞身份，還具有很強(qiáng)的零樣本分析能力，論文已被ICML 2024錄?。

LangCell的數(shù)據(jù)集中包含約2750萬(wàn)條數(shù)據(jù)，覆蓋了細(xì)胞類(lèi)型、發(fā)育階段、組織器官、疾病等8個(gè)維度的信息，稱(chēng)得上是“細(xì)胞的百科全書(shū)”。

實(shí)際測(cè)試中，LangCell也在多個(gè)細(xì)胞識(shí)別理解任務(wù)上超越了前SOTA，在研究人員專(zhuān)門(mén)設(shè)計(jì)的新任務(wù)上也表現(xiàn)突出。

而且，即使在不使用文本信息的情況下，單獨(dú)用其包含的細(xì)胞編碼器模塊，也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。

出品團(tuán)隊(duì)：清華系創(chuàng)業(yè)公司??分?與清華?學(xué)AIR聶再清教授團(tuán)隊(duì)。

大模型，細(xì)胞識(shí)別的“新武器”

細(xì)胞，是探索?命奧秘的起點(diǎn)，細(xì)胞?份的識(shí)別，是?物科學(xué)領(lǐng)域的??熱點(diǎn)。

這不僅關(guān)乎細(xì)胞的“戶?調(diào)查”，還關(guān)系到它們?cè)诮M織中的“社交關(guān)系”，以及它們對(duì)“?物信號(hào)”和“環(huán)境變化”的敏感反應(yīng)，?了解這些信息的重要途徑，就是分析單細(xì)胞測(cè)序數(shù)據(jù)。

但單細(xì)胞測(cè)序數(shù)據(jù)分析，就像是?場(chǎng)科學(xué)界的“尋寶游戲”，可能需要?個(gè)??到???不等的跨學(xué)科的團(tuán)隊(duì)，用?周到?個(gè)?，甚?更?時(shí)間來(lái)完成。

現(xiàn)在，LangCell模型成為了細(xì)胞?份識(shí)別的“新武器”。

LangCell是?個(gè)結(jié)合單細(xì)胞RNA測(cè)序數(shù)據(jù)與?然語(yǔ)?處理進(jìn)?預(yù)訓(xùn)練的單細(xì)胞表征模型，不僅提?了識(shí)別的準(zhǔn)確性，還減少了對(duì)?量標(biāo)記數(shù)據(jù)的依賴。

傳統(tǒng)的單細(xì)胞RNA測(cè)序數(shù)據(jù)分析，就像是在沒(méi)有地圖的情況下尋找寶藏，雖然能找到?些線索，但總有些?不從?。

?LangCell模型，通過(guò)構(gòu)建單細(xì)胞數(shù)據(jù)和?然語(yǔ)?的統(tǒng)?表?，就像是給了模型?張“藏寶圖”，讓它能夠更直接地找到與細(xì)胞?份相關(guān)的信息。

具體來(lái)說(shuō)，LangCell主要由細(xì)胞編碼器（Cell Encoder，CE）和文本編碼器兩部分組成。

其中細(xì)胞編碼器使用預(yù)訓(xùn)練的Geneformer初始化。將排序后的基因表達(dá)序列輸入轉(zhuǎn)化為嵌入向量序列，在序列開(kāi)始處添加[CLS]標(biāo)記，其嵌入向量經(jīng)過(guò)線性變換作為整個(gè)細(xì)胞的表征向量。

文本編碼器又有單模態(tài)和多模態(tài)兩種編碼模式。

單模態(tài)時(shí)相當(dāng)于一個(gè)BERT模型,用于將文本轉(zhuǎn)換為嵌入向量；

多模態(tài)時(shí)在self-attention后添加cross-attention模塊，融合細(xì)胞嵌入向量計(jì)算聯(lián)合表征，并通過(guò)線性層預(yù)測(cè)細(xì)胞-文本匹配概率。

為訓(xùn)練LangCell，研究?員還構(gòu)建了?個(gè)名為scLibrary的數(shù)據(jù)集，它包含了2750萬(wàn)條scRNA-seq數(shù)據(jù)及從OBO Foundry中獲取的細(xì)胞?份的多視??本描述，就像是細(xì)胞研究的“百科全書(shū)”。

這個(gè)數(shù)據(jù)集不僅包含了?量的原始數(shù)據(jù)，還包含了多視?的細(xì)胞?份?本描述，為模型提供了豐富的學(xué)習(xí)材料。

此外在零樣本場(chǎng)景中，只需未知類(lèi)型細(xì)胞的scRNA-seq數(shù)據(jù)輸入到CE中，得到細(xì)胞嵌入向量表征，然后與候選類(lèi)型的文本嵌入向量進(jìn)行相似度計(jì)算，分?jǐn)?shù)最高的類(lèi)型即被預(yù)測(cè)為該未知細(xì)胞的類(lèi)型。

結(jié)果，LangCell模型在零樣本細(xì)胞?份理解場(chǎng)景中表現(xiàn)出?，即使沒(méi)有進(jìn)?微調(diào)，也能直接對(duì)新的細(xì)胞類(lèi)型進(jìn)?注釋。

在PBMC數(shù)據(jù)集上，零樣本的LangCell分類(lèi)準(zhǔn)確率就已達(dá)到86.5%，F(xiàn)1評(píng)分更是超過(guò)了前SOTA模型的9-shot表現(xiàn)。

在更具挑戰(zhàn)的跨數(shù)據(jù)集的細(xì)胞-文本檢索任務(wù)中，LangCell的零樣本召回率R@1、R@5和R@10結(jié)果都超過(guò)了用30%標(biāo)注數(shù)據(jù)訓(xùn)練的BioTranslator模型。

此外，研究者還專(zhuān)門(mén)構(gòu)建了“非小細(xì)胞肺癌亞型分類(lèi)”和“細(xì)胞通路識(shí)別”兩個(gè)具有重要生物學(xué)意義的新基準(zhǔn)測(cè)試任務(wù)。

結(jié)果在非小細(xì)胞肺癌亞型分類(lèi)任務(wù)中，LangCell的零樣本分類(lèi)準(zhǔn)確率和F1分?jǐn)?shù)分別達(dá)到93.5%和93.2%，比10-shot的Geneformer高出約20%。

而對(duì)于細(xì)胞批次整合任務(wù)，在PBMC10K和Perirhinal Cortex兩個(gè)數(shù)據(jù)集上，LangCell的Avgbio、ASWbatch和Sfinal三個(gè)指標(biāo)均達(dá)到了最優(yōu)。

不僅LangCell的表現(xiàn)優(yōu)異，即使在不使用文本信息的情況下，單獨(dú)的CE模塊也能在各個(gè)任務(wù)上實(shí)現(xiàn)最優(yōu)表現(xiàn)。

在多個(gè)細(xì)胞類(lèi)型注釋任務(wù)的數(shù)據(jù)集上，CE模塊的成績(jī)都超過(guò)了前SOTA，在細(xì)胞通路識(shí)別上的表現(xiàn)也十分優(yōu)異。

作者介紹，LangCell的這些能力，在新疾病或細(xì)胞亞型的研究中尤為重要，可以減少對(duì)?量標(biāo)記數(shù)據(jù)的依賴，加速疾病機(jī)理的發(fā)現(xiàn)。

團(tuán)隊(duì)簡(jiǎn)介

??分?由清華?學(xué)智能產(chǎn)業(yè)研究院（AIR）孵化，重點(diǎn)研究方向是?物醫(yī)藥?業(yè)基礎(chǔ)?模型及新?代對(duì)話式?物醫(yī)藥研發(fā)助?。

水木分子和清華大學(xué)還有兩項(xiàng)與北大和南大共同研發(fā)的成果一同入選了ICML 2024，分別在小分子3D表示學(xué)習(xí)和大分子蛋白質(zhì)表示學(xué)習(xí)方面取得進(jìn)展。

GitHub：https://github.com/PharMolix/OpenBioMed

論文地址https://arxiv.org/abs/2405.06708

責(zé)任編輯：張燕妮來(lái)源：量子位

數(shù)據(jù)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="gjdxq"><li id="gjdxq"></li></abbr>

<ruby id="gjdxq"><rp id="gjdxq"></rp></ruby>

<blockquote id="gjdxq"><tbody id="gjdxq"></tbody></blockquote>