偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從0編寫(xiě)基因組!史上最大生物學(xué)模型Evo-2全面開(kāi)源:硅基生命能創(chuàng)造細(xì)胞?

人工智能 新聞
史上最大的基因組AI模型Evo 2使用超過(guò)12.8萬(wàn)個(gè)基因組數(shù)據(jù)訓(xùn)練,包含9.3萬(wàn)億個(gè)核苷酸,能預(yù)測(cè)突變效應(yīng)、設(shè)計(jì) DNA 序列,并通過(guò)可視化工具展示學(xué)習(xí)到的生物特征,為生成生物學(xué)和疾病研究提供新思路。

生命的一切表現(xiàn),基本都可以從DNA編碼中找到答案。

基因組(Genome)包含了生物體所有基因以及非編碼的DNA序列,承載了生物體發(fā)育、生長(zhǎng)、繁殖和適應(yīng)環(huán)境所需的全部遺傳信息,近年來(lái)基因組相關(guān)的測(cè)序、合成和編輯工具已經(jīng)徹底改變了生物學(xué)研究。

圖片

然而,基因組的復(fù)雜性是巨大的,即使是最簡(jiǎn)單的微生物,也包含數(shù)百萬(wàn)個(gè)DNA堿基對(duì),要智能地構(gòu)建新的生物系統(tǒng),研究人員還需要深入理解基因組編碼的復(fù)雜信息。

2024年11月,研究人員在Science上發(fā)表了一項(xiàng)研究Evo 1,基于單細(xì)胞(270萬(wàn)個(gè)原核生物和噬菌體)基因組進(jìn)行訓(xùn)練,具有70億個(gè)參數(shù),在單核苷酸(構(gòu)成DNA或RNA的基本單元)設(shè)置下實(shí)現(xiàn)了13萬(wàn)堿基的上下文長(zhǎng)度。

圖片

Evo 1論文鏈接:https://www.science.org/doi/10.1126/science.ado9336

Evo 1在DNA、RNA 和蛋白質(zhì)模式上展示了更好的零樣本功能預(yù)測(cè)能力,并通過(guò)實(shí)驗(yàn)驗(yàn)證了Evo 1生成的CRISPR-Cas分子復(fù)合物以及IS200和IS605轉(zhuǎn)座系統(tǒng)的功能活性,證明了使用語(yǔ)言模型進(jìn)行蛋白質(zhì)-RNA和蛋白質(zhì)-DNA代碼設(shè)計(jì)的前景。

最近,Arc Institute宣布與英偉達(dá)(NVIDIA)合作,開(kāi)發(fā)了迄今為止最大的生物領(lǐng)域AI模型Evo 2,在超過(guò)12.8萬(wàn)個(gè)全基因組以及宏基因組數(shù)據(jù)的基礎(chǔ)上,訓(xùn)練數(shù)據(jù)超過(guò)9.3萬(wàn)億個(gè)核苷酸。

除了細(xì)菌、古菌和噬菌體基因組外,Evo 2的訓(xùn)練數(shù)據(jù)還包括人類、植物以及其他真核生物域的單細(xì)胞和多細(xì)胞物種的信息。

圖片

論文鏈接:https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1

Evo Designer鏈接:https://arcinstitute.org/tools/evo/evo-mech-interp

隨文章一起發(fā)布的,還有一個(gè)Evo Designer的用戶友好界面,作為機(jī)制可解釋性可視化器,揭示了模型在基因組序列中學(xué)習(xí)的關(guān)鍵生物特征和模式,展示了Evo 2在生成DNA序列時(shí)的思考過(guò)程,其中許多功能與基因組概念類別高度相關(guān),用戶可以在參考基因組和Evo 2中的相應(yīng)特征激活中看到基因組概念。

研究人員完全開(kāi)源了Evo 2的訓(xùn)練數(shù)據(jù)、訓(xùn)練和推理代碼以及模型權(quán)重,并集成到了NVIDIA BioNeMo框架中。

考慮到潛在的倫理和安全風(fēng)險(xiǎn),研究人員將感染人類和其他復(fù)雜生物體的病原體排除在Evo 2的基礎(chǔ)數(shù)據(jù)集之外,并確保模型不會(huì)對(duì)關(guān)于這些病原體的查詢返回有價(jià)值的答案。

Arc研究所聯(lián)合創(chuàng)始人、Arc核心研究員、加州大學(xué)伯克利分校生物工程助理教授Patrick Hsu認(rèn)為,Evo 1和Evo 2的成功是「生成生物學(xué)」領(lǐng)域的關(guān)鍵時(shí)刻,讓機(jī)器也能夠用核苷酸的語(yǔ)言進(jìn)行閱讀、寫(xiě)作和思考,Evo 2對(duì)生命之樹(shù)具有通才式的理解,對(duì)于很多任務(wù)來(lái)說(shuō)都有價(jià)值,比如預(yù)測(cè)致病突變、設(shè)計(jì)人工生命的潛在編碼。

Evo 2及其后續(xù)版本是基因組和表觀基因組設(shè)計(jì)領(lǐng)域邁向生成式生物學(xué)的第一步,結(jié)合現(xiàn)有的、在大規(guī)??删幊藾NA操作方面的最新實(shí)驗(yàn)進(jìn)展,Evo 2有望實(shí)現(xiàn)多樣化合成生命的直接編程。

圖片

此外,借助特定應(yīng)用的評(píng)分函數(shù)為推理過(guò)程提供指導(dǎo),Evo 2能夠設(shè)計(jì)出超越DNA本身的復(fù)雜生物架構(gòu)。

Evo 2在預(yù)測(cè)「哪些突變是無(wú)害的」與「潛在的致病性」方面實(shí)現(xiàn)了超過(guò)90%的準(zhǔn)確率,可以通過(guò)找到人類疾病的遺傳原因并加速新藥的開(kāi)發(fā),節(jié)省無(wú)數(shù)小時(shí)的研究時(shí)間和資金。

在未來(lái),研究人員或許可以借助Evo 2的力量,解決人類那些「不治之癥」,徹底消滅疾病。

Evo2架構(gòu):向光榮進(jìn)化的硅基生物

Evo 2能夠?qū)NA序列進(jìn)行建模,并在中心法則的各個(gè)層面實(shí)現(xiàn)應(yīng)用,涵蓋分子和細(xì)胞尺度;模型基于DNA序列學(xué)習(xí),無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào),就能準(zhǔn)確預(yù)測(cè)遺傳變異的功能影響,例如非編碼致病變異和具有臨床意義的BRCA1基因變異。

圖片

Evo 2采用新的多混合StripedHyena 2架構(gòu),展示了短顯式(SE)、中正則化(MR)和長(zhǎng)隱式(LI)Hyena運(yùn)算符的高效塊布局,使Evo 2能夠使用比Evo 1使用多30倍的數(shù)據(jù)進(jìn)行訓(xùn)練,并且每次推理的核苷酸數(shù)量提升8倍。

圖片

Evo 2采用「兩階段」訓(xùn)練策略,在AWS上的NVIDIA DGX Cloud AI平臺(tái)上經(jīng)過(guò)幾個(gè)月的訓(xùn)練,使用了超過(guò)2000塊NVIDIA H100 GPU,可以一次性處理高達(dá)100萬(wàn)個(gè)核苷酸的長(zhǎng)基因序列,使其能夠理解基因組中相隔較遠(yuǎn)部分之間的關(guān)系。

在預(yù)訓(xùn)練階段,Evo 2通過(guò)新穎的數(shù)據(jù)增強(qiáng)和權(quán)重分配方法,優(yōu)先學(xué)習(xí)功能性的遺傳元素;在中訓(xùn)練階段,則專注于長(zhǎng)序列的構(gòu)建。

Evo 2的40B和7B版本在訓(xùn)練時(shí)分為短序列預(yù)訓(xùn)練階段和長(zhǎng)上下文中訓(xùn)練階段。

在1024個(gè)GPU、40B規(guī)模下,StripedHyena 2相較于StripedHyena 1和Transformer架構(gòu),展現(xiàn)出更高的吞吐量。

圖片

Evo 2的中訓(xùn)練驗(yàn)證困惑度表明,隨著模型規(guī)模和上下文長(zhǎng)度的增加,模型性能得到提升。

通過(guò)修改后的「大海撈針」任務(wù),Evo 2展示了其在長(zhǎng)達(dá)100萬(wàn)個(gè)序列長(zhǎng)度的長(zhǎng)上下文中進(jìn)行有效回憶的能力。

實(shí)驗(yàn)結(jié)果

通過(guò)在大規(guī)模的進(jìn)化訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)序列的概率,生物序列模型能夠在沒(méi)有任何針對(duì)特定任務(wù)的微調(diào)或監(jiān)督的情況下,了解突變效應(yīng)與生物功能之間的相關(guān)性,即零樣本預(yù)測(cè)。

此前有效的零樣本突變效應(yīng)預(yù)測(cè)僅在「僅用蛋白質(zhì)序列」訓(xùn)練的語(yǔ)言模型,或「僅用原核生物序列」訓(xùn)練的基因組語(yǔ)言模型中得到證實(shí)。

Evo 2能夠在中心法則下的三種形式(DNA、RNA、蛋白質(zhì))和生命的三個(gè)領(lǐng)域(原核生物、古菌、真核生物)中學(xué)習(xí)序列可能性的分布,因此研究人員評(píng)估了Evo 2是否能夠在所有這些形式和生物體中實(shí)現(xiàn)突變效應(yīng)的預(yù)測(cè)。

圖片

所有生命領(lǐng)域的編碼序列都遵循一個(gè)基本結(jié)構(gòu):以起始密碼子開(kāi)始,以終止密碼子結(jié)束,并使用三聯(lián)密碼子來(lái)定義閱讀框架。

為了評(píng)估Evo 2是否掌握了這些基本的生物學(xué)原理,研究人員首先測(cè)試了單核苷酸變異(SNVs)對(duì)Evo 2在蛋白質(zhì)編碼基因起始密碼子周圍基因組序列中的可能性的影響。他們?cè)谝吧托蛄械拿總€(gè)位置引入這些突變,并計(jì)算了Evo 2預(yù)測(cè)的可能性在數(shù)千個(gè)這樣的位點(diǎn)上的變化。

圖片

結(jié)果表明,在原核生物和真核生物中,起始密碼子內(nèi)的突變會(huì)導(dǎo)致更劇烈的可能性變化,呈現(xiàn)出三聯(lián)密碼子的周期性模式,其中擺動(dòng)位置的突變對(duì)可能性的影響較小。

在原核生物和真核生物的基因組中,研究人員還觀察到一個(gè)與保守的核糖體結(jié)合位點(diǎn)一致的模式,證實(shí)了模型已經(jīng)學(xué)會(huì)了這些基本的遺傳特征,盡管模型在訓(xùn)練數(shù)據(jù)中從未見(jiàn)過(guò)這些序列的標(biāo)注。

人類目前對(duì)基因組的理解認(rèn)為,特定的遺傳變化應(yīng)該導(dǎo)致不同的表型后果。

例如,錯(cuò)義突變應(yīng)該比同義突變更具破壞性,移碼突變和提前終止密碼子應(yīng)該是最具破壞性的,而在必需的非編碼元件中,缺失的影響應(yīng)該比在基因間區(qū)域的缺失更大。

通過(guò)測(cè)量非編碼和編碼序列中各種突變的影響,研究人員評(píng)估了Evo 2的概率是否能夠捕捉到這些已知的生物學(xué)規(guī)律。

圖片

在20種原核生物和16種真核生物中,模型的概率變化與已知的生物學(xué)限制一致。

在編碼序列中,錯(cuò)義變異、提前終止密碼子和移碼突變導(dǎo)致的可能性變化遠(yuǎn)大于同義突變;

在非編碼區(qū)域中,tRNA和rRNA中的缺失比基因間區(qū)域和其他非編碼位點(diǎn)的缺失有更大的影響,符合對(duì)RNA重要性的已知信息。

未來(lái),硅基智能創(chuàng)造細(xì)胞?

展望未來(lái),研究人員設(shè)想了多種策略來(lái)提高Evo 2預(yù)測(cè)和設(shè)計(jì)的質(zhì)量,目前可能更注重基因組序列的普遍進(jìn)化分布,而不是特定的分類學(xué)特征。

將Evo 2與更多特征和人類基因組變異數(shù)據(jù)相結(jié)合,可能有助于改善致病性預(yù)測(cè)或分析結(jié)構(gòu)變異;

利用機(jī)制可解釋性,學(xué)習(xí)到的特征還可以增強(qiáng)對(duì)更復(fù)雜生物學(xué)概念的檢測(cè)能力,并通過(guò)激活引導(dǎo)和特征限制來(lái)指導(dǎo)模型生成,從而實(shí)現(xiàn)對(duì)生成結(jié)果的可編程控制;

為了提高Evo 2生成功能的質(zhì)量,可能需要通過(guò)實(shí)驗(yàn)反饋進(jìn)行監(jiān)督微調(diào)或強(qiáng)化學(xué)習(xí);

Evo2初步證明了通過(guò)推理時(shí)計(jì)算設(shè)計(jì)復(fù)雜生物系統(tǒng)的概念,未來(lái)這種方法還可以擴(kuò)展到包括其他特性,例如選擇性剪接、細(xì)胞類型特異性或基因回路功能。

進(jìn)化論是生物學(xué)的統(tǒng)一理論,從基因到群體,通過(guò)DNA這一基礎(chǔ)信息層傳遞自然選擇的功能效應(yīng),Evo系列模型為生物學(xué)建模和設(shè)計(jì)奠定了基礎(chǔ),將生物學(xué)中不同尺度的信息統(tǒng)一到一個(gè)共同的表征中。

未來(lái)的工作如果將這一表征與表觀基因組學(xué)和轉(zhuǎn)錄組學(xué)等更多模態(tài)信息相結(jié)合,可能會(huì)產(chǎn)生一個(gè)虛擬細(xì)胞模型,能夠有效地模擬健康和疾病中的復(fù)雜細(xì)胞表型。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-09-19 09:02:00

2024-11-15 13:42:25

2012-11-19 11:08:45

初志云存儲(chǔ)

2024-03-18 09:32:04

AI生物

2014-03-26 09:06:27

Google大數(shù)據(jù)

2024-11-26 09:30:00

模型算法

2024-11-19 13:13:54

2021-01-27 11:12:54

極道科技

2020-12-22 19:37:04

決策樹(shù)機(jī)器學(xué)習(xí)人工智能

2025-07-07 13:44:49

Karpathy代碼細(xì)菌

2025-09-24 09:00:25

2022-10-12 23:12:32

戴爾

2019-09-15 18:14:55

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2024-05-06 08:46:57

AI基因編輯

2024-04-24 13:36:40

2024-06-11 07:40:00

2016-05-04 15:26:21

戴爾HPC

2025-09-24 18:02:55

2023-06-08 11:25:30

人工智能合成生物學(xué)

2024-05-09 11:08:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)