偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從0編寫基因組!史上最大生物學(xué)模型Evo-2全面開源:硅基生命能創(chuàng)造細(xì)胞?

人工智能 新聞
史上最大的基因組AI模型Evo 2使用超過12.8萬個基因組數(shù)據(jù)訓(xùn)練,包含9.3萬億個核苷酸,能預(yù)測突變效應(yīng)、設(shè)計 DNA 序列,并通過可視化工具展示學(xué)習(xí)到的生物特征,為生成生物學(xué)和疾病研究提供新思路。

生命的一切表現(xiàn),基本都可以從DNA編碼中找到答案。

基因組(Genome)包含了生物體所有基因以及非編碼的DNA序列,承載了生物體發(fā)育、生長、繁殖和適應(yīng)環(huán)境所需的全部遺傳信息,近年來基因組相關(guān)的測序、合成和編輯工具已經(jīng)徹底改變了生物學(xué)研究。

圖片

然而,基因組的復(fù)雜性是巨大的,即使是最簡單的微生物,也包含數(shù)百萬個DNA堿基對,要智能地構(gòu)建新的生物系統(tǒng),研究人員還需要深入理解基因組編碼的復(fù)雜信息。

2024年11月,研究人員在Science上發(fā)表了一項研究Evo 1,基于單細(xì)胞(270萬個原核生物和噬菌體)基因組進(jìn)行訓(xùn)練,具有70億個參數(shù),在單核苷酸(構(gòu)成DNA或RNA的基本單元)設(shè)置下實現(xiàn)了13萬堿基的上下文長度。

圖片

Evo 1論文鏈接:https://www.science.org/doi/10.1126/science.ado9336

Evo 1在DNA、RNA 和蛋白質(zhì)模式上展示了更好的零樣本功能預(yù)測能力,并通過實驗驗證了Evo 1生成的CRISPR-Cas分子復(fù)合物以及IS200和IS605轉(zhuǎn)座系統(tǒng)的功能活性,證明了使用語言模型進(jìn)行蛋白質(zhì)-RNA和蛋白質(zhì)-DNA代碼設(shè)計的前景。

最近,Arc Institute宣布與英偉達(dá)(NVIDIA)合作,開發(fā)了迄今為止最大的生物領(lǐng)域AI模型Evo 2,在超過12.8萬個全基因組以及宏基因組數(shù)據(jù)的基礎(chǔ)上,訓(xùn)練數(shù)據(jù)超過9.3萬億個核苷酸。

除了細(xì)菌、古菌和噬菌體基因組外,Evo 2的訓(xùn)練數(shù)據(jù)還包括人類、植物以及其他真核生物域的單細(xì)胞和多細(xì)胞物種的信息。

圖片

論文鏈接:https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1

Evo Designer鏈接:https://arcinstitute.org/tools/evo/evo-mech-interp

隨文章一起發(fā)布的,還有一個Evo Designer的用戶友好界面,作為機(jī)制可解釋性可視化器,揭示了模型在基因組序列中學(xué)習(xí)的關(guān)鍵生物特征和模式,展示了Evo 2在生成DNA序列時的思考過程,其中許多功能與基因組概念類別高度相關(guān),用戶可以在參考基因組和Evo 2中的相應(yīng)特征激活中看到基因組概念。

研究人員完全開源了Evo 2的訓(xùn)練數(shù)據(jù)、訓(xùn)練和推理代碼以及模型權(quán)重,并集成到了NVIDIA BioNeMo框架中。

考慮到潛在的倫理和安全風(fēng)險,研究人員將感染人類和其他復(fù)雜生物體的病原體排除在Evo 2的基礎(chǔ)數(shù)據(jù)集之外,并確保模型不會對關(guān)于這些病原體的查詢返回有價值的答案。

Arc研究所聯(lián)合創(chuàng)始人、Arc核心研究員、加州大學(xué)伯克利分校生物工程助理教授Patrick Hsu認(rèn)為,Evo 1和Evo 2的成功是「生成生物學(xué)」領(lǐng)域的關(guān)鍵時刻,讓機(jī)器也能夠用核苷酸的語言進(jìn)行閱讀、寫作和思考,Evo 2對生命之樹具有通才式的理解,對于很多任務(wù)來說都有價值,比如預(yù)測致病突變、設(shè)計人工生命的潛在編碼。

Evo 2及其后續(xù)版本是基因組和表觀基因組設(shè)計領(lǐng)域邁向生成式生物學(xué)的第一步,結(jié)合現(xiàn)有的、在大規(guī)??删幊藾NA操作方面的最新實驗進(jìn)展,Evo 2有望實現(xiàn)多樣化合成生命的直接編程。

圖片

此外,借助特定應(yīng)用的評分函數(shù)為推理過程提供指導(dǎo),Evo 2能夠設(shè)計出超越DNA本身的復(fù)雜生物架構(gòu)。

Evo 2在預(yù)測「哪些突變是無害的」與「潛在的致病性」方面實現(xiàn)了超過90%的準(zhǔn)確率,可以通過找到人類疾病的遺傳原因并加速新藥的開發(fā),節(jié)省無數(shù)小時的研究時間和資金。

在未來,研究人員或許可以借助Evo 2的力量,解決人類那些「不治之癥」,徹底消滅疾病。

Evo2架構(gòu):向光榮進(jìn)化的硅基生物

Evo 2能夠?qū)NA序列進(jìn)行建模,并在中心法則的各個層面實現(xiàn)應(yīng)用,涵蓋分子和細(xì)胞尺度;模型基于DNA序列學(xué)習(xí),無需針對特定任務(wù)進(jìn)行微調(diào),就能準(zhǔn)確預(yù)測遺傳變異的功能影響,例如非編碼致病變異和具有臨床意義的BRCA1基因變異。

圖片

Evo 2采用新的多混合StripedHyena 2架構(gòu),展示了短顯式(SE)、中正則化(MR)和長隱式(LI)Hyena運算符的高效塊布局,使Evo 2能夠使用比Evo 1使用多30倍的數(shù)據(jù)進(jìn)行訓(xùn)練,并且每次推理的核苷酸數(shù)量提升8倍。

圖片

Evo 2采用「兩階段」訓(xùn)練策略,在AWS上的NVIDIA DGX Cloud AI平臺上經(jīng)過幾個月的訓(xùn)練,使用了超過2000塊NVIDIA H100 GPU,可以一次性處理高達(dá)100萬個核苷酸的長基因序列,使其能夠理解基因組中相隔較遠(yuǎn)部分之間的關(guān)系。

在預(yù)訓(xùn)練階段,Evo 2通過新穎的數(shù)據(jù)增強和權(quán)重分配方法,優(yōu)先學(xué)習(xí)功能性的遺傳元素;在中訓(xùn)練階段,則專注于長序列的構(gòu)建。

Evo 2的40B和7B版本在訓(xùn)練時分為短序列預(yù)訓(xùn)練階段和長上下文中訓(xùn)練階段。

在1024個GPU、40B規(guī)模下,StripedHyena 2相較于StripedHyena 1和Transformer架構(gòu),展現(xiàn)出更高的吞吐量。

圖片

Evo 2的中訓(xùn)練驗證困惑度表明,隨著模型規(guī)模和上下文長度的增加,模型性能得到提升。

通過修改后的「大海撈針」任務(wù),Evo 2展示了其在長達(dá)100萬個序列長度的長上下文中進(jìn)行有效回憶的能力。

實驗結(jié)果

通過在大規(guī)模的進(jìn)化訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)序列的概率,生物序列模型能夠在沒有任何針對特定任務(wù)的微調(diào)或監(jiān)督的情況下,了解突變效應(yīng)與生物功能之間的相關(guān)性,即零樣本預(yù)測。

此前有效的零樣本突變效應(yīng)預(yù)測僅在「僅用蛋白質(zhì)序列」訓(xùn)練的語言模型,或「僅用原核生物序列」訓(xùn)練的基因組語言模型中得到證實。

Evo 2能夠在中心法則下的三種形式(DNA、RNA、蛋白質(zhì))和生命的三個領(lǐng)域(原核生物、古菌、真核生物)中學(xué)習(xí)序列可能性的分布,因此研究人員評估了Evo 2是否能夠在所有這些形式和生物體中實現(xiàn)突變效應(yīng)的預(yù)測。

圖片

所有生命領(lǐng)域的編碼序列都遵循一個基本結(jié)構(gòu):以起始密碼子開始,以終止密碼子結(jié)束,并使用三聯(lián)密碼子來定義閱讀框架。

為了評估Evo 2是否掌握了這些基本的生物學(xué)原理,研究人員首先測試了單核苷酸變異(SNVs)對Evo 2在蛋白質(zhì)編碼基因起始密碼子周圍基因組序列中的可能性的影響。他們在野生型序列的每個位置引入這些突變,并計算了Evo 2預(yù)測的可能性在數(shù)千個這樣的位點上的變化。

圖片

結(jié)果表明,在原核生物和真核生物中,起始密碼子內(nèi)的突變會導(dǎo)致更劇烈的可能性變化,呈現(xiàn)出三聯(lián)密碼子的周期性模式,其中擺動位置的突變對可能性的影響較小。

在原核生物和真核生物的基因組中,研究人員還觀察到一個與保守的核糖體結(jié)合位點一致的模式,證實了模型已經(jīng)學(xué)會了這些基本的遺傳特征,盡管模型在訓(xùn)練數(shù)據(jù)中從未見過這些序列的標(biāo)注。

人類目前對基因組的理解認(rèn)為,特定的遺傳變化應(yīng)該導(dǎo)致不同的表型后果。

例如,錯義突變應(yīng)該比同義突變更具破壞性,移碼突變和提前終止密碼子應(yīng)該是最具破壞性的,而在必需的非編碼元件中,缺失的影響應(yīng)該比在基因間區(qū)域的缺失更大。

通過測量非編碼和編碼序列中各種突變的影響,研究人員評估了Evo 2的概率是否能夠捕捉到這些已知的生物學(xué)規(guī)律。

圖片

在20種原核生物和16種真核生物中,模型的概率變化與已知的生物學(xué)限制一致。

在編碼序列中,錯義變異、提前終止密碼子和移碼突變導(dǎo)致的可能性變化遠(yuǎn)大于同義突變;

在非編碼區(qū)域中,tRNA和rRNA中的缺失比基因間區(qū)域和其他非編碼位點的缺失有更大的影響,符合對RNA重要性的已知信息。

未來,硅基智能創(chuàng)造細(xì)胞?

展望未來,研究人員設(shè)想了多種策略來提高Evo 2預(yù)測和設(shè)計的質(zhì)量,目前可能更注重基因組序列的普遍進(jìn)化分布,而不是特定的分類學(xué)特征。

將Evo 2與更多特征和人類基因組變異數(shù)據(jù)相結(jié)合,可能有助于改善致病性預(yù)測或分析結(jié)構(gòu)變異;

利用機(jī)制可解釋性,學(xué)習(xí)到的特征還可以增強對更復(fù)雜生物學(xué)概念的檢測能力,并通過激活引導(dǎo)和特征限制來指導(dǎo)模型生成,從而實現(xiàn)對生成結(jié)果的可編程控制;

為了提高Evo 2生成功能的質(zhì)量,可能需要通過實驗反饋進(jìn)行監(jiān)督微調(diào)或強化學(xué)習(xí);

Evo2初步證明了通過推理時計算設(shè)計復(fù)雜生物系統(tǒng)的概念,未來這種方法還可以擴(kuò)展到包括其他特性,例如選擇性剪接、細(xì)胞類型特異性或基因回路功能。

進(jìn)化論是生物學(xué)的統(tǒng)一理論,從基因到群體,通過DNA這一基礎(chǔ)信息層傳遞自然選擇的功能效應(yīng),Evo系列模型為生物學(xué)建模和設(shè)計奠定了基礎(chǔ),將生物學(xué)中不同尺度的信息統(tǒng)一到一個共同的表征中。

未來的工作如果將這一表征與表觀基因組學(xué)和轉(zhuǎn)錄組學(xué)等更多模態(tài)信息相結(jié)合,可能會產(chǎn)生一個虛擬細(xì)胞模型,能夠有效地模擬健康和疾病中的復(fù)雜細(xì)胞表型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-11-15 13:42:25

2012-11-19 11:08:45

初志云存儲

2024-03-18 09:32:04

AI生物

2014-03-26 09:06:27

Google大數(shù)據(jù)

2024-11-26 09:30:00

模型算法

2024-11-19 13:13:54

2021-01-27 11:12:54

極道科技

2020-12-22 19:37:04

決策樹機(jī)器學(xué)習(xí)人工智能

2019-09-15 18:14:55

計算機(jī)互聯(lián)網(wǎng) 技術(shù)

2022-10-12 23:12:32

戴爾

2024-04-24 13:36:40

2024-06-11 07:40:00

2024-05-06 08:46:57

AI基因編輯

2016-05-04 15:26:21

戴爾HPC

2012-04-01 09:25:22

云計算醫(yī)療

2023-06-08 11:25:30

人工智能合成生物學(xué)

2014-08-26 16:04:30

2025-03-13 10:09:48

2016-08-04 16:26:55

華為

2020-02-24 10:51:25

微軟開源Windows
點贊
收藏

51CTO技術(shù)棧公眾號