Nature報(bào)道：谷歌新模型1秒讀懂DNA變異！首次統(tǒng)一基因組全任務(wù)，性能碾壓現(xiàn)有模型

2025-06-27 08:45:31

人工智能新聞

據(jù)Nature最新報(bào)道，谷歌DeepMind團(tuán)隊(duì)目前推出了突破性生物模型AlphaGenome。

谷歌DeepMind Alpha家族又雙叒登上Nature報(bào)道，這次瞄準(zhǔn)的是DNA變異。

現(xiàn)在只需1秒，就能精確定位基因組序列變異。

據(jù)Nature最新報(bào)道，谷歌DeepMind團(tuán)隊(duì)目前推出了突破性生物模型AlphaGenome。

它能夠從長(zhǎng)達(dá)1兆堿基的DNA序列中，同時(shí)預(yù)測(cè)數(shù)千種功能基因組特征，并以單堿基分辨率評(píng)估變異效應(yīng)。

在基因表達(dá)、剪接、染色質(zhì)可及性等多種任務(wù)上性能全面超越現(xiàn)有模型，為解析基因組調(diào)控代碼提供了強(qiáng)大工具。

作者將其描述為整個(gè)生物領(lǐng)域的里程碑：

我們第一次擁有了一個(gè)單一的模型，它統(tǒng)一了整個(gè)基因組任務(wù)范圍內(nèi)的遠(yuǎn)程上下文、基本精度和最先進(jìn)的性能。

在未來，AlphaGenome也會(huì)更好地幫助我們理解疾病，癌癥這本“天書”也許終于得以破解。

該工具將提供一塊關(guān)鍵的拼圖，使我們能夠建立更好的聯(lián)系來了解癌癥等疾病。

首個(gè)統(tǒng)一基因組任務(wù)的單一模型

解讀基因組序列變異的影響始終是生物學(xué)領(lǐng)域的核心挑戰(zhàn)。

過去十年里，科學(xué)家們?yōu)榱私议_基因組的秘密，單獨(dú)開發(fā)了數(shù)十種AI模型，那么是否能創(chuàng)造一種“一體化”解釋工具呢？

AlphaGenome就是這樣一個(gè)模型，可以將多模態(tài)預(yù)測(cè)、長(zhǎng)序列背景和堿基對(duì)分辨率統(tǒng)一于單一框架。

模型架構(gòu)受U-Net啟發(fā)，可以將1兆堿基的DNA輸入序列，在下采樣階段處理為兩種類型的序列表達(dá)，分別是對(duì)應(yīng)線性基因組的一維嵌入（1bp和128bp分辨率），和對(duì)應(yīng)基因組片段空間相互作用的二維嵌入（2048bp分辨率）。

在架構(gòu)內(nèi)部，卷積層對(duì)局部序列模式進(jìn)行建模，Transformer塊則結(jié)合Rotary位置編碼，對(duì)顆粒度較粗但范圍更長(zhǎng)的依賴關(guān)系進(jìn)行建模。

通過8個(gè)互相連接的張量處理單元，實(shí)現(xiàn)對(duì)完整堿基對(duì)的分辨率訓(xùn)練，然后利用編碼器跳躍連接，在上采樣階段恢復(fù)序列的1bp分辨率。

最后輸出包括基因表達(dá)、詳細(xì)剪接模式、染色質(zhì)狀態(tài)和染色質(zhì)接觸圖譜在內(nèi)的11種模態(tài)，涵蓋5930條人類或1128條小鼠基因組軌道。

模型通過預(yù)訓(xùn)練和蒸餾兩階段進(jìn)行訓(xùn)練：

預(yù)訓(xùn)練：首先利用觀測(cè)數(shù)據(jù)生成折疊特異性模型和全折疊模型，前者采用4折交叉驗(yàn)證方法進(jìn)行訓(xùn)練，防止過擬合，后者在基因組的全部可用區(qū)間上進(jìn)行訓(xùn)練，并視作后續(xù)蒸餾的教師模型。
蒸餾：使用隨機(jī)增強(qiáng)的輸入序列方法訓(xùn)練單一學(xué)生模型，學(xué)習(xí)全折疊教師模型的輸出預(yù)測(cè)，以實(shí)現(xiàn)更強(qiáng)的魯棒性和變異效應(yīng)預(yù)測(cè)準(zhǔn)確性。

最終實(shí)現(xiàn)在NVIDIA H100 GPU上，學(xué)生模型的推理時(shí)間能達(dá)到一秒以內(nèi)，具有極高的效率。

性能全面超越現(xiàn)有技術(shù)

為了評(píng)估AlphaGenome的泛化能力，研究團(tuán)隊(duì)進(jìn)行了24項(xiàng)基因組軌道評(píng)估，將AlphaGenome模型與各任務(wù)最強(qiáng)的現(xiàn)有模型進(jìn)行比較。

AlphaGenome在其中22項(xiàng)都保持領(lǐng)先，其中與另一種多模態(tài)序列模型Borzoi3相比，更是在細(xì)胞類型特異性的LFC預(yù)測(cè)上，表現(xiàn)出+17.4%的相對(duì)改進(jìn)。

在預(yù)測(cè)變異效應(yīng)方面，實(shí)驗(yàn)組組裝了26個(gè)變異效應(yīng)預(yù)測(cè)基準(zhǔn)，包含基因表達(dá)、剪接、多聚腺苷酸化、增強(qiáng)子-基因連接、DNA可及性和轉(zhuǎn)錄因子結(jié)合等。

與現(xiàn)有最強(qiáng)模型對(duì)比，有24項(xiàng)達(dá)到或超越，例如在表達(dá)QTL的方向預(yù)測(cè)，相比Borzoi3提升25.5%，在可及性QTL上相比ChromBPNet10提升8%。

結(jié)果表明，AlphaGenome在多模態(tài)和專門的單模態(tài)任務(wù)上都存在優(yōu)勢(shì)，可以準(zhǔn)確模擬基因組軌道和變異效應(yīng)。

另外，AlphaGenome也在跨模態(tài)基因組軌道預(yù)測(cè)方面，都達(dá)到了最先進(jìn)水平。

預(yù)訓(xùn)練的折疊特異性模型顯示，在未見的基因組區(qū)間上，預(yù)測(cè)的讀取覆蓋度與觀察到的讀取覆蓋度高度一致。

從定量角度，人類和小鼠基因組中功能性基因組軌道的預(yù)測(cè)信號(hào)與觀測(cè)信號(hào)之間，存在較強(qiáng)的皮爾遜相關(guān)系數(shù)（r），整體表達(dá)水平預(yù)測(cè)良好。

在剪接模態(tài)方面，AlphaGenome首次實(shí)現(xiàn)剪接位點(diǎn)、剪接效率和剪接連接的全方位預(yù)測(cè)，展現(xiàn)出強(qiáng)大的預(yù)測(cè)組織特異性可變剪接的能力。

基于AlphaGenome的多維度剪接預(yù)測(cè)，實(shí)驗(yàn)團(tuán)隊(duì)為每個(gè)預(yù)測(cè)模態(tài)設(shè)計(jì)了定制的變異評(píng)分策略，并將單個(gè)評(píng)分求和，以綜合考量變異預(yù)測(cè)效應(yīng)。

在剪接相關(guān)變異效應(yīng)預(yù)測(cè)（VEP）任務(wù)上進(jìn)行基準(zhǔn)測(cè)試，AlphaGenome在精細(xì)定位的剪接QTL（sQTL）分類中表現(xiàn)最佳，并在監(jiān)督和無監(jiān)督場(chǎng)景下均取得最高性能。

但在MFASS評(píng)估罕見變異是否破壞剪接能力的實(shí)驗(yàn)中，AlphaGenome的auPRC達(dá) 0.54，表現(xiàn)僅略低于Pangolin的0.51，但超過了SpliceAI和DeltaSplice（均為0.49）。

總之，AlphaGenome在7項(xiàng)基準(zhǔn)測(cè)試中的6項(xiàng)上實(shí)現(xiàn)了最先進(jìn)的剪接變異效應(yīng)預(yù)測(cè)，為剪接事件改變和轉(zhuǎn)錄本結(jié)構(gòu)提供了更全面的視圖。

AlphaGenome在臨床上，可以幫助研究人員更精準(zhǔn)地理解疾病的潛在原因，甚至發(fā)現(xiàn)新的治療靶點(diǎn)。

例如在一項(xiàng)針對(duì)T細(xì)胞急性淋巴細(xì)胞白血病 (T-ALL)的研究中，AlphaGenome就通過引入MYB DNA結(jié)合基序，成功解析了TAL1基因附近的致癌變異。

另外它還可以幫助預(yù)測(cè)合成DNA的設(shè)計(jì)以及協(xié)助進(jìn)行基本DNA研究，未來通過擴(kuò)展數(shù)據(jù)，AlphaGenome也將會(huì)產(chǎn)生更準(zhǔn)確的預(yù)測(cè)精度以及涵蓋更廣泛的物種，科學(xué)家們將只需要進(jìn)行微調(diào)，就能更快地生成和測(cè)試假設(shè)。

目前AlphaGenome已提供預(yù)覽版，并計(jì)劃正式發(fā)布，歡迎大家搶先體驗(yàn)。

鏈接：https://macro.com/app/pdf/56a50ffc-120d-4a9a-87e5-a18753430f22

代碼鏈接：https://github.com/google-deepmind/alphagenome

責(zé)任編輯：張燕妮來源：量子位