Nature報道:谷歌新模型1秒讀懂DNA變異!首次統(tǒng)一基因組全任務(wù),性能碾壓現(xiàn)有模型
谷歌DeepMind Alpha家族又雙叒登上Nature報道,這次瞄準的是DNA變異。
現(xiàn)在只需1秒,就能精確定位基因組序列變異。
據(jù)Nature最新報道,谷歌DeepMind團隊目前推出了突破性生物模型AlphaGenome。
它能夠從長達1兆堿基的DNA序列中,同時預(yù)測數(shù)千種功能基因組特征,并以單堿基分辨率評估變異效應(yīng)。
在基因表達、剪接、染色質(zhì)可及性等多種任務(wù)上性能全面超越現(xiàn)有模型,為解析基因組調(diào)控代碼提供了強大工具。
作者將其描述為整個生物領(lǐng)域的里程碑:
我們第一次擁有了一個單一的模型,它統(tǒng)一了整個基因組任務(wù)范圍內(nèi)的遠程上下文、基本精度和最先進的性能。
在未來,AlphaGenome也會更好地幫助我們理解疾病,癌癥這本“天書”也許終于得以破解。
該工具將提供一塊關(guān)鍵的拼圖,使我們能夠建立更好的聯(lián)系來了解癌癥等疾病。
首個統(tǒng)一基因組任務(wù)的單一模型
解讀基因組序列變異的影響始終是生物學領(lǐng)域的核心挑戰(zhàn)。
過去十年里,科學家們?yōu)榱私议_基因組的秘密,單獨開發(fā)了數(shù)十種AI模型,那么是否能創(chuàng)造一種“一體化”解釋工具呢?
AlphaGenome就是這樣一個模型,可以將多模態(tài)預(yù)測、長序列背景和堿基對分辨率統(tǒng)一于單一框架。
模型架構(gòu)受U-Net啟發(fā),可以將1兆堿基的DNA輸入序列,在下采樣階段處理為兩種類型的序列表達,分別是對應(yīng)線性基因組的一維嵌入(1bp和128bp分辨率),和對應(yīng)基因組片段空間相互作用的二維嵌入(2048bp分辨率)。
在架構(gòu)內(nèi)部,卷積層對局部序列模式進行建模,Transformer塊則結(jié)合Rotary位置編碼,對顆粒度較粗但范圍更長的依賴關(guān)系進行建模。
通過8個互相連接的張量處理單元,實現(xiàn)對完整堿基對的分辨率訓練,然后利用編碼器跳躍連接,在上采樣階段恢復(fù)序列的1bp分辨率。
最后輸出包括基因表達、詳細剪接模式、染色質(zhì)狀態(tài)和染色質(zhì)接觸圖譜在內(nèi)的11種模態(tài),涵蓋5930條人類或1128條小鼠基因組軌道。
模型通過預(yù)訓練和蒸餾兩階段進行訓練:
- 預(yù)訓練:首先利用觀測數(shù)據(jù)生成折疊特異性模型和全折疊模型,前者采用4折交叉驗證方法進行訓練,防止過擬合,后者在基因組的全部可用區(qū)間上進行訓練,并視作后續(xù)蒸餾的教師模型。
- 蒸餾:使用隨機增強的輸入序列方法訓練單一學生模型,學習全折疊教師模型的輸出預(yù)測,以實現(xiàn)更強的魯棒性和變異效應(yīng)預(yù)測準確性。
最終實現(xiàn)在NVIDIA H100 GPU上,學生模型的推理時間能達到一秒以內(nèi),具有極高的效率。
性能全面超越現(xiàn)有技術(shù)
為了評估AlphaGenome的泛化能力,研究團隊進行了24項基因組軌道評估,將AlphaGenome模型與各任務(wù)最強的現(xiàn)有模型進行比較。
AlphaGenome在其中22項都保持領(lǐng)先,其中與另一種多模態(tài)序列模型Borzoi3相比,更是在細胞類型特異性的LFC預(yù)測上,表現(xiàn)出+17.4%的相對改進。
在預(yù)測變異效應(yīng)方面,實驗組組裝了26個變異效應(yīng)預(yù)測基準,包含基因表達、剪接、多聚腺苷酸化、增強子-基因連接、DNA可及性和轉(zhuǎn)錄因子結(jié)合等。
與現(xiàn)有最強模型對比,有24項達到或超越,例如在表達QTL的方向預(yù)測,相比Borzoi3提升25.5%,在可及性QTL上相比ChromBPNet10提升8%。
結(jié)果表明,AlphaGenome在多模態(tài)和專門的單模態(tài)任務(wù)上都存在優(yōu)勢,可以準確模擬基因組軌道和變異效應(yīng)。
另外,AlphaGenome也在跨模態(tài)基因組軌道預(yù)測方面,都達到了最先進水平。
預(yù)訓練的折疊特異性模型顯示,在未見的基因組區(qū)間上,預(yù)測的讀取覆蓋度與觀察到的讀取覆蓋度高度一致。
從定量角度,人類和小鼠基因組中功能性基因組軌道的預(yù)測信號與觀測信號之間,存在較強的皮爾遜相關(guān)系數(shù)(r),整體表達水平預(yù)測良好。
在剪接模態(tài)方面,AlphaGenome首次實現(xiàn)剪接位點、剪接效率和剪接連接的全方位預(yù)測,展現(xiàn)出強大的預(yù)測組織特異性可變剪接的能力。
基于AlphaGenome的多維度剪接預(yù)測,實驗團隊為每個預(yù)測模態(tài)設(shè)計了定制的變異評分策略,并將單個評分求和,以綜合考量變異預(yù)測效應(yīng)。
在剪接相關(guān)變異效應(yīng)預(yù)測(VEP)任務(wù)上進行基準測試,AlphaGenome在精細定位的剪接QTL(sQTL)分類中表現(xiàn)最佳,并在監(jiān)督和無監(jiān)督場景下均取得最高性能。
但在MFASS評估罕見變異是否破壞剪接能力的實驗中,AlphaGenome的auPRC達 0.54,表現(xiàn)僅略低于Pangolin的0.51,但超過了SpliceAI和DeltaSplice(均為0.49)。
總之,AlphaGenome在7項基準測試中的6項上實現(xiàn)了最先進的剪接變異效應(yīng)預(yù)測,為剪接事件改變和轉(zhuǎn)錄本結(jié)構(gòu)提供了更全面的視圖。
AlphaGenome在臨床上,可以幫助研究人員更精準地理解疾病的潛在原因,甚至發(fā)現(xiàn)新的治療靶點。
例如在一項針對T細胞急性淋巴細胞白血病 (T-ALL)的研究中,AlphaGenome就通過引入MYB DNA結(jié)合基序,成功解析了TAL1基因附近的致癌變異。
另外它還可以幫助預(yù)測合成DNA的設(shè)計以及協(xié)助進行基本DNA研究,未來通過擴展數(shù)據(jù),AlphaGenome也將會產(chǎn)生更準確的預(yù)測精度以及涵蓋更廣泛的物種,科學家們將只需要進行微調(diào),就能更快地生成和測試假設(shè)。
目前AlphaGenome已提供預(yù)覽版,并計劃正式發(fā)布,歡迎大家搶先體驗。
鏈接:https://macro.com/app/pdf/56a50ffc-120d-4a9a-87e5-a18753430f22
代碼鏈接:https://github.com/google-deepmind/alphagenome