快了一個0!Meta祭出150億參數(shù)蛋白質(zhì)大模型,碾壓AlphaFold2
迄今為止規(guī)模最大的蛋白質(zhì)語言模型問世了!
一年前,DeepMind開源AlphaFold2連登Nature、Science,刷爆生物和AI學界。
一年后,Meta帶著速度快一個數(shù)量級的ESMFold來了。
不光速度快,模型還足足有150億個參數(shù)。

LeCun發(fā)推稱贊,這是Meta-FAIR蛋白質(zhì)團隊的偉大新成果。

共同一作Zeming Lin透露,30億參數(shù)的大模型在256個GPU上訓練了3個星期,而ESMfold在128個GPU上用了10天。至于150億參數(shù)的版本,目前還不清楚。
他還表示,代碼隨后肯定會開源,敬請關(guān)注!
又大又快!
今天,我們的主角是ESMFold,一個從蛋白質(zhì)個體的序列,直接進行高準確度、端對端、原子層級結(jié)構(gòu)預測的模型。

論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1
150億個參數(shù)帶來的好處不必多說——通過訓練,如今的大模型可以在原子大小的精度上預測蛋白質(zhì)的三維結(jié)構(gòu)。
從準確度上看,ESMFold和AlphaFold2、RoseTTAFold差不多。
但是,ESMFold推測速度要比AlphaFold2快一個數(shù)量級!
一下說數(shù)量級可能不好理解三者之間速度的對比,看看下面這張圖就懂了。

有啥區(qū)別?
雖說AlphaFold2和RoseTTAFold在原子分辨率結(jié)構(gòu)預測問題上取得了突破性的成功,但它們也依賴于使用多序列比對(MSA)和類似的蛋白質(zhì)結(jié)構(gòu)模板來實現(xiàn)最佳性能。
相比之下,通過利用語言模型的內(nèi)部表征,ESMFold只用一個序列作為輸入就能生成相應的結(jié)構(gòu)預測,從而大大加快了結(jié)構(gòu)預測的速度。

研究人員發(fā)現(xiàn),ESMFold對低復雜度序列的預測與當下最先進的模型相當。
而且,結(jié)構(gòu)預測的準確性與語言模型的復雜度息息相關(guān),也就是說,當語言模型能更好地理解序列時,便可以更好地理解結(jié)構(gòu)。

目前,有數(shù)十億結(jié)構(gòu)和功能未知的蛋白質(zhì)序列,其中許多來自元基因組測序。
利用ESMFold,研究人員只需6個小時,就能折疊完成100萬個元基因組序列的隨機樣本。

其中很大一部分具有高置信度,并且與任何已知的結(jié)構(gòu)不同(在數(shù)據(jù)庫中沒有記錄)。
研究人員認為,ESMFold可以幫助理解那些超出現(xiàn)有認知的蛋白質(zhì)結(jié)構(gòu)。

此外,由于ESMFold的預測速度比現(xiàn)有的模型快一個數(shù)量級,因此研究人員便可借助ESMFold來協(xié)助填補快速增長的蛋白質(zhì)序列數(shù)據(jù)庫與進展緩慢的蛋白質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫之間的鴻溝。
150億參數(shù)的蛋白質(zhì)語言模型
接下來我們就來具體說說Meta這款全新的ESMFold。
ESM-2是一個基于Transformer的語言模型,并使用注意力機制來學習輸入序列中成對氨基酸之間的相互作用模式。
相對于上一代模型ESM-1b,Meta對模型結(jié)構(gòu)、訓練參數(shù)進行了改進,并增加了計算資源和數(shù)據(jù)。同時,相對位置嵌入的加入,使模型能夠推廣到任意長度的序列。
從結(jié)果來看,具有1.5億個參數(shù)的ESM-2模型比具有6.5億個參數(shù)的ESM-1b模型表現(xiàn)得更好。
此外,在結(jié)構(gòu)預測的基準上,ESM-2也超過了其他的蛋白質(zhì)語言模型。這種性能的提高與大型語言建模領(lǐng)域建立的規(guī)律是一致的。

隨著ESM-2規(guī)模的增加,可以觀察到語言建模的精度有很大的提高。

端到端的單序列結(jié)構(gòu)預測
SMFold和AlphaFold2的一個關(guān)鍵區(qū)別是,ESMFold使用語言模型表示,消除了對明確的同源序列(以MSA的形式)作為輸入的需要。
ESMFold通過用一個處理序列的Transformer模塊取代處理MSA的計算昂貴的網(wǎng)絡模塊,簡化了AlphaFold2中的Evoformer。這種簡化意味著ESMFold的速度大大提高,遠高于基于MSA的模型。
折疊主干的輸出接下來又被一個結(jié)構(gòu)模塊處理,它負責輸出最終的原子級結(jié)構(gòu)和預測的置信度。

研究人員將ESMFold與AlphaFold2和RoseTTAFold在CAMEO(2022年4月至2022年6月)和CASP14(2020年5月)測試集上進行比較。
當只給單一序列輸入時,ESMFold的表現(xiàn)要比Alphafold 2好得多。
而當使用完整的管道時,AlphaFold2在CAMEO和CASP14上分別達到了88.3和84.7。ESMFold在CAMEO上取得了與RoseTTAfold相當?shù)臏蚀_率,其平均TM分數(shù)為82.0。

結(jié)論
研究人員發(fā)現(xiàn),以無監(jiān)督學習為目標的語言模型在一個大型的進化多樣化的蛋白質(zhì)序列數(shù)據(jù)庫中訓練,能夠?qū)Φ鞍踪|(zhì)結(jié)構(gòu)進行原子級的分辨率預測。
將語言模型的參數(shù)擴大到15B,就可以系統(tǒng)地研究規(guī)模對蛋白質(zhì)結(jié)構(gòu)學習的影響。
我們看到,蛋白質(zhì)結(jié)構(gòu)預測的非線性曲線是模型規(guī)模的函數(shù),并且觀察到了語言模型對序列的理解程度與結(jié)構(gòu)預測之間的強烈聯(lián)系。
ESM-2系列的模型是迄今為止訓練的最大的蛋白質(zhì)語言模型,其參數(shù)僅比最近開發(fā)的最大文本模型少一個數(shù)量級。
而且,ESM-2比以前的模型有非常大的改進,即使在150M的參數(shù)下,ESM-2也比ESM-1代語言模型在6.5億的參數(shù)下捕捉到更準確的結(jié)構(gòu)圖。
研究人員表示,ESMFold性能的最大驅(qū)動力是語言模型。由于語言模型的迷惑性和結(jié)構(gòu)預測的準確性之間有很強的聯(lián)系,他們發(fā)現(xiàn)當ESM-2能較好地理解蛋白質(zhì)序列時,就可以獲得與目前最先進的模型相當?shù)念A測結(jié)果。
ESMFold獲得了準確的原子分辨率結(jié)構(gòu)預測,推理時間還比AlphaFold2快了一個數(shù)量級。
在實踐中,速度的優(yōu)勢甚至還要更大。因為ESMFold不需要搜索和進化相關(guān)的序列來構(gòu)建MSA。
雖說有更快的方法可以減少搜索時間,但再怎么減少還是可能會很長。
而推理時間的極大縮短帶來的利好不言自明——速度的提高將使繪制大型元基因組學序列數(shù)據(jù)庫的結(jié)構(gòu)空間成為可能。
除了基于結(jié)構(gòu)的工具來識別遠端同源性和保護性之外,用ESMFold進行快速準確的結(jié)構(gòu)預測,還能在大量新序列集合的結(jié)構(gòu)和功能分析中發(fā)揮重要作用。
在有限的時間內(nèi)獲得數(shù)以百萬計的預測結(jié)構(gòu),有利于發(fā)現(xiàn)對天然蛋白質(zhì)的廣度和多樣性的新認識,并能發(fā)現(xiàn)全新的蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)功能。
作者介紹
本文的共同一作是來自Meta AI的Zeming Lin。

據(jù)個人主頁介紹,Zeming在紐約大學攻讀博士學位,并在Meta AI擔任研究工程師(訪問),主要負責后端基礎(chǔ)設施的工作。
他本碩都就讀于弗吉尼亞大學,在那里,他和Yanjun Qi大佬一同做有關(guān)機器學習應用的研究,尤其是在蛋白質(zhì)結(jié)構(gòu)預測方面。
感興趣的領(lǐng)域為深度學習、結(jié)構(gòu)預測,以及信息生物學。



































