哈佛、哥大開源1600萬組蛋白質(zhì)序列,解決AlphaFold 2訓(xùn)練數(shù)據(jù)私有難題!
蛋白質(zhì)是生命的主力軍,了解它們的序列和結(jié)構(gòu),是設(shè)計(jì)新酶、開發(fā)救命藥物等生物學(xué)和醫(yī)學(xué)挑戰(zhàn)的關(guān)鍵。
DeepMind的AlphaFold 2,能夠以前所未有的準(zhǔn)確性預(yù)測蛋白質(zhì)結(jié)構(gòu)。
然而,由于缺乏開放的訓(xùn)練數(shù)據(jù),這一領(lǐng)域的進(jìn)展被嚴(yán)重阻礙。
但來自哈佛大學(xué)、哈佛醫(yī)學(xué)院、哥倫比亞大學(xué)、紐約大學(xué)和Flatiron Institute的研究者,引入了一個(gè)開源數(shù)據(jù)庫。
這個(gè)名為OpenProteinSet的開源數(shù)據(jù)庫,可以通過大規(guī)模提供蛋白質(zhì)比對(duì)數(shù)據(jù),來大大改善這種狀況。
它提供的數(shù)據(jù)集,和用于訓(xùn)練AlphaFold 2的數(shù)據(jù)集質(zhì)量相同。
因?yàn)锳lphaFold 2,MSA的實(shí)用性爆炸性增長
蛋白質(zhì)的功能,就編碼在氨基酸序列中。
在進(jìn)化過程中,這些序列會(huì)積累一些微小的變化,而蛋白質(zhì)的整體結(jié)構(gòu)和功能卻一直保持不變。
多序列對(duì)齊(MSA)是一組和進(jìn)化相關(guān)的蛋白質(zhì)序列,通過插入間隙進(jìn)行對(duì)齊,使匹配的氨基酸最終出現(xiàn)在同一列中。
通過分析這些MSA中的模式,可以深入了解蛋白質(zhì)的結(jié)構(gòu)和功能。
MSA的每一行,都是一個(gè)蛋白質(zhì)序列。蛋白質(zhì)是由20個(gè)氨基酸(或「殘基」)組成的一維字符串,每個(gè)氨基酸或「殘基」由一個(gè)字母表示。
目標(biāo)或「查詢」 蛋白質(zhì)在MSA的第一行中給出。后續(xù)行是根據(jù)與查詢序列的相似性,從大型序列數(shù)據(jù)庫中檢索到的進(jìn)化相關(guān)(「同源」) 蛋白質(zhì)。
為了改進(jìn)比對(duì)、適應(yīng)長度隨時(shí)間變化的同源序列,MSA比對(duì)軟件可以在同源序列中插入「缺口」(此處用破折號(hào)表示)或刪除殘基。
MSA中同源序列的數(shù)量(「深度」)及其多樣性,都有助于MSA的實(shí)用性。
MSA引物
長期以來,MSA對(duì)蛋白質(zhì)研究都至關(guān)重要,不過在2021年,因?yàn)锳lphaFold 2的出現(xiàn),MSA的實(shí)用性呈現(xiàn)了爆炸性增長。
通過MSA,AlphaFold 2能夠以近乎實(shí)驗(yàn)級(jí)的準(zhǔn)確性預(yù)測蛋白質(zhì)結(jié)構(gòu)。
然而有一個(gè)問題:雖然AlphaFold 2是開源的,但它的訓(xùn)練數(shù)據(jù)仍然是私有的。
這樣做的計(jì)算成本很高。根據(jù)目標(biāo)序列長度和正在搜索的序列數(shù)據(jù)庫的大小生成一個(gè)具有高靈敏度的MSA,可能需要幾個(gè)小時(shí)。
這樣,蛋白質(zhì)機(jī)器學(xué)習(xí)和生物信息學(xué)的前沿研究除了少數(shù)大型研究團(tuán)隊(duì)外,其他所有人都無法訪問。
1600萬個(gè)MSA全部開源
因此,團(tuán)隊(duì)提出了OpenProteinSet,這是一個(gè)在AlphaFold 2及其以上規(guī)模訓(xùn)練生物信息學(xué)的模型。
它包含了AlphaFold 2未發(fā)布的訓(xùn)練集,包括所有唯一的蛋白質(zhì)數(shù)據(jù)庫(PDB)鏈的MSAs和結(jié)構(gòu)模板。
現(xiàn)在,OpenProteinSet提供了1600萬個(gè)MSA和相關(guān)數(shù)據(jù),并且全部開源。
PDB是實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)的權(quán)威數(shù)據(jù)庫,而OpenProteinSet包括PDB中所有140,000種蛋白質(zhì)的MSA。
它甚至還包括來自UniProt知識(shí)庫的序列,該序列按相似性聚類。
對(duì)于PDB蛋白質(zhì),OpenProteinSet能夠提供來自多個(gè)序列數(shù)據(jù)庫的原始MSA。
通過搜索PDB,它還能找到結(jié)構(gòu)相似的蛋白質(zhì)。
AlphaFold 2預(yù)測的結(jié)構(gòu),包括270,000個(gè)不同的UniProt集群。
使用開源數(shù)據(jù)集重新創(chuàng)建AlphaFold 2
開發(fā)者還會(huì)使用OpenProteinSet來訓(xùn)練OpenFold,這是AlphaFold 2的一個(gè)開放版本。
他們發(fā)現(xiàn),OpenFold的性能與DeepMind的原始數(shù)據(jù)相當(dāng),證明了這種開放數(shù)據(jù)的充分性。
團(tuán)隊(duì)表示,「通過OpenProteinSet,我們大大提高了分子機(jī)器學(xué)習(xí)社區(qū)可用的預(yù)計(jì)算MSA的數(shù)量和質(zhì)量,」
該數(shù)據(jù)集可直接應(yīng)用于結(jié)構(gòu)生物學(xué)的各種任務(wù)。
實(shí)驗(yàn)方法
OpenProteinSet由超過1600萬個(gè)獨(dú)特的MSAs組成,這些MSAs是根據(jù)AIphaFold2論文中的程序生成的。
這一計(jì)數(shù)包括截至2022年4月PDB中所有14萬個(gè)唯一鏈的MSAs,以及針對(duì)同一數(shù)據(jù)庫為Uniclust30中的每個(gè)序列集群計(jì)算的1,600萬個(gè)MSAs。
從后一組中,研究者確定了270,000個(gè)最大多樣性代表性集群,比如可以適用于AphaFold2訓(xùn)練過程中的自我蒸餾集。
對(duì)于每個(gè)PDB鏈,研究者使用了不同的對(duì)齊工具和序列數(shù)據(jù)庫計(jì)算三個(gè)MSAs。
使用OpenFold中的腳本,可以從公開可用的PDBmmCIF文件中,檢索相應(yīng)的結(jié)構(gòu)。
與用于生成AIphaFold2訓(xùn)練集的過程一樣,研究者更改了MSA生成工具的一些默認(rèn)選項(xiàng)。
隨后,產(chǎn)生了大約1600萬個(gè)MSAs,每個(gè)集群一個(gè)。
為了創(chuàng)建一個(gè)不同的、深度的MSAs子集,研究者通過迭代去除代表性鏈出現(xiàn)在其他MSAs中最多的MSAs。
這樣重復(fù),直到每個(gè)代表鏈只出現(xiàn)在它自己的MSA中。
為了與對(duì)應(yīng)的(未發(fā)布的)AlphaFold 2集進(jìn)行奇偶性檢驗(yàn),研究者進(jìn)一步刪除了代表序列大于1024個(gè)殘基或小于200個(gè)殘基的簇。
最后,他們剔除了相應(yīng)MSAs少于200個(gè)序列的簇,只剩下270,262個(gè)MSAs。
總的來說,OpenProteinSet中的MSAs代表了超過400萬小時(shí)的計(jì)算。
OpenProteinSet大大提高了分子機(jī)器學(xué)習(xí)社區(qū)可用的預(yù)計(jì)算MSAs的數(shù)量和質(zhì)量,它可以直接應(yīng)用于結(jié)構(gòu)生物學(xué)中的各種任務(wù)。
隨著模型對(duì)數(shù)據(jù)的需求越來越大,像OpenProteimnSet這樣的數(shù)據(jù)庫既可以作為多模態(tài)語言模型的生物知識(shí)寶庫,也可以作為多模態(tài)訓(xùn)練本身的實(shí)證研究工具。
總之,OpenProteinSet將進(jìn)一步推動(dòng)生物信息學(xué)、蛋白質(zhì)機(jī)器學(xué)習(xí)等領(lǐng)域的研究。