打破AlphaFold大模型局限,世界最大蛋白質(zhì)相互作用數(shù)據(jù)集AlphaSeq橫空出世
隨著最近AlphaFold 3和ESM 3的相繼推出,我們看到了深度學習在生物學領域的無限潛力。
然而,Dyno Therapeutics的高級機器學習工程師Abihishaike Mahajan在上個月發(fā)布的一篇博文中指出了潛在的增長危機。
圖片
他認為,AlphaFold系列所取得的成果,即將一個強大的深度學習模型應用于一個已經(jīng)存在大量數(shù)據(jù)的領域,從而引發(fā)一場徹底的革命——這是極難復制的。
原因還是數(shù)據(jù)。我們幾乎用盡了所有預先存在的數(shù)據(jù),未經(jīng)訓練的蛋白質(zhì)結(jié)構(gòu)和序列正在枯竭,RNA和DNA也是如此。
要想進一步訓練模型,發(fā)掘更多來源和模態(tài)的數(shù)據(jù)是必不可少的。Mahajan指出,理想情況下,這樣的數(shù)據(jù)應該滿足3個條件:
- 具有復雜的潛在分布
- 與重要的生理現(xiàn)象高度相關
- 適合大規(guī)模收集
在生物學領域,有很多數(shù)據(jù)可以滿足前兩個要求,比如蛋白形式測序、空間轉(zhuǎn)錄組學、體內(nèi)測量和蛋白質(zhì)-蛋白質(zhì)相互作用等,但這類數(shù)據(jù)似乎很難大量采集、生成,形成規(guī)模化的數(shù)據(jù)集。
可喜的是,初創(chuàng)公司A-Alpha Bio最近做出了這方面的突破。
他們最近發(fā)布的AlphaSeq數(shù)據(jù)庫專注于蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction, PPI),包含了超過7.5億條測量結(jié)果,構(gòu)成了世界上最大的PPI數(shù)據(jù)集。
在AlphaSeq數(shù)據(jù)的基礎上,訓練出的AlphaBind模型可以準確預測有不同結(jié)合特性(親和力、特異性、交叉反應性、表位等)的蛋白質(zhì)序列,從而輔助蛋白質(zhì)設計或發(fā)現(xiàn)全新的蛋白質(zhì)。
圖片
此外,作為實驗平臺,AlphaSeq還能夠同時定量測量數(shù)百萬個PPI的結(jié)合親和力,并快速得出結(jié)果,完美滿足了規(guī)模化擴展的需求。
根據(jù)CTO Randolph Lopez的說法,他們目前每月執(zhí)行約30次AlphaSeq檢測,每次可以得到100k~5M個交叉點。這意味著,AlphaSeq數(shù)據(jù)庫還在以每月3M~50M的速度快速擴展。
A-Alpha Bio這家初創(chuàng)公司也是大有來頭。不僅有計算生物學領域的大牛David Baker作為科學顧問,聯(lián)合創(chuàng)始人之一David Younger也是Baker實驗室的校友。
圖片
David Baker是華盛頓大學教授、蛋白質(zhì)研究所所長。他領導團隊從頭開發(fā)的Rosetta算法奠定了用深度學習方法預測蛋白質(zhì)結(jié)構(gòu)的基礎,揭開了AlphaFold和ESMFold的帷幕。
A-Alpha Bio成立于2017年,根據(jù)CrunchBase的數(shù)據(jù),他們已經(jīng)融資64.1M美元,旨在通過合成生物學和機器學習技術(shù)來測量、發(fā)現(xiàn)、預測和設計蛋白質(zhì)-蛋白質(zhì)相互作用,從而加速藥物開發(fā)的進程。
補足AlphaFold
提到蛋白質(zhì)相關的預測,你估計會疑惑:AlphaFold還不夠強大嗎,為什么還需要開發(fā)新的數(shù)據(jù)和模型?
很遺憾,AlphaFold的確不夠強大,因為要了解蛋白質(zhì)的相互作用(PPI)是一個相當復雜且困難的任務。
比如,要預測含有13個氨基酸的多肽與受體的結(jié)合效果,需要十多個不同的種子反復運行AlphaFold,以及MSA子采樣和其他一系列「技巧」,模型才能給出「某種程度上」正確的結(jié)構(gòu)。
這個任務之所以如此復雜,主要源于PPI的復雜性。即使規(guī)定了蛋白質(zhì)間作用力的空間,可能的結(jié)構(gòu)數(shù)量也會隨氨基酸數(shù)量呈指數(shù)級增長。
圖片
其中,分子構(gòu)象的靈活性會導致不可預測的結(jié)合模式,并且潛在的相互作用表面的組合數(shù)量也會爆炸。
如果有足夠的訓練數(shù)據(jù),模型也許能逐漸增強預測能力,應對問題的復雜性。
然而,傳統(tǒng)的PPI數(shù)據(jù)規(guī)模相當有限,比如今年1月剛剛發(fā)布的PDBbind+數(shù)據(jù)集,總共只包含3176個蛋白質(zhì)-蛋白質(zhì)復合物,遠遠無法滿足生產(chǎn)級的蛋白質(zhì)設計需求。
圖片
AlphaSeq所用的方法,起源于Baker實驗室在2017年發(fā)表的一篇論文,描述了A-Alpha Bio對PPI數(shù)據(jù)進行大規(guī)模收集和表征的基本方法。
圖片
論文地址:https://www.pnas.org/doi/10.1073/pnas.1705867114#sec-1
酵母細胞立大功
出乎意料的是,AlphaSeq的原理是利用了酵母細胞的配對過程。
酵母細胞由兩種類型的配子:MATa和MATα,它們在自然界中能夠?qū)ふ业奖舜瞬⑷诤铣蔀槎扼w細胞。
這個過程就是由MATa細胞上的Aga2蛋白和MATα細胞上的Sag1蛋白所介導的。當這些蛋白質(zhì)相互作用時,它們會導致細胞粘在一起,促進配對并形成二倍體細胞。
AlphaSeq正是利用了這個自然過程。研究人員對酵母細胞進行基因改造,讓相關的蛋白質(zhì)暴露在細胞表面,MATa細胞搭載一組蛋白質(zhì),而MATα細胞搭載另一組蛋白質(zhì)。
將改造過的細胞進行混合時,它們配對的可能性就取決于表面蛋白質(zhì)相互作用的強度。
那么如何快速測量數(shù)千萬個蛋白質(zhì)對之間的相互作用呢?答案是DNA編碼庫(DNA-encoded library)。
酵母細胞表面的每種蛋白質(zhì)都與一個獨特的「DNA條形碼」相關聯(lián)。當兩個酵母細胞配對時,這些條形碼會在生成的二倍體細胞中聚集在一起。
通過一些基因工程的操作,這些DNA條形碼最終會位于同一條染色體上的相鄰位置。
在此基礎上,我們就可以提取細胞DNA進行測序,兩個DNA條形碼相鄰的頻率就與兩種蛋白質(zhì)相互作用的強度直接相關。
圖片
值得注意的是,將整個平臺都建立在酵母細胞上,可能存在根本限制。雖然酵母細胞表達的蛋白質(zhì)和人體內(nèi)的蛋白質(zhì)之間具有高度可翻譯性,但兩者的翻譯后修飾依舊存在差異。
翻譯后修飾的差別可能會影響蛋白質(zhì)的折疊,從而影響結(jié)合。
目前我們尚不清楚A-Alpha Bio如何將收集的數(shù)據(jù)從酵母遷移到人類細胞,但他們已經(jīng)對一些蛋白質(zhì)的可翻譯性進行了驗證。這種方法至少總體上是可行且有效的。
應用前景
遺憾的是,A-Alpha Bio目前還沒有發(fā)布AlphaSeq的最新論文,關于AlphaBind模型的信息也十分有限。
但根據(jù)Mahajan文章的分析,該公司一系列產(chǎn)品有相當?shù)膽们熬啊?/span>
對疾病治療領域而言,可以幫助設計免疫細胞因子等藥物;與大型制藥公司合作,也可以幫助「分子膠」的開發(fā)。
使用AlphaSeq平臺進行細胞因子親和力調(diào)整來生成靶向免疫腫瘤治療藥物
參考資料:
https://www.owlposting.com/p/creating-the-largest-protein-protein
https://www.owlposting.com/p/wet-lab-innovations-will-lead-the