Nature重磅研究:AlphaFold繪制病毒「族譜」,揭開身世之謎
今年7月,被Meta解散的ESMFold團(tuán)隊(duì)成功另起爐灶,發(fā)布了他們最新的生命科學(xué)大模型ESM3,打出的slogan正是「用語言模型模擬5億年進(jìn)化?!?/span>
圖片
論文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
這個(gè)用途,很快就被生物學(xué)家們敏銳地捕捉到了。
最近發(fā)表的很多工作中,科學(xué)家們正在用AlphaFold和ESMFold等模型,重新繪制病毒譜系,探索到了一些令人驚訝的「親緣關(guān)系」。
這些成果,不僅可以揭秘病毒家族的進(jìn)化史,還能讓我們更好地應(yīng)對(duì)未來的生化風(fēng)險(xiǎn)。
圖片
如果用傳統(tǒng)方法,科學(xué)家們需要根據(jù)基因組比較的結(jié)果來理解病毒進(jìn)化。
但是和哺乳動(dòng)物比起來,病毒的進(jìn)化速度可以說是快如閃電,尤其是基因由RNA組成的病毒,需要比對(duì)的基因組數(shù)量和復(fù)雜度就會(huì)急遽增加。
此外,病毒的進(jìn)化不僅來源于基因突變,它們還可以從其他生物體獲取遺傳物質(zhì),這就辨識(shí)病毒「親緣關(guān)系」的工作更加困難??雌饋泶蟛幌嗤幕蛐蛄校赡茈[藏著病毒之間非常深層而遙遠(yuǎn)的關(guān)系。
相比病毒的基因,它們編碼的蛋白質(zhì)的形狀或結(jié)構(gòu)變化往往比較緩慢,然而英國(guó)格拉斯哥大學(xué)的分子病毒學(xué)家Joe Grove表示,在AlphaFold等工具出現(xiàn)之前,即使是整個(gè)病毒家族的蛋白質(zhì)結(jié)構(gòu),也很難靠傳統(tǒng)方法完成研究和比較。
Grove和他的團(tuán)隊(duì)最近在Nature上發(fā)表的一篇論文,正是借助了大模型的力量,通過糖蛋白的結(jié)構(gòu)揭示了黃病毒科的進(jìn)化史。
圖片
論文地址:https://www.nature.com/articles/s41586-024-07899-8
黃病毒包括丙型肝炎病毒、登革熱病毒和寨卡病毒,以及一些主要的動(dòng)物病原體,還有一些可能對(duì)人類健康構(gòu)成新威脅的物種。
病毒如何進(jìn)入細(xì)胞
自從疫苗大范圍接種后,丙肝成為了我們不太熟悉的一種傳染病,但這個(gè)病毒每年依舊造成了數(shù)十萬人的死亡。
如果要開發(fā)更為有效的丙肝疫苗,我們就需要理解黃病毒是憑借哪個(gè)蛋白質(zhì)進(jìn)入細(xì)胞的(其中就包含糖蛋白),這些蛋白質(zhì)也同樣決定了病毒能夠感染哪些宿主。
如果僅在序列層面研究、比對(duì),你會(huì)發(fā)現(xiàn)各個(gè)病毒的蛋白質(zhì)差異如此之大,很難找到有意義的聯(lián)系。但如果借助生物大模型的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)功能,這個(gè)難題將迎刃而解。
研究人員使用DeepMind的AlphaFold 2模型,和Meta開發(fā)的結(jié)構(gòu)預(yù)測(cè)工具ESMFold,為458種黃病毒的蛋白質(zhì)生成了超過3.3萬個(gè)預(yù)測(cè)結(jié)構(gòu)。
丙型肝炎病毒糖蛋白結(jié)構(gòu)預(yù)測(cè)
之所以同時(shí)使用AlphaFold和ESMFold兩種模型,是由于二者之間的一個(gè)本質(zhì)差異。
AlphaFold的輸入需要依賴于相似蛋白質(zhì)的多個(gè)序列,但ESMFold不同,它是在數(shù)千萬個(gè)蛋白質(zhì)序列上訓(xùn)練的「蛋白質(zhì)語言模型」,可以只接受耽擱序列作為輸入,因而非常適合深入分析那些最「神秘」的病毒。
這些結(jié)構(gòu)的預(yù)測(cè)結(jié)果讓研究人員們發(fā)現(xiàn)了一些意想不到的聯(lián)系,有些和黃病毒看似八竿子打不著的親戚,也能用類似蛋白作為「鑰匙」來進(jìn)入細(xì)胞。
比如,丙肝使用的細(xì)胞感染系統(tǒng)和瘟病毒就非常類似,包括比較經(jīng)典的豬瘟,以及其他的動(dòng)物病原體。
AI輔助工具還能告訴我們,丙肝和瘟病毒所用的「進(jìn)入系統(tǒng)」和其他病毒非常不同。對(duì)此,Grove也很難做出解釋:「對(duì)于丙型肝炎和它的親戚們,我們不知道它們的進(jìn)入系統(tǒng)來自哪里,可能是那些病毒很久以前發(fā)明的。」
從細(xì)菌中得到「盜版」蛋白
除了瘟病毒,預(yù)測(cè)的結(jié)構(gòu)還幫黃病毒找到了兩個(gè)「親戚」——寨卡病毒和登革熱病毒,它們的進(jìn)入蛋白似乎有相同的起源;此外,黃病毒似乎還從細(xì)菌那里「竊取」了一種酶并據(jù)為己有。
使用ColabFold–AlpahFold2預(yù)測(cè)登革熱病毒蛋白的結(jié)構(gòu)
此前,悉尼大學(xué)病毒學(xué)家Mary Petrone的團(tuán)隊(duì)也曾在一種奇怪的黃病毒中發(fā)現(xiàn)了類似的「盜竊」行為。
她表示,「在黃病毒的進(jìn)化過程中,『基因盜取』可能發(fā)揮了比我們之前認(rèn)為的更大的塑造作用?!?/span>
瑞士洛桑大學(xué)的計(jì)算生物學(xué)家David Moi還指出,考慮到AI輔助工具未被發(fā)掘的潛力,黃病毒研究只是冰山一角。
借助人工智能,其他病毒,甚至很多細(xì)胞生物的進(jìn)化歷史都很可能被重寫。
「我們將用新一代工具重新講述它們的故事。既然我們現(xiàn)在能看得更遠(yuǎn),所有這些生物的進(jìn)化歷史都需要更新。」
在生命科學(xué)的很多未解之謎中,AI所迸發(fā)出的巨大能量讓我們看到了答案的曙光,也讓我們期待著故事被改寫的那一天。