顛覆蛋白結(jié)構(gòu)預(yù)測的AlphaFold 2,改變了科學(xué)史
牛津大學(xué)教授Matthew Higgins正在與一個經(jīng)典的令人頭痛的問題作斗爭:蛋白質(zhì)到底是什么樣子的?
自2005年以來,他的實驗室就一直在關(guān)注于瘧疾的相關(guān)問題。
傳統(tǒng)技術(shù)只能生成蛋白質(zhì)結(jié)構(gòu)的模糊輪廓,這讓Higgins感到困惑。
不過,通過使用一種名為AlphaFold 2的新人工智能技術(shù),他破譯了導(dǎo)致瘧疾的寄生蟲所使用的一種關(guān)鍵蛋白質(zhì)的結(jié)構(gòu)。
這項突破幫助他開發(fā)了一種實驗性瘧疾疫苗,目前正在進行人體測試。
瘧疾每年導(dǎo)致600多萬人死亡,而這些疫苗可能是對抗該疾病的關(guān)鍵。他說,如果沒有AlphaFold,我們可能仍在碰壁。
從Higgins的成就中不難看出,AlphaFold 2正在迅速顛覆科學(xué)和醫(yī)學(xué)。
在短短幾年內(nèi),Alphabet旗下的人工智能初創(chuàng)公司DeepMind已經(jīng)從贏下圍棋比賽,成長到可以解決生物學(xué)的巨大挑戰(zhàn),而現(xiàn)在它已經(jīng)被超過100萬的研究人員使用,有大學(xué)的研究人員,也有大藥廠的研究人員。
DeepMind首席執(zhí)行官Demis Hassabis去年在一個播客節(jié)目中說:「AlphaFold令人驚訝,但這只是一個開始」。
從贏下圍棋,到改變科學(xué)史
如今,蛋白質(zhì)是幾乎所有藥物的主要靶點,因此了解蛋白質(zhì)結(jié)構(gòu),是解決如何通過特定方式干預(yù)疾病表型的關(guān)鍵。
在AlphaFold之前,尋找蛋白質(zhì)的結(jié)構(gòu)是一項艱巨的任務(wù)。
傳統(tǒng)的方法是研究人員對蛋白質(zhì)進行結(jié)晶,將其變成一種蛋白質(zhì)很抵制的鹽分形式。如果這一步奏效,他們就用X射線轟擊每個晶體,觀察電子如何從它身上反彈以產(chǎn)生圖像。
通過反復(fù)進行這一過程,科學(xué)家們可以了解到一個蛋白質(zhì)的3D結(jié)構(gòu)。
Higgins說,一個博士生可能需要花一兩年的時間才能發(fā)現(xiàn)一種新的結(jié)構(gòu),但是結(jié)果往往是模糊、不確定的。
DeepMind首席執(zhí)行官Demis Hassabis是一名國際象棋神童,也是人工智能的布道者。他于 2010 年創(chuàng)立了 DeepMind,目標(biāo)是構(gòu)建能夠像人類一樣執(zhí)行某些任務(wù)的人工智能系統(tǒng),甚至能夠比人類做得更好。
2016年,DeepMind的人工智能系統(tǒng)AlphaGo在圍棋比賽中擊敗了世界級棋手。
在圍棋勝利之后,Hassabis和DeepMind的頂級科學(xué)家David Silver決定,是時候從圍棋比賽,轉(zhuǎn)向解決現(xiàn)實世界的問題了。
于是他們開始轉(zhuǎn)攻蛋白質(zhì)的問題,而生物學(xué)家John Moult數(shù)十年的工作為DeepMind進入生物學(xué)鋪平了道路。
1994年,他創(chuàng)辦了CASP 蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽(Critical Assessment of Protein Structure Prediction)。
參賽者會被分到大約100個未知的蛋白的氨基酸序列,這些蛋白質(zhì)的三結(jié)構(gòu)已經(jīng)是確定的但并未公布過。
參賽團隊將有幾個月的時間去研發(fā)和使用數(shù)學(xué)模型以解決這些未知的結(jié)構(gòu)。Moult會對他們的預(yù)測進行準(zhǔn)確性評分。滿分100,超過90就表明結(jié)構(gòu)預(yù)測接近完美。
DeepMind在2018年的CASP會議上進行了首次公開嘗試。AlphaFold的第一個版本贏得了比賽并擊敗了世界標(biāo)準(zhǔn)。在比賽中,獲勝者的預(yù)測準(zhǔn)確率通常為40%左右,而AlphaFold的成績是60%。
雖然這個成績讓人眼前一亮,但AlphaFold的預(yù)測有很多錯誤,還不夠完美。Hassabis 想做得更好。
在CASP結(jié)果公布前幾個月,AlphaFold背后的頂級科學(xué)家之一John Jumper正在與他的團隊一起規(guī)劃,想要對該技術(shù)進行漸進式的改進。
Hassabis 卻出人意料地叫停他們,大概意思是「用現(xiàn)在的模型解決這個問題是不是太難了?是不是做個別的模型?」
那次談話之后,Jumper就拋棄了AlphaFold的第一個版本,直接從頭開始。Jumper說,「AlphaFold 2是在對蛋白質(zhì)有更多生物和物理知識的基礎(chǔ)上構(gòu)建的?!?/span>
在2020年年底的CASP上,AlphaFold 2交出了答卷,預(yù)測蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確率達到了近90%,遠(yuǎn)遠(yuǎn)高于其他參賽選手。專家們認(rèn)為它有效地解決了這個問題。
「那一刻,我知道我們改變了科學(xué)史,」Jumper說。
生命科學(xué)領(lǐng)域的爆炸性增長
在CASP之后的幾個月里,DeepMind行動迅速。
該團隊在2020年圣誕節(jié)前后預(yù)測了人體中的所有2萬種蛋白質(zhì)。這些結(jié)果于2021年7月與軟件的代碼一起發(fā)表在Nature的一篇開創(chuàng)性論文中,該論文已被引用超過8800次,也就是說每天約被引用15次。
Hassabis 說,決定免費發(fā)布AlphaFold 2是為了最大限度地造福人類。
據(jù)CNBC報道,DeepMind作為Alphabet的子公司,通過向Alphabet的其他公司,如YouTube和谷歌,出售軟件和服務(wù)來賺錢。
而后,Hassabis在2021年成立了生物技術(shù)初創(chuàng)公司Isomorphic Labs,潛心研究藥物。與此同時,AlphaFold 2也一直在運轉(zhuǎn),在去年夏天發(fā)布了2億份蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果。
研究的步伐正在迅速加快。
根據(jù)生物醫(yī)學(xué)研究目錄PubMed的數(shù)據(jù),2020年只有4篇論文參考了AlphaFold。這一數(shù)字在2021年增長到92篇,2022年增長到546篇。2023年將會有超過1000篇論文。
藥物研究的加速器
一些生物技術(shù)公司現(xiàn)在正在使用AlphaFold 2來開發(fā)藥物。
「AlphaFold向人們展示了可能性,從而引發(fā)了一波創(chuàng)新浪潮?!共ㄊ款D初創(chuàng)公司AI Proteins的首席科學(xué)家Chris Bahl說,該公司也使用AlphaFold幫助開發(fā)藥物。
在2019年,Raphael Townshend作為DeepMind實習(xí)生,在AlphaFold工作,當(dāng)時他正在完成斯坦福大學(xué)的計算機科學(xué)博士學(xué)位。
現(xiàn)在,他在舊金山經(jīng)營著一家名為Atomic AI的創(chuàng)業(yè)公司,希望開發(fā)他所謂的「RNA的AlphaFold」。
RNA讀取我們的遺傳(DNA)中的指令,在體內(nèi)創(chuàng)造蛋白質(zhì)。
他的公司想要預(yù)測RNA分子的結(jié)構(gòu),并且希望利用這些研究來開發(fā)藥物。其他生物技術(shù)公司也在將AlphaFold與其他AI技術(shù)結(jié)合使用,來快速、廉價地發(fā)現(xiàn)潛在的新藥。
例如,初創(chuàng)公司Insilico Medicine將自己的人工智能系統(tǒng)與AlphaFold一起使用,來設(shè)計可以阻斷與肝癌相關(guān)的蛋白質(zhì)的分子。它創(chuàng)造了其中一個分子,并使用實驗室測試來確認(rèn)它可以發(fā)揮作用。該公司在1月份發(fā)表了這項研究。
該公司的首席執(zhí)行官Alex Zhavoronkov聲稱,他的團隊從找到藥物靶點到設(shè)計藥物并在實驗室進行測試,只花了大約50天,不到100萬美元,他認(rèn)為這是藥物開發(fā)一個記錄。
Zhavoronkov的辦公室里放著Hassabis的照片,「AlphaFold是一個絕妙的發(fā)現(xiàn),但它是一個巨大的樂高拼圖中的一部分,你需要擁有這個拼圖才能成功地將藥物投放市場。」
不過,雖然這項人工智能的技術(shù)讓藥物研發(fā)變得更加快速容易,但是由于臨床試驗的費用,該公司并不打算將其藥物推進人體研究,因為在動物和人類身上進行測試的過程仍然需要許多年和數(shù)億美元。
下一步是什么
人工智能在生物技術(shù)方面的潛力是有限的。
AlphaFold的預(yù)測并不總是完美的,這個預(yù)測模型在解決一小群未知蛋白質(zhì)方面非常準(zhǔn)確,但這并不能保證所有預(yù)測的結(jié)構(gòu)都是正確的。
牛津大學(xué)的Higgins說,他自己會用實驗室的實驗來再次核查人工智能的預(yù)測,因此他對完全依賴于AlphaFold預(yù)測的研究論文持謹(jǐn)慎態(tài)度,因為其中缺少實驗驗證這一環(huán)。
盡管存在這些限制,但AlphaFold 2已是一項重大突破,甚至激起了諾貝爾獎的討論,尤其是在它贏得了2022年300萬美元的突破獎之后。
華盛頓大學(xué)計算機科學(xué)教授Pedro Domingos表示,AlphaFold團隊的研究是更深層次的,像是蛋白質(zhì)如何與其他蛋白質(zhì)或小分子相互作用,這樣問題是十分有意義的。
未來他們的研究會越來越難,也不清楚AI是否能夠勝任接下來的研究。但是Domingos認(rèn)為,DeepMind的團隊非常優(yōu)秀,所以他對其未來發(fā)展很是看好。
DeepMind已經(jīng)在遺傳學(xué)和預(yù)測更復(fù)雜的蛋白質(zhì)相互作用方面做出了一些研究,但是他們下一個瞄準(zhǔn)的什么重大生物學(xué)問題還依舊保持神秘,并未透露,所以未來的其他機構(gòu)、公司對它技術(shù)的應(yīng)用也將「越來越難把握」。
DeepMind的Jumper表示,他的AlphaFold團隊專注于清除生物學(xué)研究中的下一個重大障礙。但這仍然是一個秘密。
「我有我的理論,關(guān)于這可能走向何方,這是什么樣的技術(shù),以及未來可能的情況,我不會透露?!?/span>