超越AF2?Iambic、英偉達(dá)、加州理工學(xué)院開(kāi)發(fā)多尺度深度生成模型,進(jìn)行狀態(tài)特異性蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)
由蛋白質(zhì)和小分子配體形成的結(jié)合復(fù)合物無(wú)處不在,對(duì)生命至關(guān)重要。雖然最近科學(xué)家在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面取得了進(jìn)展,但現(xiàn)有算法無(wú)法系統(tǒng)地預(yù)測(cè)結(jié)合配體結(jié)構(gòu)及其對(duì)蛋白質(zhì)折疊的調(diào)節(jié)作用。
為了解決這種差異,AI 制藥公司 Iambic Therapeutics、英偉達(dá)(Nvidia Corporation)以及加州理工學(xué)院(California Institute of Technology)的研究人員提出了 NeuralPLexer,這是一種計(jì)算方法,可以?xún)H使用蛋白質(zhì)序列和配體分子圖輸入直接預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)。
NeuralPLexer 采用深度生成模型以原子分辨率對(duì)結(jié)合復(fù)合物的三維結(jié)構(gòu)及其構(gòu)象變化進(jìn)行采樣。該模型基于擴(kuò)散過(guò)程,該過(guò)程結(jié)合了基本的生物物理約束和多尺度幾何深度學(xué)習(xí)系統(tǒng),以分層方式迭代采樣殘留級(jí)接觸圖和所有重原子坐標(biāo)。
NeuralPLexer 預(yù)測(cè)與酶工程和藥物發(fā)現(xiàn)中重要靶點(diǎn)的結(jié)構(gòu)測(cè)定實(shí)驗(yàn)相一致,其在蛋白質(zhì)組規(guī)模上加速功能蛋白和小分子設(shè)計(jì)方面擁有巨大潛力。
該研究以「State-specific protein–ligand complex structure prediction with a multiscale deep generative model」為題,于 2024 年 2 月 12 日發(fā)布在《Nature Machine Intelligence》。
靜態(tài)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)不足以支持藥物設(shè)計(jì)
深度學(xué)習(xí)在從一維氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面取得了巨大進(jìn)步。最先進(jìn)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò),例如 AlphaFold2 (AF2),采用基于蛋白質(zhì)結(jié)構(gòu)的進(jìn)化、物理和幾何約束的預(yù)測(cè)管線(xiàn)。具體來(lái)說(shuō),從多重序列比對(duì)(MSA)或蛋白質(zhì)語(yǔ)言模型(PLM)和專(zhuān)門(mén)的神經(jīng)網(wǎng)絡(luò)中提取的進(jìn)化約束,與基于序列的信息和幾何表示系統(tǒng)地結(jié)合,從而實(shí)現(xiàn)端到端的三維(3D)結(jié)構(gòu)預(yù)測(cè) 。
雖然在預(yù)測(cè)蛋白質(zhì)靜態(tài)結(jié)構(gòu)方面取得了巨大成功,但蛋白質(zhì)折疊問(wèn)題的這種單一結(jié)構(gòu)公式提供了有關(guān)蛋白質(zhì)功能的不完整信息,并且還被發(fā)現(xiàn)不足以用于基于結(jié)構(gòu)的藥物設(shè)計(jì)。
生成式深度學(xué)習(xí)是一種替代范式
然而,與受體構(gòu)象的實(shí)質(zhì)性變化相結(jié)合的蛋白質(zhì)-配體復(fù)合物的計(jì)算模型,受到模擬緩慢蛋白質(zhì)狀態(tài)轉(zhuǎn)變的高昂成本的阻礙。生成式深度學(xué)習(xí)的最新發(fā)展提供了一種替代范式,并且在理解復(fù)雜視覺(jué)和語(yǔ)言領(lǐng)域方面取得了實(shí)質(zhì)性進(jìn)展。
生成建模的兩個(gè)值得注意的策略包括(1)自回歸模型,在序列數(shù)據(jù)(例如自然語(yǔ)言和基因組學(xué))的 Transformer 網(wǎng)絡(luò)中廣泛采用,基于順序過(guò)程;(2) 基于擴(kuò)散的生成模型,利用隨機(jī)過(guò)程通過(guò)從先驗(yàn)分布中采樣并使用神經(jīng)網(wǎng)絡(luò)逐步逆轉(zhuǎn)噪聲過(guò)程來(lái)生成數(shù)據(jù)。
科學(xué)家已經(jīng)證明,深度生成模型能夠產(chǎn)生具有經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的功能的從頭設(shè)計(jì)的蛋白質(zhì),包括用于蛋白質(zhì)序列設(shè)計(jì)的語(yǔ)言模型和用于蛋白質(zhì)主鏈生成的擴(kuò)散模型。擴(kuò)散模型可以有效地模擬蛋白質(zhì)骨架之外的分子結(jié)構(gòu),特別是在分子對(duì)接和基于結(jié)構(gòu)的藥物設(shè)計(jì)方面。
然而,目前為止,還沒(méi)有團(tuán)隊(duì)開(kāi)發(fā)出能夠以原子分辨率直接預(yù)測(cè)結(jié)合復(fù)雜結(jié)構(gòu)且精度可與結(jié)構(gòu)測(cè)定實(shí)驗(yàn)相媲美的生成模型。
深度生成模型預(yù)測(cè)蛋白質(zhì)-配體復(fù)雜結(jié)構(gòu)
在最新的研究中,Iambic、英偉達(dá)、加州理工學(xué)院團(tuán)隊(duì)介紹了 NeuralPLexer,這是一種計(jì)算系統(tǒng),它使用由生物物理歸納偏差提供的深度生成模型來(lái)預(yù)測(cè)蛋白質(zhì)-配體復(fù)雜結(jié)構(gòu)。該方法可以以從 PLM 獲得的輔助特征和從實(shí)驗(yàn)解析的同源物或計(jì)算模型檢索的模板蛋白質(zhì)結(jié)構(gòu)為條件,直接生成給定蛋白質(zhì)序列和配體分子圖輸入的結(jié)合復(fù)合物的結(jié)構(gòu)集合。
圖示:NeuralPLexer 能夠準(zhǔn)確預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物的結(jié)構(gòu)和構(gòu)象變化。(來(lái)源:論文)
預(yù)測(cè)管線(xiàn)和底層神經(jīng)網(wǎng)絡(luò)架構(gòu)都旨在反映生物分子復(fù)合物的多尺度層次結(jié)構(gòu)。具體而言,NeuralPLexer 包括:
(1)基于圖的網(wǎng)絡(luò),將單個(gè)小分子和氨基酸圖的原子級(jí)化學(xué)和幾何特征編碼為張量表示,通過(guò)受物理啟發(fā)的網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn),該網(wǎng)絡(luò)架構(gòu)經(jīng)過(guò)百萬(wàn)級(jí)分子構(gòu)象和生物活性數(shù)據(jù)庫(kù)的訓(xùn)練;
(2)接觸預(yù)測(cè)模塊(CPM),在最近的視覺(jué)語(yǔ)言模型和折疊預(yù)測(cè)網(wǎng)絡(luò)的推動(dòng)下,使用基于注意力的網(wǎng)絡(luò)生成殘留尺度的分子間距離分布、粗粒度接觸圖和相關(guān)的配對(duì)表示;
(3)等變結(jié)構(gòu)去噪模塊 (ESDM),用于生成以原子尺度和殘留尺度網(wǎng)絡(luò)的輸出為條件的結(jié)合復(fù)雜原子結(jié)構(gòu),使用等變的結(jié)構(gòu)化去噪擴(kuò)散過(guò)程,并保留蛋白質(zhì)和配體分子的手性約束。
在對(duì)蛋白質(zhì)-配體盲對(duì)接進(jìn)行評(píng)估時(shí),與 PDBBind2020 基準(zhǔn)上性能最佳的現(xiàn)有方法相比,NeuralPLexer 將預(yù)測(cè)成功率提高了高達(dá) 78%。在針對(duì)挑戰(zhàn)性目標(biāo)的配體結(jié)合位點(diǎn)設(shè)計(jì)中,NeuralPLexer 僅使用計(jì)算生成的截短支架即可有效恢復(fù)高達(dá) 45% 的結(jié)合位點(diǎn)結(jié)構(gòu)。
與現(xiàn)有的基于物理的方法相比,這代表了成功率的質(zhì)的提高。此外,NeuralPLexer 在選擇性預(yù)測(cè)受誘導(dǎo)擬合結(jié)合或構(gòu)象選擇影響的蛋白質(zhì)結(jié)構(gòu)方面比現(xiàn)有方法表現(xiàn)出系統(tǒng)優(yōu)勢(shì);在兩個(gè)具有大結(jié)構(gòu)可塑性的配體結(jié)合蛋白基準(zhǔn)數(shù)據(jù)集上,NeuralPLexer 優(yōu)于最先進(jìn)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法 AF2,最高的模板建模得分 (TM-score)(平均 0.906)以及配體結(jié)合后發(fā)生重大構(gòu)象變化的結(jié)構(gòu)域的準(zhǔn)確性提高了 11-13%。
NeuralPLexer 模擬配體結(jié)合和蛋白質(zhì)結(jié)構(gòu)變化的多功能能力可以快速表征構(gòu)象景觀,從而促進(jìn)更好地理解控制蛋白質(zhì)功能的分子機(jī)制,從而有助于在蛋白質(zhì)組規(guī)模上識(shí)別治療干預(yù)和蛋白質(zhì)工程的非常規(guī)靶點(diǎn)。
結(jié)語(yǔ)
作為一種數(shù)據(jù)驅(qū)動(dòng)的方法,NeuralPLexer 具有通用性,并且可以通過(guò)整合更好的實(shí)驗(yàn)和生物信息數(shù)據(jù)來(lái)持續(xù)改進(jìn)。來(lái)自更廣泛社區(qū)的訓(xùn)練和基準(zhǔn)數(shù)據(jù)集的管理的改進(jìn),可能能夠?qū)](méi)有實(shí)驗(yàn)確定的同源物蛋白質(zhì)家族進(jìn)行更系統(tǒng)的分析,并將該方法擴(kuò)展到更具挑戰(zhàn)性的系統(tǒng),例如翻譯后修飾和多態(tài)大型異聚蛋白質(zhì)復(fù)合物。
該研究為探索這些方向提供了通用的計(jì)算框架,為快速準(zhǔn)確的蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)鋪平了道路,從而促進(jìn)結(jié)構(gòu)生物學(xué)、藥物發(fā)現(xiàn)和蛋白質(zhì)工程領(lǐng)域的進(jìn)步。
論文鏈接:https://www.nature.com/articles/s42256-024-00792-z