MIT研究人員將Transformer與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,用于設(shè)計全新蛋白質(zhì)
憑借其復(fù)雜的排列和動態(tài)功能,蛋白質(zhì)通過采用簡單構(gòu)建塊的獨特排列(其中幾何形狀是關(guān)鍵)來執(zhí)行大量的生物任務(wù)。將這個幾乎無限的排列庫轉(zhuǎn)化為各自的功能,可以方便研究人員設(shè)計用于特定用途的定制蛋白質(zhì)。
麻省理工學(xué)院(MIT)的 Markus Buehler 提出了一種靈活的基于語言模型的深度學(xué)習(xí)策略,將 Transformer 與圖神經(jīng)網(wǎng)絡(luò)結(jié)合起來,以更好地理解和設(shè)計蛋白質(zhì)。
「通過這種新方法,我們可以通過對基本原理進(jìn)行建模,利用大自然發(fā)明的一切作為知識基礎(chǔ)?!笲uehler 說,「該模型重新組合了這些自然構(gòu)建塊,以實現(xiàn)新功能并解決這些類型的任務(wù)。」
該模型用于預(yù)測二級結(jié)構(gòu)含量(每個殘基水平和總體含量)、蛋白質(zhì)溶解度和測序任務(wù)。在逆向任務(wù)上進(jìn)一步訓(xùn)練,該模型能夠設(shè)計具有這些特性作為目標(biāo)特征的蛋白質(zhì)。模型被制定為一個通用框架,完全基于提示,并且可以適應(yīng)各種下游任務(wù)。
該研究以「Generative pretrained autoregressive transformer graph neural network applied to the analysis and discovery of novel proteins 」為題,于 2023 年 8 月 29 日發(fā)布在《Journal of Applied Physics》。
多尺度建模為分層生物材料的分析和設(shè)計提供了強(qiáng)大的基礎(chǔ)。特別關(guān)注構(gòu)成眾多生物和生物衍生材料基礎(chǔ)的蛋白質(zhì)材料。在該分析領(lǐng)域,使用機(jī)器學(xué)習(xí)和相關(guān)方法的數(shù)據(jù)驅(qū)動建模已成為一種強(qiáng)大的策略,其中包括分析任務(wù)(例如從序列預(yù)測屬性)和逆向設(shè)計任務(wù)(設(shè)計蛋白質(zhì)或其他生物材料以滿足一組目標(biāo)特性)。
具體來說,生成生物材料科學(xué)是材料發(fā)現(xiàn)的新興前沿,已應(yīng)用于蛋白質(zhì)、有機(jī)分子、無機(jī)物(包括藥物設(shè)計)、生物活性材料和建筑材料等;最近,由于語言模型的使用,促進(jìn)了生物蛋白質(zhì)材料多尺度建模的發(fā)展。
圖示:開發(fā)了一種深度語言模型,可以解決正向和逆向蛋白質(zhì)建模問題。(來源:論文)
麻省理工學(xué)院的研究人員開發(fā)了一種靈活的基于語言模型的深度學(xué)習(xí)策略,應(yīng)用于解決蛋白質(zhì)建模中的復(fù)雜正向和逆向問題;基于注意力神經(jīng)網(wǎng)絡(luò),將 Transformer 和圖卷積架構(gòu)集成到因果多頭圖機(jī)制中,從而實現(xiàn)生成預(yù)訓(xùn)練模型 MaterioFormer。該模型能夠在端到端序列到特性預(yù)測的范圍內(nèi)分析蛋白質(zhì)序列,并生成分子蛋白質(zhì)結(jié)構(gòu)以滿足各種目標(biāo)特性,所有這些都在一個模型中完成。
該團(tuán)隊證明,生成語言方法為蛋白質(zhì)材料的發(fā)現(xiàn)和設(shè)計提供了一個靈活的平臺。研究人員可以輕松地將這些模型整合到廣泛的應(yīng)用程序中并解決多個復(fù)雜的任務(wù)。
圖示:MaterioFormer 模型概述,這是一種基于文本提示輸入構(gòu)建的自回歸變換圖卷積模型,適用于各種任務(wù)。(來源:論文)
雖然該模型總體上很好地解決了多個任務(wù),但使用一次專注于一項任務(wù)的專用模型仍然有一定的優(yōu)勢(例如,序列到屬性的預(yù)測或使用擴(kuò)散模型的生成任務(wù))。例如,在創(chuàng)建滿足特定每個殘基二級結(jié)構(gòu)的蛋白質(zhì)序列的設(shè)計任務(wù)中,MaterioFormer 有時無法準(zhǔn)確反映預(yù)測中所需的長度。當(dāng)從輸入蛋白質(zhì)序列進(jìn)行二級結(jié)構(gòu)預(yù)測時,會看到類似的情況。
相比之下,僅針對一項生成任務(wù)訓(xùn)練的擴(kuò)散模型在序列長度方面可以更準(zhǔn)確地解決該問題。值得關(guān)注的是,已有的從整體二級結(jié)構(gòu)內(nèi)容生成序列的模型,很難識別新的蛋白質(zhì)設(shè)計,而 MaterioFormer 可以非常好地解決這項任務(wù),具有非常高程度的新穎蛋白質(zhì)序列設(shè)計。
MaterioFormer 模型的一個吸引人的方面是靈活的迭代工作流程,可以集成人類智能和人工智能。人們可以輸入提示,設(shè)計蛋白質(zhì),并檢查它是否適合設(shè)計標(biāo)準(zhǔn)(如果不適合,則重新采樣或調(diào)整設(shè)計參數(shù)),然后在輔助任務(wù)中使用輸出。這種迭代過程還可以輕松地與自主實驗相結(jié)合,為數(shù)據(jù)生成、收集和進(jìn)一步訓(xùn)練模型提供額外的來源。
圖示:根據(jù)給定的二級結(jié)構(gòu)內(nèi)容比例生成新蛋白質(zhì)的示例。(來源:論文)
從更理論的角度來看,這里解決的問題是一個復(fù)雜的積木組裝問題——積木不僅是氨基酸殘基、二級結(jié)構(gòu),而且是組合這些眾多組合空間的數(shù)字和各種任務(wù)。值得注意的是,這里使用的策略學(xué)習(xí)了基礎(chǔ)和可轉(zhuǎn)移的見解。這產(chǎn)生了大量的條件蛋白質(zhì)設(shè)計以及正向和反向任務(wù)解決方案。通過更多的數(shù)據(jù),預(yù)計可以捕獲高度復(fù)雜的現(xiàn)象。
雖然二級結(jié)構(gòu)預(yù)測通常很好,尤其是總體二級結(jié)構(gòu)比率,但與專用溶解度模型相比,溶解度預(yù)測的準(zhǔn)確性仍然相對較低。然而,對于 <64 個殘基的短序列,準(zhǔn)確率達(dá)到 0.77。這項任務(wù)僅在一小部分~4,000個序列溶解度對(蛋白質(zhì)長度<128)上進(jìn)行訓(xùn)練(相對于整個序列數(shù)據(jù)集中的 40?000 個序列,所有長度高達(dá)~1700)。通過更深的模型和更多的預(yù)訓(xùn)練,對于長達(dá) 512 個氨基酸的序列,溶解度準(zhǔn)確度高達(dá) 78%,顯示出這里開發(fā)的方法在擴(kuò)展可用性、準(zhǔn)確性和通用性方面的巨大潛力。未來的工作可以擴(kuò)展模型的訓(xùn)練任務(wù),從而考慮更長序列的任務(wù)和預(yù)測。
這里使用的訓(xùn)練策略由基于文本的提示組成,非常靈活,可以輕松適應(yīng)各種任務(wù)。此外,由于該團(tuán)隊訓(xùn)練和預(yù)測編碼為文本的數(shù)字,因此研究人員不必專門對數(shù)值進(jìn)行專門編碼。這對于任務(wù)和預(yù)測開發(fā)都有幫助,并且可以允許在架構(gòu)中封裝高維數(shù)據(jù)。還有機(jī)會引入交叉注意力機(jī)制,從而對注意力層和圖層中處理的信息進(jìn)行更復(fù)雜的合并。
未來的探索可以在正向和反向方向上納入額外的預(yù)測任務(wù),并擴(kuò)展訓(xùn)練集以納入更多序列(例如,在預(yù)訓(xùn)練階段)。探索與不同生物分子(例如 mRNA 或 DNA)的相互作用也很有趣,由于靈活的字節(jié)級分詞器,這些分子可以添加到任務(wù)訓(xùn)練中。
此類訓(xùn)練任務(wù)還可能具有多尺度問題,例如不僅編碼構(gòu)成蛋白質(zhì)或生物分子,還編碼其他特征,例如相對濃度、pH 或鹽濃度等。這最終可能用于構(gòu)建多模態(tài)多尺度模型,該模型可以將從不同的模擬和實驗范式中開發(fā)的知識融入到從預(yù)訓(xùn)練到任務(wù)的所有訓(xùn)練階段。
該研究中使用的多尺度方案捕獲了物質(zhì)的基本構(gòu)建塊與所得屬性之間的復(fù)雜新關(guān)系。因此,它提供了一種協(xié)同學(xué)習(xí)能力,可以表達(dá)嵌入基礎(chǔ)知識中的一組潛力,用于訓(xùn)練利用未知或鮮為人知的交叉關(guān)系的模型。從機(jī)制上講,使用一組以復(fù)雜分層模式排列的通用構(gòu)建塊來創(chuàng)建緊急功能的方法的基本設(shè)計促進(jìn)了這一點。
「一個很大的驚喜是,盡管該模型是為了能夠解決多個任務(wù)而開發(fā)的,但它的表現(xiàn)卻異常出色。這可能是因為該模型通過考慮不同的任務(wù)學(xué)到了更多東西。」他說,「這一變化意味著,研究人員現(xiàn)在可以廣泛地思考多任務(wù)和多模式模型,而不是為特定任務(wù)創(chuàng)建專門的模型。」
「雖然我們目前的重點是蛋白質(zhì),但這種方法在材料科學(xué)中具有巨大的潛力?!笲uehler 說,「我們特別熱衷于探索材料失效行為,旨在設(shè)計具有特定失效模式的材料。」
論文鏈接:https://pubs.aip.org/aip/jap/article/134/8/084902/2908328/Generative-pretrained-autoregressive-transformer