8k長序列建模,蛋白質(zhì)語言模型Prot42僅利用目標蛋白序列即可生成高親和力結(jié)合劑 原創(chuàng)
蛋白質(zhì)結(jié)合劑(如抗體、抑制肽)在疾病診斷、成像分析及靶向藥物遞送等關(guān)鍵場景中發(fā)揮著不可替代的作用。傳統(tǒng)上,高特異性蛋白質(zhì)結(jié)合劑的開發(fā)高度依賴噬菌體展示、定向進化等實驗技術(shù),但這類方法普遍面臨資源消耗巨大、研發(fā)周期冗長的挑戰(zhàn),且受限于蛋白質(zhì)序列組合復(fù)雜性的固有瓶頸。
隨著人工智能的發(fā)展,蛋白質(zhì)語言模型(PLMs)成為了理解蛋白質(zhì)序列與功能關(guān)系的重要工具。面向蛋白質(zhì)結(jié)合劑設(shè)計,PLMs 基于語言模型的生成能力,可直接從目標蛋白序列出發(fā),設(shè)計具有高結(jié)合親和力的配體蛋白或抗體片段。但同時其也面臨挑戰(zhàn),例如缺乏兼具長上下文建模能力與真實生成力的 PLMs,尤其在設(shè)計具有復(fù)雜結(jié)合界面和長蛋白質(zhì)結(jié)合劑方面存在顯著技術(shù)缺口。
基于此,來自阿聯(lián)酋阿布扎比 Inception AI 研究所與美國硅谷 Cerebras Systems 公司的聯(lián)合研究團隊,提出了首個僅依賴蛋白質(zhì)序列信息、無需三維結(jié)構(gòu)輸入的 PLMs 家族——Prot42 。該模型利用自回歸和僅解碼架構(gòu)(decoder-only)的生成能力,能在無結(jié)構(gòu)信息時生成高親和力蛋白質(zhì)結(jié)合劑和序列特異性 DNA 結(jié)合蛋白。在 PEER 基準測試、蛋白質(zhì)結(jié)合劑生成和 DNA 序列特異性結(jié)合劑生成實驗中,Prot42 表現(xiàn)優(yōu)異。
相關(guān)研究以「Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation」為題,已在 arXiv 發(fā)表預(yù)印本。
研究亮點* Prot42 采用漸進式上下文擴展訓(xùn)練策略,從初始 1,024 氨基酸逐步擴展至 8,192 氨基酸。* 在 PEER 基準測試中,Prot42 在蛋白質(zhì)功能預(yù)測、亞細胞定位、相互作用建模等 14 項任務(wù)中表現(xiàn)優(yōu)異。* 與依賴 3D 結(jié)構(gòu)的 AlphaProteo 不同,Prot42 僅需目標蛋白序列即可生成結(jié)合劑。
論文地址: ?
更多 AI 前沿論文:
???https://go.hyper.ai/UuE1o??
開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
???https://github.com/hyperai/awesome-ai4s??
數(shù)據(jù)集:3 大數(shù)據(jù)集支撐模型開發(fā)—訓(xùn)練
該研究中使用了多個關(guān)鍵數(shù)據(jù)集來訓(xùn)練和評估其模型性能。這些數(shù)據(jù)集不僅涵蓋了廣泛的蛋白質(zhì)序列信息,還涉及蛋白質(zhì)與 DNA 的相互作用數(shù)據(jù),為 Prot42 提供了豐富的訓(xùn)練素材。
Protein-DNA Interface Database (PDIdb) 2010
為了設(shè)計能夠與靶向 DNA 序列結(jié)合的蛋白質(zhì),研究人員使用了 PDIdb 2010 數(shù)據(jù)集。作為 Norambuena 和 Melo 的外顯數(shù)據(jù)集,該數(shù)據(jù)集包含 922 個獨特的 DNA – 蛋白質(zhì)對,用于訓(xùn)練和評估 Prot42 在生成特定 DNA 序列結(jié)合蛋白方面的能力。為了評估四種 DNA – 蛋白質(zhì)模型,研究人員從各種 PDB 結(jié)構(gòu)中提取了 DNA 片段,包括 1TUP 、 1BC8 、 1YO5 、 1L3L 、 2O4A 、 1OCT 、 1A1F 和 1JJ6 。
UniRef50 數(shù)據(jù)集
Prot42 模型的預(yù)訓(xùn)練數(shù)據(jù)集主要來源于 UniRef50 數(shù)據(jù)庫,該數(shù)據(jù)庫包含了 6,320 萬個氨基酸序列,涵蓋了廣泛的生物種類和蛋白質(zhì)功能。這些序列通過聚類處理,將相似度超過 50% 的序列歸為一組,從而減少了數(shù)據(jù)冗余,提高了訓(xùn)練效率。
在訓(xùn)練 Prot42 之前,研究團隊對 UniRef50 數(shù)據(jù)集進行了預(yù)處理,使用 20 種標準氨基酸的詞匯對其進行標記,使用 Xtoken 代表氨基酸殘留(X 用于標記不常見或模糊的氨基酸殘基)。
在數(shù)據(jù)預(yù)處理階段,研究團隊對序列進行了最大上下文長度為 1,024 個 tokens 的處理,并排除了超過此長度的序列,最終得到了一個包含 5,710 萬個序列的過濾數(shù)據(jù)集,初始填充密度為 27% 。為了提高數(shù)據(jù)利用率和計算效率,研究團隊采用了可變序列長度(VSL)填充策略,最大限度地提高了固定上下文長度內(nèi)的 tokens 占用率,最終將數(shù)據(jù)集減少到 1,620 萬個填充序列,填充效率達到 96% 。
模型預(yù)訓(xùn)練(左)及持續(xù)預(yù)訓(xùn)練(右)過程中所使用的超參數(shù)
STRING 數(shù)據(jù)庫
STRING 數(shù)據(jù)庫是一個綜合性的蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫,整合了實驗數(shù)據(jù)、計算預(yù)測和文本挖掘結(jié)果,提供了蛋白質(zhì)相互作用的置信度評分。為了訓(xùn)練 Prot42 生成蛋白質(zhì)結(jié)合劑,研究團隊從 STRING 數(shù)據(jù)庫中篩選了置信度評分 ≥ 90% 的蛋白質(zhì)相互作用對,確保了訓(xùn)練數(shù)據(jù)的高可靠性。此外,序列長度被限制在 250 個氨基酸以內(nèi),以聚焦于可管理的單域結(jié)合蛋白。經(jīng)過篩選,最終的數(shù)據(jù)集包含 74,066 個蛋白質(zhì) – 蛋白質(zhì)相互作用對。訓(xùn)練集 D(train)(pb)包含 59,252 個樣本和一個驗證集 D(val)(pb)包含 14,814 個樣本。
模型架構(gòu):基于自回歸解碼器架構(gòu)衍生 2 大變體
本文提到的 Prot42 是一種基于自回歸解碼器架構(gòu)的 PLMs,逐個生成氨基酸序列,利用前一個生成的氨基酸預(yù)測下一個氨基酸,這種架構(gòu)使得模型能夠捕捉序列中的長距離依賴關(guān)系,能夠直接從大量未標記的蛋白質(zhì)序列數(shù)據(jù)庫中學習豐富的表征,有效彌合了已知蛋白質(zhì)序列數(shù)量龐大與蛋白質(zhì)序列占比相對較小(<0.3%)之間的差距。同時,模型包含多個 Transformer 層,每層包含多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò),用于捕捉序列中的復(fù)雜模式。
生成的蛋白結(jié)合劑示例
其設(shè)計靈感來源于自然語言處理領(lǐng)域的突破性進展,特別是 LLaMA 模型。 Prot42 通過在大規(guī)模未標記蛋白質(zhì)序列上進行預(yù)訓(xùn)練,捕捉了蛋白質(zhì)的進化、結(jié)構(gòu)和功能信息,從而實現(xiàn)了高親和力的蛋白質(zhì)結(jié)合劑生成。
在此基礎(chǔ)上,研究人員預(yù)訓(xùn)練了 2 個模型變體,即 Prot42-B 和 Prot42-L 。
* Prot42-B:基礎(chǔ)版本,模型參數(shù)量達 5 億,支持的最大序列長度為 1,024 個氨基酸。
* Prot42-L:大型版本,模型參數(shù)量達 11 億,同樣支持最大序列長度為 1,024 個氨基酸。通過連續(xù)預(yù)訓(xùn)練策略,Prot42-L 的上下文長度從 1,024 個氨基酸逐步擴展至 8,192 個氨基酸,這一過程中使用了逐漸增加的上下文長度和恒定的 batch 大小(100 萬個非填充 tokens),確保了模型在處理長序列時的穩(wěn)定性和效率,顯著提升了模型處理長序列和復(fù)雜蛋白質(zhì)結(jié)構(gòu)的能力。此外,Prot42-L 還包含 24 個隱藏層,每層有 32 個注意力頭,隱藏層維度為 2,048 。
實驗結(jié)論:6 項任務(wù)中均顯現(xiàn)巨大潛力
為了在下游任務(wù)驗證之前評估 Prot42 模型的性能,研究人員使用了復(fù)雜性(PPL)評估自回歸語言模型的標準度量,即 Prot42 模型在不同上下文長度下的性能。所有模型在 1,024 個 tokens 時,困惑度都相對較高,但在 2,048 個 tokens 時有顯著改善,降至約 6.5 。結(jié)果顯示,基礎(chǔ)模型以及針對較短上下文進行微調(diào)的模型,在各自的最大上下文長度范圍內(nèi),呈現(xiàn)出相似的性能模式。 8k 上下文模型的表現(xiàn)尤為引人注目——盡管在中等長度序列(2,048 – 4,096 個 tokens)中,其困惑度略高一些,但它能夠處理長達 8,192 個 tokens 的序列,并在最大長度時達到了最低困惑度 5.1 。在超過 4,096 個 tokens 后,困惑度曲線呈現(xiàn)下降趨勢。如下圖所示。
Prot42-L 模型在不同上下文長度下的 PPL 輸入序列長度從 1k 變化至 8k
隨著上下文長度的增加,模型的 PPL 逐漸降低,表明模型在處理長序列時的能力得到了顯著提升。特別是 8K 上下文模型達到最低的 PPL,表明其能夠有效利用擴展的上下文窗口來捕捉蛋白質(zhì)序列中的長程依賴關(guān)系。擴展的上下文窗口是蛋白質(zhì)序列建模領(lǐng)域的一項重大進展,使得能夠更準確地表示復(fù)雜蛋白質(zhì)以及蛋白質(zhì) – 蛋白質(zhì)相互作用,這對于生成有效的蛋白質(zhì)結(jié)合劑至關(guān)重要。
通過一系列嚴格的實驗評估,Prot42 在多個關(guān)鍵任務(wù)上展現(xiàn)了卓越的性能,證明了其在蛋白質(zhì)結(jié)合劑生成和特定 DNA 序列結(jié)合蛋白設(shè)計方面的有效性。
蛋白質(zhì)功能預(yù)測
在 PEER 基準測試中,Prot42 模型在多個蛋白質(zhì)功能預(yù)測任務(wù)上表現(xiàn)出色,包括熒光預(yù)測、穩(wěn)定性預(yù)測、β-內(nèi)酰胺酶活性預(yù)測和溶解度預(yù)測等。與現(xiàn)有模型相比,Prot42 在穩(wěn)定性預(yù)測、溶解度預(yù)測和 β-內(nèi)酰胺酶活性預(yù)測等方面取得了顯著優(yōu)勢,表明其在高分辨率蛋白質(zhì)工程任務(wù)中的巨大潛力。
蛋白質(zhì)亞細胞定位預(yù)測
研究人員把每一個蛋白質(zhì)序列表示為一個大小為 32×2048 的高維向量,在整個蛋白質(zhì)序列中嵌入 Prot42-L 模型并進行計算。為了直觀地評估質(zhì)量在嵌入和區(qū)室的分化,研究人員應(yīng)用了 t 分布的隨機鄰域嵌入 (t-SNE) 來降低維度,使得蛋白質(zhì)基團的可視化變得清晰。經(jīng)驗證,Prot42 在蛋白質(zhì)亞細胞定位預(yù)測任務(wù)上表現(xiàn)出色,其準確性與現(xiàn)有先進模型相當。通過可視化分析,研究團隊進一步驗證了 Prot42 模型在捕捉蛋白質(zhì)亞細胞定位特征方面的有效性。
在 10 個亞細胞定位中 Prot42-L 蛋白質(zhì)嵌入的 t-SNE 可視化
蛋白質(zhì)結(jié)構(gòu)預(yù)測
在蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)中,Prot42 模型在接觸預(yù)測、折疊分類和二級結(jié)構(gòu)預(yù)測等方面取得了優(yōu)異成績。這些結(jié)果表明,Prot42 模型能夠捕捉蛋白質(zhì)結(jié)構(gòu)中的細微差別,為復(fù)雜的生物相互作用建模和制藥應(yīng)用提供了有力支持。
蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測
在蛋白質(zhì)-蛋白質(zhì)相互作用和蛋白質(zhì)-配體相互作用預(yù)測任務(wù)中,Prot42 模型展示了高精度和可靠性,在蛋白質(zhì)-配體相互作用預(yù)測中,研究人員利用 Chem42 生成化學嵌入向量,并且與 ChemBert 進行了對比分析,將其作為另一種化學表征模型,即便如此,其性能指標仍優(yōu)于現(xiàn)有方法,且接近使用 Chem42 所取得的結(jié)果。特別是在使用 Chem42 生成化學嵌入的情況下,其預(yù)測結(jié)果接近專業(yè)化學模型。這表明 Prot42 在結(jié)合化學信息方面具有很好的擴展性,為藥物設(shè)計提供了有力支持。
不同模型在各類蛋白質(zhì)基礎(chǔ)任務(wù)上的性能比較
蛋白質(zhì)結(jié)合劑生成
為嚴謹評估 Prot42 模型在蛋白質(zhì)結(jié)合劑生成方面的效果,研究人員將該模型與專門為蛋白質(zhì)結(jié)合劑預(yù)測設(shè)計的先進模型 AlphaProteo 進行了對比。實驗結(jié)果顯示,Prot42 模型在多個治療相關(guān)目標上生成了具有強預(yù)測親和力的結(jié)合劑,特別是在 IL-7Rα、 PD-L1 、 TrkA 和 VEGF-A 等目標上,Prot42 模型的表現(xiàn)顯著優(yōu)于 AlphaProteo 模型。這些結(jié)果表明,Prot42 模型在蛋白質(zhì)結(jié)合劑生成方面具有顯著優(yōu)勢。如下圖所示。
用于微調(diào)蛋白質(zhì)結(jié)合劑生成模型的超參數(shù)
生成的蛋白質(zhì)結(jié)合劑示例
DNA 序列特異性結(jié)合劑生成
在 DNA 序列特異性結(jié)合劑生成實驗中,Prot42 同樣取得了顯著成果。實驗結(jié)果顯示,通過結(jié)合基因嵌入和蛋白質(zhì)嵌入的多模態(tài)策略,Prot42 模型能夠生成與目標 DNA 序列特異性結(jié)合的蛋白質(zhì),并且展現(xiàn)出高度的親和力,且通過 DeepPBS 模型評估的結(jié)合特異性較高。這些結(jié)果表明,Prot42 模型在 DNA 序列特異性結(jié)合劑生成方面也具有巨大潛力,為基因調(diào)控和基因組編輯應(yīng)用提供了新的工具。
生成的蛋白質(zhì)結(jié)合劑示例
人工智能在蛋白質(zhì)設(shè)計領(lǐng)域的突破與創(chuàng)新
隨著生物技術(shù)與人工智能的深度融合,蛋白質(zhì)設(shè)計這一前沿領(lǐng)域正經(jīng)歷革命性變革。作為生命活動的核心執(zhí)行者,蛋白質(zhì)的結(jié)構(gòu)與功能解析一直是科學研究的難點,而 AI 技術(shù)的介入,正加速破解這一復(fù)雜謎題,為新藥研發(fā)、酶工程改造等場景開辟全新路徑。
近些年,AI 技術(shù)再度突破,以生成式 AI 為核心的新技術(shù)正將蛋白質(zhì)設(shè)計推向「創(chuàng)世紀」階段。
美國密蘇里大學許東教授團隊提出了結(jié)構(gòu)感知蛋白質(zhì)語言感知模型(S-PLM),通過引入多視圖對比學習,將蛋白質(zhì)序列和 3D 結(jié)構(gòu)信息對齊到統(tǒng)一的潛在空間中,利用 Swin Transformer 處理 AlphaFold 預(yù)測的結(jié)構(gòu)信息,將其與基于 ESM2 的序列嵌入融合,從而創(chuàng)建了一個結(jié)構(gòu)感知的 PLM,并在 Advanced Science 上發(fā)表文章「S-PLM: Structure-Aware Protein Language Model via Contrastive Learning Between Sequence and Structure」。 S-PLM 通過將蛋白質(zhì)序列與其三維結(jié)構(gòu)在統(tǒng)一的潛在空間中對齊,巧妙地將結(jié)構(gòu)信息融入序列表示中,同時探索了高效微調(diào)策略,使模型能夠在不同的蛋白質(zhì)預(yù)測任務(wù)中取得卓越表現(xiàn),標志著在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測領(lǐng)域的一個重要進步。
論文地址:
???https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202404212??
除此之外,清華大學研究團隊等提出了一個統(tǒng)一的蛋白質(zhì)語言模型 xTrimoPGLM,這是一個統(tǒng)一的預(yù)訓(xùn)練框架和基礎(chǔ)模型,可擴展到 1,000 億個參數(shù),旨在用于各種蛋白質(zhì)相關(guān)的任務(wù),包括理解和生成 (或設(shè)計) 。通過利用通用語言模型(GLM)作為其雙向注意力和自回歸目標的骨干,該模型不同于先前的僅編碼器或僅因果解碼 PLMs 。該研究探索了超大規(guī)模 PLM 的統(tǒng)一理解和生成預(yù)訓(xùn)練,進一步揭示了蛋白質(zhì)序列設(shè)計的新可能性,促進了蛋白質(zhì)相關(guān)應(yīng)用更廣泛領(lǐng)域的進一步發(fā)展。以「xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins」為題,發(fā)表在 Nature 子刊。
論文地址:
???https://www.nature.com/articles/s41592-025-02636-z??
Prot42 的突破不僅是技術(shù)層面的進步,更映射著「數(shù)據(jù)驅(qū)動+AI 設(shè)計」模式在生命科學領(lǐng)域逐漸趨于成熟。未來,研究團隊計劃通過實驗驗證 Prot42 生成的結(jié)合劑,用實際功能測試補充計算評估。這一步將鞏固模型在實際應(yīng)用中的效用,并完善其預(yù)測準確性,彌合 AI 驅(qū)動序列生成與實驗生物技術(shù)之間的差距。
?
參考資料:
1.??https://arxiv.org/abs/2504.04453???
2.??https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA???
3.??https://mp.weixin.qq.com/s/x7_Wnws35Qzf3J0kBapBGQ???
4.??https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA??
