基于 8.6 萬(wàn)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),融合量子力學(xué)計(jì)算的機(jī)器學(xué)習(xí)方法挖掘 69 個(gè)全新氮-氧-硫鍵 原創(chuàng)
在細(xì)胞這個(gè)「工廠」中,氮-氧-硫(NOS)鍵就像一個(gè)可逆的「智能開(kāi)關(guān)」,能夠根據(jù)環(huán)境中的氧化還原變化調(diào)節(jié)酶活性。 2021 年,來(lái)自德國(guó)哥廷根喬治奧古斯特大學(xué)的團(tuán)隊(duì),通過(guò)研究淋病奈瑟氏球菌的轉(zhuǎn)醛醇酶,發(fā)現(xiàn)了存在于賴氨酸和半胱氨酸之間的 NOS 鍵。這項(xiàng)研究超越了單一病原體和酶的研究范疇,為跨學(xué)科的蛋白質(zhì)科學(xué)、藥物設(shè)計(jì)和生物工程奠定了重要基礎(chǔ)。
然而,隨著蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的爆炸式增長(zhǎng),以及科學(xué)界對(duì)蛋白質(zhì)結(jié)構(gòu)中化學(xué)鍵的持續(xù)研究,新的問(wèn)題也隨之而來(lái),是否還有被忽視的其他 NOS 鍵或化學(xué)相互作用呢?
基于以上思考,喬治奧古斯特大學(xué)的 Sophia Bazzi 、 Sharareh Sayyad 團(tuán)隊(duì)通過(guò)開(kāi)發(fā)創(chuàng)新性的計(jì)算生物學(xué)算法 SimplifiedBondfinder,開(kāi)啟了蛋白質(zhì)共價(jià)鍵探索的新篇章。該團(tuán)隊(duì)通過(guò)整合機(jī)器學(xué)習(xí)、量子力學(xué)計(jì)算,構(gòu)建高分辨率 X 射線晶體學(xué)數(shù)據(jù)庫(kù),系統(tǒng)分析超 86,000 個(gè)高分辨率 X 射線蛋白質(zhì)結(jié)構(gòu),不僅新發(fā)現(xiàn)了 69 個(gè) NOS 鍵,其中還包括了此前從未觀察到的精氨酸(Arg)-半胱氨酸和甘氨酸(Gly)-半胱氨酸之間形成的新型 NOS 鍵。
這一革命性的發(fā)現(xiàn)拓寬了蛋白質(zhì)化學(xué)的范圍,并使藥物設(shè)計(jì)和蛋白質(zhì)工程中的靶向調(diào)節(jié)成為可能。與此同時(shí),雖然該項(xiàng)研究的重點(diǎn)是 NOS 鍵,但這一方法同樣可以靈活地運(yùn)用到研究其他廣泛的化學(xué)鍵和共價(jià)修飾中,包括結(jié)構(gòu)可分解的翻譯后修飾(posttranslational modifications, PTMs)。
研究成果以「Revealing arginine-cysteine and glycine-cysteine NOS linkages by a systematic re-evaluation of protein structures」為題,發(fā)表于 Communications Chemistry 。
研究亮點(diǎn):
* 打破了科學(xué)界認(rèn)為 NOS 鍵僅存在于賴氨酸(Lys)-半胱氨酸之間的普遍認(rèn)知,以創(chuàng)新性的方法首次揭示了精氨酸-半胱氨酸和甘氨酸-半胱氨酸 NOS 鍵的全新氧化還原調(diào)控機(jī)制
* 所提方法集成機(jī)器學(xué)習(xí)、量子力學(xué)計(jì)算和高分辨率 X 射線晶體學(xué)數(shù)據(jù),解決了該領(lǐng)域研究中缺乏系統(tǒng)性化學(xué)鍵發(fā)現(xiàn)算法的挑戰(zhàn),擺脫了傳統(tǒng)實(shí)驗(yàn)限制,為后續(xù)研究提供了可靠易用的工具
* 通過(guò)機(jī)器學(xué)習(xí)和人工智能技術(shù),顯著降低了此類(lèi)研究的成本,同時(shí)提升了研究效率,為機(jī)器學(xué)習(xí)驅(qū)動(dòng)的技術(shù)在破譯蛋白質(zhì)功能和識(shí)別新的蛋白質(zhì)相互作用方面樹(shù)立了榜樣
論文地址:
??https://www.nature.com/articles/s42004-025-01535-w??
更多 AI 前沿論文:
??https://go.hyper.ai/UuE1o??
數(shù)據(jù)集:多層限制提取可靠數(shù)據(jù)集
SimplifiedBondfinder 所收集的數(shù)據(jù)來(lái)自于 3 個(gè)不同的蛋白質(zhì)數(shù)據(jù)庫(kù),分別是 PDB 、 PDB-REDO 和 BDB,收集到的數(shù)據(jù)會(huì)經(jīng)過(guò)各種約束以過(guò)濾出可靠可用的數(shù)據(jù)集。其中,數(shù)據(jù)庫(kù) PDB-REDO(截止 2024 年 1 月)通過(guò)對(duì) PDB 中的靜態(tài)結(jié)構(gòu)進(jìn)行重新精修和優(yōu)化,使其更符合當(dāng)代晶體學(xué)標(biāo)準(zhǔn),與原始的 PDB 條目相比,具有更高的準(zhǔn)確性和可靠性。如下圖左側(cè)所示:
SimplifiedBondfinder 中的數(shù)據(jù)采集流程及 ML 方法
具體來(lái)看,研究團(tuán)隊(duì)在最初含有 170,251 個(gè)蛋白質(zhì)數(shù)據(jù)的數(shù)據(jù)庫(kù)中,使用多個(gè)相互關(guān)聯(lián)的函數(shù)驅(qū)動(dòng)自動(dòng)數(shù)據(jù)集生成。其首先利用 Biopython(v 1.79)進(jìn)行結(jié)構(gòu)解析(使用 MMCIFParser 和 PDBParse),并計(jì)算其他原子和殘基屬性。經(jīng)過(guò)僅解析通過(guò) X 射線確定的結(jié)構(gòu),研究團(tuán)隊(duì)優(yōu)化出 170,127 個(gè)蛋白質(zhì)數(shù)據(jù)。
隨后,為了進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性,研究團(tuán)隊(duì)進(jìn)一步篩選出分辨率 ≤ 2 ? 的蛋白質(zhì)結(jié)構(gòu),最終得到 86,491 個(gè)結(jié)構(gòu)用于實(shí)驗(yàn)分析。
為了構(gòu)建用于研究特定化學(xué)鍵的數(shù)據(jù)集,研究團(tuán)隊(duì)根據(jù)組成原子類(lèi)型、殘基名稱(chēng)、原子間距離和占有率建立了標(biāo)準(zhǔn)。對(duì)于標(biāo)準(zhǔn)殘基中涉及硫(S)和氮(N)原子的 NOS 連接,研究團(tuán)隊(duì)將 S-N 的原子間距離,即 dist(S,N),限制在 ≤ 3.2 ?,對(duì)應(yīng)于賴氨酸和半胱氨酸之間供價(jià)相互作用的截止值,同時(shí)為了排除位置不確定性高的原子,將占用數(shù)閾值設(shè)置為 > 0.8 。經(jīng)過(guò)這一標(biāo)準(zhǔn),研究確定了 25,462 個(gè) N-S 接觸。
為了確保所描繪的目標(biāo)原子質(zhì)量,研究團(tuán)隊(duì)進(jìn)一步應(yīng)用了 real-space-R-value Z-score(RSRZ),閾值設(shè)置為 <2.0,確保能夠識(shí)別在真實(shí)空間中與數(shù)據(jù)可靠匹配的情況。至此,數(shù)據(jù)集進(jìn)一步減少到 23,129 個(gè) N-S 接觸。這使得實(shí)驗(yàn)?zāi)繕?biāo)主要集中在半胱氨酸的兩種相互作用類(lèi)型上:即半胱氨酸的硫原子與甘氨酸的主鏈氮之間的相互作用;半胱氨酸的硫原子與精氨酸和賴氨酸的側(cè)鏈氮之間的相互作用。
接下來(lái),研究團(tuán)隊(duì)利用 Biopython 中的 NeighborSearch 模塊提取結(jié)構(gòu)參數(shù),每個(gè)數(shù)據(jù)集中的每個(gè)樣本收集 15 個(gè)不同的描述符,包括角度(?CSN, ?CNS)、扭轉(zhuǎn)角(φCS-NC)、其他距離(dist(C, N), dist(S, N))以及利用 Bio.PDB.SASA 進(jìn)一步計(jì)算得到的目標(biāo)原子的溶劑可及表面積(Solvent Accessible Surface Area, SASA)值和相應(yīng)的殘基等。
研究團(tuán)隊(duì)在實(shí)驗(yàn)中納入原子的 B-factors(Bfac),是為了在分析中有一個(gè)目標(biāo)原子遷移率的參數(shù),這些值來(lái)自于 2 個(gè)數(shù)據(jù)庫(kù),分別是 RCSB PDB 和一個(gè)具有一致 B-factor 的 PDB 文件數(shù)據(jù)庫(kù)(BDB)。
值得一提的是,基于本研究特定要求,實(shí)驗(yàn)僅選擇了 15 個(gè)描述符,但研究團(tuán)隊(duì)表示,所提算法對(duì)它可以處理的描述符數(shù)量并沒(méi)有嚴(yán)格的限制,通過(guò)設(shè)計(jì)它可以容納任意數(shù)量的描述符,這使它能夠整合特定領(lǐng)域的知識(shí)或適應(yīng)新的實(shí)驗(yàn)方法。
模型架構(gòu):融合機(jī)器學(xué)習(xí)與量子力學(xué)計(jì)算
上述部分為研究所提方法關(guān)鍵步驟中的第一步部分,即構(gòu)建針對(duì)特定化學(xué)鍵的目標(biāo)數(shù)據(jù)集,并應(yīng)用嚴(yán)格的標(biāo)準(zhǔn)。本部分著重介紹所提方法的第二個(gè)關(guān)鍵步驟,即使用機(jī)器學(xué)習(xí)技術(shù)來(lái)探索這些高維數(shù)據(jù),識(shí)別有效的結(jié)構(gòu)描述符并預(yù)測(cè)共價(jià)鍵形成的潛在位點(diǎn)。
SimplifiedBondfinder 中的 ML 方法
如上圖所示。首先,研究團(tuán)隊(duì)?wèi)?yīng)用了最大嵌入維度為 3 的無(wú)監(jiān)督統(tǒng)一流行近似與投影(Uniform Manifold Approximation and Projection, UMAP)降維技術(shù),然后對(duì)所有可能的描述符集合進(jìn)行均值漂移聚類(lèi)(mean-shift clustering)。
其中,UMAP 以最佳方式保留了高維數(shù)據(jù)流行的內(nèi)在拓?fù)浜蛶缀翁匦?,可以確保在低維嵌入中保留基本的結(jié)構(gòu)特征,便于進(jìn)行有意義的下游分析。至于 UMAP 中嵌入維數(shù)的選擇,則取決于數(shù)據(jù)集及其原始高維流行的拓?fù)浜蛶缀翁匦?。在?shí)際應(yīng)用中,二維或三維嵌入的可解釋性最強(qiáng),因?yàn)樗鼈兡軌驅(qū)崿F(xiàn)直觀的可視化,并對(duì)聚類(lèi)質(zhì)量進(jìn)行評(píng)估。
在本研究中,3 個(gè)嵌入維度提供了良好分離且有意義的聚類(lèi),證明了選擇的合理性?;瘜W(xué)鍵分析和聚類(lèi)結(jié)果表明,這種降維方法對(duì)于此實(shí)驗(yàn)的數(shù)據(jù)集來(lái)說(shuō)最優(yōu),選擇高于必要嵌入維度雖然能保留原始流行特征,但卻會(huì)徒增計(jì)算成本而不能提升可解釋性。相反,將維度降低到最優(yōu)水平以下,則會(huì)導(dǎo)致大量信息丟失和聚類(lèi)分離效果不佳。
隨后,研究團(tuán)隊(duì)獲得所有三維嵌入坐標(biāo)的輪廓系數(shù)(Silhouette Score),以評(píng)估每種組合聚類(lèi)質(zhì)量。該算法輸出聚類(lèi)、輪廓系數(shù)以及每個(gè)聚類(lèi)中的參考目標(biāo)連接。每個(gè)候選對(duì)象通過(guò)目標(biāo)原子的名稱(chēng)、相應(yīng)的殘基名稱(chēng)、殘基編號(hào)、鏈和 PDB ID 來(lái)識(shí)別,以區(qū)分蛋白質(zhì)內(nèi)的所有目標(biāo)原子。
為了找到最終且最小的特征空間,研究團(tuán)隊(duì)采用了多個(gè)標(biāo)準(zhǔn),包括輪廓系數(shù)的值、每個(gè)特征空間產(chǎn)生的聚類(lèi)數(shù)量以及這些聚類(lèi)中參考目標(biāo)連接的分布。
具體來(lái)說(shuō),研究團(tuán)隊(duì)旨在確定一個(gè)特征空間,該空間能有效地將數(shù)據(jù)分割為兩個(gè)或三個(gè)不同的聚類(lèi),且輪廓系數(shù) ≥ 0.5 。在理想情況下,其中一個(gè)聚類(lèi)中不包含任何參考目標(biāo)連接,稱(chēng)為「不可能聚類(lèi)」,在實(shí)踐中,該聚類(lèi)中參考樣本的數(shù)量最少是可以接受的。其余包含所有或大部分參考目標(biāo)連接的聚類(lèi)稱(chēng)為「可能聚類(lèi)」。
通過(guò)引入包含目標(biāo)化學(xué)鍵可能和不可能候選簇,研究團(tuán)隊(duì)能夠識(shí)別優(yōu)化的特征空間,以區(qū)分可能形成新化學(xué)鍵的目標(biāo)原子對(duì)和不太可能形成此類(lèi)鍵的目標(biāo)原子對(duì)。一旦確定一組能夠可靠區(qū)分這些情況的描述符,就無(wú)需再納入其他描述符。該方法在計(jì)算年效率和可解釋性方面均有優(yōu)勢(shì),可以大幅提升識(shí)別蛋白質(zhì)結(jié)構(gòu)內(nèi)新化學(xué)鍵形成方面方法的預(yù)測(cè)準(zhǔn)確性。
除了機(jī)器學(xué)習(xí)外,本次研究所提方法中還整合了量子力學(xué)計(jì)算。研究人員針對(duì) Lys-NOS-Cys 、 Gly-NOS-Cys 、 ARG-NηOS-Cys 和 ARG-NεOS-Cys 復(fù)合物中 NOS 連接的潛在候選物進(jìn)行了幾何優(yōu)化。使用軟件包 Gaussian16 – A.03(Gaussian 16,修訂版 C.01),在水中采用 B3LYP-D3 (BJ)/def2-TZVPD 理論水平進(jìn)行幾何優(yōu)化。針對(duì)優(yōu)化后的結(jié)構(gòu),實(shí)驗(yàn)計(jì)算了數(shù)個(gè)幾何參數(shù),包括硫原子與氮原子之間的距離(dist (S, N)),以及角度(?CSN 、?CNS 、?NOS)。
為了驗(yàn)證所提聚類(lèi)方法預(yù)測(cè)的 NOS 共價(jià)鍵的存在,研究團(tuán)隊(duì)使用 phenix.refine (version 1.20.1-4487-000) 對(duì) 4 個(gè)具有代表性的蛋白質(zhì)結(jié)構(gòu)進(jìn)行了重新優(yōu)化;使用 phenix.molprobity 進(jìn)行了全面的結(jié)構(gòu)驗(yàn)證,以評(píng)估幾何質(zhì)量、沖突分?jǐn)?shù)和空間相互作用,確保與高分辨率晶體學(xué)數(shù)據(jù)一致;使用 phenix.table1 生成了完整的驗(yàn)證報(bào)告,總結(jié)了精修統(tǒng)計(jì)數(shù)據(jù)、模型質(zhì)量指標(biāo)和立體化學(xué)偏差。通過(guò)這些驗(yàn)證步驟,證實(shí)了 NOS 連接的結(jié)構(gòu)完整性及其與電子密度圖的兼容性。
實(shí)驗(yàn)結(jié)果:Arg-NOS-Cys 和 Gly-NOS-Cys 鍵為合理共價(jià)鍵
為了證明所提方法的有效性,研究團(tuán)隊(duì)進(jìn)行了多項(xiàng)實(shí)驗(yàn),分別探討了機(jī)器學(xué)習(xí)技術(shù)用于描述符選擇、多為描述符空間的生化意義、聚類(lèi)分析以及結(jié)構(gòu)和熱力學(xué)驗(yàn)證。
使用機(jī)器學(xué)習(xí)選擇描述符
研究團(tuán)隊(duì)首先將其應(yīng)用于可能存在 Lys-NOS-Cys 連接的數(shù)據(jù),該數(shù)據(jù)集包含 527 個(gè)賴氨酸-半胱氨酸對(duì),還包括經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的 NOS 鍵。經(jīng)試驗(yàn)確定,關(guān)鍵描述符為由氮原子的 B-factor(Bfac(BDB)(N)),以及賴氨酸(Ngb?)和半胱氨酸(Ngb?)的 Cα 原子在 4 ? 半徑內(nèi)的相鄰殘基數(shù)。
研究團(tuán)隊(duì)進(jìn)一步將分析擴(kuò)展到一個(gè)包含 313 個(gè)甘氨酸-半胱氨酸對(duì)的數(shù)據(jù)集,進(jìn)而探索潛在的 Gly-NOS-Cys 連接。如下圖所示。
精氨酸-半胱氨酸和甘氨酸-半胱氨酸之間的 NOS 鍵的示意圖
在此,關(guān)鍵描述符集包括含硫殘基的 B-factor(BfacBDBS)、硫-氮距離(dist(S,N))和碳-硫-氮角度(?CSN)。
在預(yù)測(cè)精氨酸和半胱氨酸殘基之間形成 NOS 鍵的關(guān)鍵描述符方面,精氨酸側(cè)鏈有 Nη 和 Nε 兩種類(lèi)型的氮原子,它們?cè)趲缀翁卣骱突瘜W(xué)性質(zhì)上有所不同,因此研究分別分析了 Nη (Arg-NηOS-Cys) 和 Nε (Arg-Nε-Cys) 的數(shù)據(jù)集。
對(duì)于 Arg-NηOS-Cys,所選的描述符符合包含氮?dú)埢⊿ASA?)的溶劑可及表面積、?CSN 以及與硫相鄰的殘基(Ngb?)和與氮相鄰的殘基(Ngb?);同樣對(duì)于 240 個(gè) Arg-NεOS-Cys 對(duì)的數(shù)據(jù)集來(lái)說(shuō),關(guān)鍵描述符涉及 BfacBDBS 、 SASA?、氮原子的溶劑可及表面積、?CSN 和 ? CNS 。
這些發(fā)現(xiàn)通過(guò) UMAP 降維可視化顯示出清晰的聚類(lèi)分離,如下圖所示,其中天藍(lán)色和寶藍(lán)色表示為 NOS 鍵候選,橙色則表示為「不可能聚類(lèi)」,黑色方點(diǎn)為參考數(shù)據(jù)集,由此清晰可見(jiàn),可能形成 NOS 鍵的樣本與參考標(biāo)準(zhǔn)點(diǎn)的分布高度重合。
SimplifiedBondfinder 得到的密度分布圖和 UMAP 結(jié)果
多維描述符空間的生化意義
研究團(tuán)隊(duì)探討了關(guān)鍵描述符的生化相關(guān)性。通過(guò)算法確定最小描述符集,關(guān)鍵描述符對(duì)區(qū)分 NOS 和非 NOS 鍵具有重要意義。
以 B-factor 為例,不同聚類(lèi)中 B-factor 呈現(xiàn)出不同的分布模式,如上 A(a)中所示的那樣,對(duì)于「可能聚類(lèi)」和「不可能聚類(lèi)」,B-factor 的眾數(shù)并不相同,且 B-factor 與原子或區(qū)域的靈活性相關(guān),活性位點(diǎn)殘基通常 B-factor 較低,說(shuō)明了其與酶活性有關(guān)。不過(guò)研究團(tuán)隊(duì)同樣指出,低 B-factor 可能指示 NOS 鍵合,但也可能反應(yīng)其他的氮-硫相互作用。
針對(duì)不同氨基酸殘基形成的 NOS 鍵描述符特點(diǎn),BfacBDB? 在 Lys-NOS-Cys 中是區(qū)分兩類(lèi)聚類(lèi)的主要因素;針對(duì) Gly – NOS – Cys 連接,∠CSN 是區(qū)分可能的 NOS 連接聚類(lèi)的主要描述符,多數(shù)可能樣本的 ∠CSN >80°,優(yōu)化的 Gly – NOS – Cys 復(fù)合物的∠CSN 值約為 94°;∠CSN 仍是針對(duì) Arg – NεOS – Cys 連接區(qū)分可能與不可能的 NOS 連接的關(guān)鍵決定因素。
聚類(lèi)分析
在本環(huán)節(jié)評(píng)估中,研究團(tuán)隊(duì)檢測(cè)到了 65 個(gè) Lys-NOS-Cys 鍵、 2 個(gè) Gly-NOS-Cys 鍵(下圖 a 和 b)和 2 個(gè) Arg-NηOS-Cys 鍵(下圖 c 和 d)。
預(yù)測(cè) NOS 鍵細(xì)化前后的電子密度對(duì)比
研究團(tuán)隊(duì)通過(guò)明確建模和重新精修,引入 NOS 鍵后 Rwork / Rfree 值平均改善 0.5%,未解釋的電子密度峰顯著減少。對(duì)于 3G2K,原始結(jié)構(gòu)中精氨酸側(cè)鏈周?chē)胸?fù)電子密度峰,重新分配精氨酸構(gòu)象后顯著減小,且兩個(gè)模型中精氨酸側(cè)鏈附近都有正差異峰,因其幅度大且存在 DMSO,可能代表當(dāng)前模型中未建模的溶劑分子。
結(jié)構(gòu)和熱力學(xué)驗(yàn)證
研究團(tuán)隊(duì)為進(jìn)一步證實(shí) Arg-NOS-Cys 和 Gly-NOS-Cys 之間的聯(lián)系,將量子力學(xué)幾何優(yōu)化與 4 個(gè)代表性蛋白質(zhì)復(fù)合物(6PGD, 6T3X, 3MWB, and 3G2K)的熱力學(xué)評(píng)估結(jié)合起來(lái),從而系統(tǒng)地解釋體內(nèi)可能存在的化學(xué)變異性。
在結(jié)構(gòu)驗(yàn)證方面,在 NOS 鍵優(yōu)化模型中,S-N 距離范圍為 2.61 ~ 2.70 ?,與原始 PDB-REDO 結(jié)構(gòu)的 2.63 ~ 2.89 ? 區(qū)間非常接近。而去除橋接氧原子的模擬導(dǎo)致 S-N 分離顯著增加,達(dá)到 3.36-4.26 ?,這表明了實(shí)驗(yàn)觀察到的 S-N 距離較短與中間氧原子的存在一致。
在熱力學(xué)評(píng)估方面,研究團(tuán)隊(duì)計(jì)算了不同質(zhì)子化狀態(tài)下的吉布斯自由能(ΔG),顯示所有 NOS 鍵形成過(guò)程中都是負(fù)值。這表明在模擬狀態(tài)下,用氧取代一個(gè)氫形成 NOS 鍵在熱力學(xué)上是可行的。然而,ΔG 的大小隨質(zhì)子化狀態(tài)以及精氨酸和甘氨酸衍生的復(fù)合物之間存在顯著差異。在這兩個(gè)體系中,中性的甘氨酸或精氨酸比帶正電荷的狀態(tài)更受青睞?;诟拾彼岬膹?fù)合物表現(xiàn)出略高的 ΔG 值。雖然這些值仍意味著在熱力學(xué)上有利的聯(lián)系,但它們?cè)谙到y(tǒng)上比相應(yīng)的精氨酸復(fù)合物放能少。
總而言之,這些結(jié)構(gòu)結(jié)果提供了一致的證據(jù),表明了 Arg-NOS-Cys 和 Gly-NOS-Cys 鍵是合理的共價(jià)鍵,而不是簡(jiǎn)單的非鍵接觸。同時(shí),量子力學(xué)優(yōu)化的幾何形狀和晶系的晶體學(xué)數(shù)據(jù)之間的一致性,以及負(fù)自由能的形成,有力地表明這些連接在相關(guān)蛋白質(zhì)環(huán)境中,無(wú)論是在結(jié)構(gòu)上還是能量上都是可行的。
機(jī)器學(xué)習(xí)打開(kāi)蛋白質(zhì)微觀世界新篇章
正如論文中所提到,快速發(fā)展的機(jī)器學(xué)習(xí)和人工智能技術(shù)在解決生物化學(xué)中的復(fù)雜問(wèn)題方面,已經(jīng)展現(xiàn)出了超越傳統(tǒng)生物化學(xué)方法的優(yōu)越性,它以低廉的計(jì)算成本和高效的方式,促使著科研界展開(kāi)了一場(chǎng)關(guān)于「生產(chǎn)方式」的大變革,也推動(dòng)者機(jī)器學(xué)習(xí)驅(qū)動(dòng)的技術(shù)在破譯蛋白質(zhì)功能和識(shí)別新的蛋白質(zhì)相互作用發(fā)揮更大的潛力。
無(wú)獨(dú)有偶,如美國(guó)加州理工學(xué)院的 Kevin K.Yang 等人發(fā)表于 Nat. Methods,題為「Machine learning-guided directed evolution for protein engineering」的文章,通過(guò)對(duì)比定向進(jìn)化和機(jī)器學(xué)習(xí)輔助定向進(jìn)化,闡述了機(jī)器學(xué)習(xí)的優(yōu)越性。同時(shí)文中還列舉了如酶催化效率、細(xì)胞色素 P450 熱穩(wěn)定性優(yōu)化等實(shí)際案例,提到線性回歸、高斯過(guò)程、貝葉斯優(yōu)化等多種機(jī)器學(xué)習(xí)方法,表明了機(jī)器學(xué)習(xí)可為蛋白質(zhì)工程提供「數(shù)據(jù)驅(qū)動(dòng)的智能導(dǎo)航」,通過(guò)建模序列-功能關(guān)系,顯著提升定向進(jìn)化的效率和成功率。
論文地址:
??https://arxiv.org/pdf/1811.10775??
另外,意大利博洛尼亞大學(xué)的 Rita Casadio 等人以「Machine learning solutions for predicting protein–protein interactions」為題發(fā)表的文章,同樣詳細(xì)介紹了機(jī)器學(xué)習(xí)在蛋白質(zhì)研究方面的探索。其中介紹了包括無(wú)監(jiān)督和有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法在蛋白質(zhì)-蛋白質(zhì)分子相互作用(PPI)中的應(yīng)用,重點(diǎn)突出了其在數(shù)據(jù)質(zhì)量、表示、訓(xùn)練算法和驗(yàn)證程序等方面的關(guān)鍵問(wèn)題。
論文地址:
??https://wires.onlinelibrary.wiley.com/doi/full/10.1002/wcms.1618??
總的來(lái)說(shuō),在蛋白質(zhì)的微觀世界中,仍有諸多關(guān)乎生命的密碼隱藏其中,而機(jī)器學(xué)習(xí)為主要手段的系統(tǒng)性數(shù)據(jù)驅(qū)動(dòng)的方法無(wú)疑就像一把打開(kāi)蛋白質(zhì)微觀世界大門(mén)的鑰匙,激發(fā)著科研界對(duì)蛋白質(zhì)功能、穩(wěn)定性進(jìn)行更深入的研究和探索,從而不斷破除人類(lèi)對(duì)生命的認(rèn)知局限。
