南開(kāi)&山大&北理工團(tuán)隊(duì)開(kāi)發(fā)trRosettaRNA:利用Transformer網(wǎng)絡(luò)自動(dòng)預(yù)測(cè)RNA 3D結(jié)構(gòu)
RNA 3D 結(jié)構(gòu)預(yù)測(cè)是一個(gè)長(zhǎng)期存在的挑戰(zhàn)。
受最近蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域突破的啟發(fā),南開(kāi)大學(xué)、山東大學(xué)以及北京理工大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了 trRosettaRNA,這是一種基于深度學(xué)習(xí)的自動(dòng)化 RNA 3D 結(jié)構(gòu)預(yù)測(cè)方法。
trRosettaRNA 流程包括兩個(gè)主要步驟:通過(guò)transformer網(wǎng)絡(luò)進(jìn)行 1D 和 2D 幾何形狀預(yù)測(cè);以及通過(guò)能量最小化進(jìn)行的 3D 結(jié)構(gòu)折疊?;鶞?zhǔn)測(cè)試表明 trRosettaRNA 優(yōu)于傳統(tǒng)的自動(dòng)化方法。
在 CASP15 和 RNA-Puzzles 實(shí)驗(yàn)的盲測(cè)中,對(duì)天然 RNA 的自動(dòng) trRosettaRNA 預(yù)測(cè)與人類的頂級(jí)預(yù)測(cè)具有競(jìng)爭(zhēng)力。當(dāng)通過(guò)均方根偏差的 Z 分?jǐn)?shù)進(jìn)行測(cè)量時(shí),trRosettaRNA 的性能也優(yōu)于 CASP15 中其他基于深度學(xué)習(xí)的方法。
該研究以「trRosettaRNA: automated prediction of RNA 3D structure with transformer network」為題,于 2023 年 11 月 9 日發(fā)布在《Nature Communications》。
學(xué)界對(duì) RNA 3D 結(jié)構(gòu)預(yù)測(cè)的需求與日俱增
核糖核酸(RNA)是活細(xì)胞中最重要的功能分子類型之一。它參與許多基本的生物和細(xì)胞過(guò)程,例如,作為遺傳信息的轉(zhuǎn)錄本,發(fā)揮催化、支架和結(jié)構(gòu)功能。過(guò)去幾十年來(lái),隨著每年新型 ncRNA 的發(fā)現(xiàn),人們對(duì)非編碼 RNA (ncRNA),例如轉(zhuǎn)移 RNA (tRNA) 和核糖體 RNA (rRNA),結(jié)構(gòu)和功能的興趣與日俱增。
與蛋白質(zhì)類似,ncRNA 分子的生物學(xué)功能通常由其 3D 結(jié)構(gòu)決定。然而,由于靈活的主鏈和弱的長(zhǎng)程三級(jí)相互作用引起的內(nèi)在結(jié)構(gòu)異質(zhì)性,通過(guò)實(shí)驗(yàn)解決RNA的結(jié)構(gòu)比蛋白質(zhì)更具挑戰(zhàn)性。例如,蛋白質(zhì)數(shù)據(jù)庫(kù) (PDB) 中僅存放了約 6000 個(gè) RNA 結(jié)構(gòu),遠(yuǎn)少于存放的蛋白質(zhì)結(jié)構(gòu)的數(shù)量(約 190,000 個(gè))。因此,迫切需要開(kāi)發(fā)有效的算法來(lái)預(yù)測(cè) RNA 3D 結(jié)構(gòu)。
當(dāng)前 RNA 3D 結(jié)構(gòu)預(yù)測(cè)仍有巨大挑戰(zhàn)
目前的 RNA 3D結(jié)構(gòu)預(yù)測(cè)方法可以分為兩類:基于模板的方法和從頭方法?;谀0宓姆椒ㄊ褂?PDB 中的同源模板來(lái)預(yù)測(cè)目標(biāo)結(jié)構(gòu)。例如,ModeRNA 和 MMB 等代表性方法通過(guò)減少同源結(jié)構(gòu)的采樣空間來(lái)工作。一般來(lái)說(shuō),當(dāng)PDB中存在同源模板時(shí),基于模板的方法預(yù)測(cè)的結(jié)構(gòu)模型是準(zhǔn)確的。然而,由于已知RNA結(jié)構(gòu)的數(shù)量有限以及RNA序列比對(duì)的困難,基于模板的方法進(jìn)展緩慢。
相反,從頭方法通過(guò)從頭開(kāi)始模擬折疊過(guò)程來(lái)構(gòu)建 3D 構(gòu)象。通過(guò)分子動(dòng)力學(xué)模擬或片段組裝,F(xiàn)ARNA5、FARFAR、FARFAR2、SimRNA、iFoldRNA、RNAComposer 和 3dRNA 等方法對(duì)于某些小 RNA(<100 個(gè)核苷酸)效果良好。然而,由于不準(zhǔn)確的力場(chǎng)參數(shù)和巨大的采樣空間,很難為具有復(fù)雜拓?fù)涞拇驲NA生成精確的3D結(jié)構(gòu)。為了部分解決這個(gè)問(wèn)題,通過(guò)直接耦合分析(DCA)預(yù)測(cè)的核苷酸間接觸已被用來(lái)指導(dǎo)結(jié)構(gòu)模擬。
此外,考慮到 RNA 結(jié)構(gòu)折疊的層次性質(zhì),一些方法從二級(jí)結(jié)構(gòu)衍生出 3D 結(jié)構(gòu),例如 Vfold 和 MC-Fold。它們非常快,但建模精度很大程度上取決于輸入二級(jí)結(jié)構(gòu)的質(zhì)量。RNA-Puzzles 實(shí)驗(yàn)表明,準(zhǔn)確預(yù)測(cè)具有復(fù)雜結(jié)構(gòu)的大 RNA 的結(jié)構(gòu)仍然是一個(gè)巨大的挑戰(zhàn)。
深度學(xué)習(xí)用于 RNA 3D 結(jié)構(gòu)預(yù)測(cè)
深度學(xué)習(xí)最近被用來(lái)改進(jìn)從頭 RNA 3D 結(jié)構(gòu)預(yù)測(cè)。殘差卷積網(wǎng)絡(luò)(ResNet)預(yù)測(cè)的核苷酸間接觸比 DCA 準(zhǔn)確約兩倍,在一定程度上改善了 3D 結(jié)構(gòu)預(yù)測(cè)。結(jié)果表明,通過(guò)從基于幾何深度學(xué)習(xí)的評(píng)分系統(tǒng) (ARES) 中選擇模型,F(xiàn)ARFAR2 協(xié)議在 RNA-Puzzles 實(shí)驗(yàn)的盲測(cè)中預(yù)測(cè)了四個(gè)目標(biāo)的最準(zhǔn)確模型。受 AlphaFold2 成功的啟發(fā),科學(xué)家開(kāi)發(fā)了一些新的基于深度學(xué)習(xí)的方法,例如 DeepFoldRNA、RoseTTAFoldNA 和 RhoFold。
在最新的工作中,南開(kāi)大學(xué)、山東大學(xué)以及北京理工大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了 trRosettaRNA,一種基于深度學(xué)習(xí)的自動(dòng)化 RNA 3D 結(jié)構(gòu)預(yù)測(cè)方法。它的部分靈感來(lái)自于深度學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的成功應(yīng)用,特別是在 AlphaFold2 和 trRosetta 中?;鶞?zhǔn)測(cè)試和盲測(cè)表明 trRosettaRNA 有希望增強(qiáng) RNA 結(jié)構(gòu)預(yù)測(cè)。
trRosettaRNA 的結(jié)構(gòu)如圖 1 所示。從 RNA 的核苷酸序列開(kāi)始,首先分別通過(guò)程序 rMSA 和 SPOT-RNA 生成多重序列比對(duì) (MSA) 和二級(jí)結(jié)構(gòu)。然后將它們轉(zhuǎn)換為 MSA 表示和配對(duì)表示,然后將其輸入 transformer 網(wǎng)絡(luò)(名為 RNAformer)以預(yù)測(cè) 1D 和 2D 幾何形狀。與 trRosetta 類似,這些幾何形狀被轉(zhuǎn)換為約束,以指導(dǎo)基于能量最小化的 3D 結(jié)構(gòu)折疊的最后步驟。除非另有說(shuō)明,下面提到的 RMSD 是通過(guò)使用 RNA-Puzzles 社區(qū)提供的評(píng)估工具包考慮所有原子來(lái)計(jì)算的。
圖1:trRosettaRNA 的總體架構(gòu)。(來(lái)源:論文)
研究人員使用兩個(gè)獨(dú)立的數(shù)據(jù)集和兩個(gè)盲測(cè)對(duì) trRosettaRNA 進(jìn)行了嚴(yán)格評(píng)估?;鶞?zhǔn)測(cè)試表明,trRosettaRNA 預(yù)測(cè)的模型比其他自動(dòng)化方法更準(zhǔn)確。trRosettaRNA 在兩個(gè)實(shí)驗(yàn)中進(jìn)行了盲評(píng)估:RNA-Puzzles(3 個(gè)目標(biāo))和 CASP15(12 個(gè)目標(biāo))。RNA-Puzzles 實(shí)驗(yàn)表明,trRosettaRNA 的自動(dòng)預(yù)測(cè)與人類對(duì)三分之二目標(biāo)的預(yù)測(cè)具有競(jìng)爭(zhēng)力。CASP15 實(shí)驗(yàn)表明,trRosettaRNA 在基于 RMSD 的累積 Z 分?jǐn)?shù)方面優(yōu)于其他基于深度學(xué)習(xí)的方法。該方法在 8 種天然 RNA 上達(dá)到了與頂級(jí)人類群體相當(dāng)?shù)臏?zhǔn)確性,盡管沒(méi)有任何人為干預(yù)。
局限性與未來(lái)
然而,研究人員注意到 CASP15 盲測(cè)中天然 RNA 的平均 RMSD(第一個(gè)模型為 14.8??)高于兩個(gè)基準(zhǔn)數(shù)據(jù)集 RNA 的平均 RMSD (30 個(gè)獨(dú)立 RNA 為 8.5??,之前 20 個(gè) RNA-Puzzles 靶標(biāo)為 10.5??)。
建模準(zhǔn)確性的差異可以通過(guò)目標(biāo)難度和新穎性來(lái)解釋。
(1)目標(biāo)難度。大多數(shù)CASP15 RNA表現(xiàn)出高度的靈活性,可以采用多種構(gòu)象(R1116和R1117除外)。此外,還有兩個(gè)二聚體(R1107、R1108)和兩個(gè)具有許多單鏈區(qū)域的蛋白質(zhì)結(jié)合RNA(R1189、R1190)。這些特征對(duì) SPOT-RNA 預(yù)測(cè)可信二級(jí)結(jié)構(gòu)提出了挑戰(zhàn)。為了說(shuō)明這一點(diǎn),與 20 個(gè) RNA-Puzzles 目標(biāo)相比,來(lái)自 CASP15 的 8 個(gè)天然 RNA 的 SPOT-RNA 預(yù)測(cè)二級(jí)結(jié)構(gòu)的平均 F1 分?jǐn)?shù)要低得多(分別為 0.62 和 0.72)。
(2)目標(biāo)新穎。非冗余基準(zhǔn)數(shù)據(jù)集中的很大一部分 RNA(三分之二,30 個(gè)中的 20 個(gè))與之前已知的 RNA 表現(xiàn)出高度相似性 (TM-scoreRNA?>?0.6),這使得它們很容易通過(guò)數(shù)據(jù)驅(qū)動(dòng)方法(如 trRosettaRNA)進(jìn)行預(yù)測(cè)。相反,CASP15 的 RNA 沒(méi)有表現(xiàn)出如此程度的相似性。
這反映了與 trRosettaRNA 和該研究中采用的基準(zhǔn)測(cè)試相關(guān)的局限性。首先,trRosettaRNA 的性能容易受到預(yù)測(cè)二級(jí)結(jié)構(gòu)質(zhì)量的影響。其次,盡管 trRosettaRNA 在內(nèi)部基準(zhǔn)測(cè)試中實(shí)現(xiàn)了令人鼓舞的準(zhǔn)確性,但其在新型 RNA 上的性能仍然有限。此外,合成 RNA 的自動(dòng)結(jié)構(gòu)預(yù)測(cè)仍然具有挑戰(zhàn)性。
CASP15 實(shí)驗(yàn)中的盲測(cè)表明,RNA 結(jié)構(gòu)預(yù)測(cè)的深度學(xué)習(xí)方法仍處于起步階段。然而,隨著持續(xù)發(fā)展,深度學(xué)習(xí)應(yīng)該有望推進(jìn) RNA 結(jié)構(gòu)預(yù)測(cè)。將基于物理的建模融入深度學(xué)習(xí)是未來(lái)改進(jìn)的方向之一。
最直接的替代方案之一是將其與其他傳統(tǒng)方法相結(jié)合,并針對(duì)未來(lái)那些代表性不足的 RNA 結(jié)構(gòu)優(yōu)化算法。例如,為了克服對(duì)已知 RNA 折疊的偏見(jiàn),可以利用神經(jīng)網(wǎng)絡(luò)(例如基于物理的神經(jīng)網(wǎng)絡(luò))來(lái)學(xué)習(xí)力場(chǎng)或識(shí)別/組裝局部圖案,而不是直接預(yù)測(cè)全局 3D 結(jié)構(gòu)。
源代碼:https://yanglab.qd.sdu.edu.cn/trRosettaRNA
論文鏈接:https://www.nature.com/articles/s41467-023-42528-4