偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型 原創(chuàng)

發(fā)布于 2025-8-25 12:53
瀏覽
0收藏

上海交通大學第三屆「AI for Bioengineering 暑期學?!褂?2025 年 8 月 8—10 日正式開啟。本次暑期學校匯聚了自全球 70 余所高校、 10 余所科研機構(gòu)及 10 余家行業(yè)領(lǐng)軍企業(yè)的 200 余位青年才俊、科研學者和產(chǎn)業(yè)代表,共同聚焦于人工智能(AI)與生物工程(Bioengineering)的融合發(fā)展。

其中,在「AI 算法前沿」課程板塊,上海交通大學自然科學研究院 &洪亮課題組博士后李明辰以「蛋白質(zhì)與基因組基礎大模型」為主題,向大家分享了蛋白質(zhì)語言模型在功能預測、序列生成、結(jié)構(gòu)預測等方向的前沿成果,以及擴展定律、基因組模型的相關(guān)研究進展。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

李明辰博士演講現(xiàn)場

HyperAI 超神經(jīng)在不違原意的前提下,對李明辰博士的精彩分享進行了整理匯總,以下為演講精華實錄。

蛋白質(zhì)語言模型新型分類:蛋白質(zhì)結(jié)構(gòu)、序列和功能的關(guān)系

蛋白質(zhì)的用途極其廣泛,其功能可以應用于化工、農(nóng)業(yè)、食品、美妝、醫(yī)藥、檢測等多個領(lǐng)域,市場規(guī)模達到萬億級別。從簡單的角度來講,蛋白質(zhì)語言模型是一個概率分布問題。它相當于給定一個氨基酸序列,判斷其在自然界中出現(xiàn)的概率并據(jù)此進行采樣。通過海量的數(shù)據(jù)預訓練,模型能夠較好地表示自然界中的概率分布。

蛋白質(zhì)語言模型具有三大類核心功能:

* 將蛋白質(zhì)序列表示為高維向量的學習過程 

* 判別氨基酸序列的合理性

* 生成新的蛋白質(zhì)序列

很多研究論文在介紹蛋白質(zhì)語言模型的分類時會按照 Transformer 架構(gòu)型分類,直接介紹基于 Transformer Encoder 或者基于 Transformer Decoder 的內(nèi)容。這樣的分類方法對于生物學科的研究人員而言不易理解,通常會造成困惑,因此我來介紹一種新的分類方法:基于蛋白質(zhì)結(jié)構(gòu)、序列和功能之間的關(guān)系進行分類。

蛋白質(zhì)的序列即氨基酸序列,一旦明確了氨基酸序列,我們便能夠在實驗室或工廠中進行合成,并將其應用到實際中。蛋白質(zhì)的結(jié)構(gòu)同樣至關(guān)重要,之所以能夠發(fā)揮功能,正是因為其在三維空間中形成了一定的結(jié)構(gòu),而這種結(jié)構(gòu)能夠從微觀層面實現(xiàn)功能。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

根據(jù)這一思路,可以將蛋白質(zhì)語言模型分為以下四類:

1. 序列→功能:根據(jù)給定的氨基酸序列預測其功能,即 「功能預測模型」。

2. 功能→序列:根據(jù)給定功能設計對應的氨基酸序列,包括 「生成模型」和 「挖掘模型」。

3. 序列→結(jié)構(gòu):根據(jù)氨基酸序列預測其結(jié)構(gòu),通常稱為 「結(jié)構(gòu)預測模型」,諾獎成果 AlphaFold 就屬于此類模型。

4. 結(jié)構(gòu)→序列:根據(jù)給定蛋白質(zhì)結(jié)構(gòu)設計對應的序列,通常稱為 「逆折疊模型」。

應用場景與技術(shù)路徑:四種主流模式解析

「序列→功能」

理解「序列→功能」的一個最簡單的思路就是監(jiān)督學習。

首先是最基礎的功能預測模型,該過程是把蛋白質(zhì)序列表達成向量,然后在一個特殊的數(shù)據(jù)集上進行訓練。例如:我們想預測蛋白質(zhì)的熔點,首先要收集一大批蛋白質(zhì)熔點標簽的數(shù)據(jù),把訓練集中所有的蛋白質(zhì)序列都轉(zhuǎn)成高維向量,并用監(jiān)督學習的方法進行訓練,最后為測試或者預測集中的序列上進行推理,預測功能。這種方法能做的任務非常多,是目前研究的熱點方向之一,同時也是一個比較容易產(chǎn)出成果的研究方向。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

其次,蛋白質(zhì)語言模型還能進行突變功能預測,其核心思想是在蛋白質(zhì)序列中將某些氨基酸做一些改變,然后利用蛋白質(zhì)語言模型判斷這個改變是否「合理」。

這里的「合理」,并不是指生活中的合乎邏輯,而是指這種氨基酸變化是否符合自然蛋白質(zhì)序列的概率分布。這個概率分布來自大量真實的氨基酸序列統(tǒng)計,而這些氨基酸分布本身就是上千萬年進化的產(chǎn)物。

蛋白質(zhì)語言模型在訓練中學習了這種進化規(guī)律,因此能夠判斷某個突變是符合進化規(guī)律,還是偏離進化規(guī)律。從數(shù)學的角度來看,這一判斷可以轉(zhuǎn)化為突變前后兩個序列概率的比值,為了便于計算,通常會對比值取對數(shù),將其轉(zhuǎn)化為減法形式。

語言模型對突變體和野生型之間的似然比能估計突變效應的強弱,這一思路最早由 2018 年 Nature Methods 上的一篇介紹 DeepSequence 模型的論文提出了驗證,但當時模型規(guī)模還相對較小。隨后在 2021 年,ESM-1v 模型進一步表明蛋白質(zhì)語言模型同樣能夠通過似然比有效預測突變效應。

要評價蛋白質(zhì)突變功能預測模型的準確性,就需要一個 Benchmark 。

所謂 Benchmark 就是一些為衡量準確性所收集的眾多小量數(shù)據(jù),例如由哈佛醫(yī)學院和牛津大學聯(lián)合開發(fā)的 ProteinGym,是目前最常用的一個 Benchmark,內(nèi)含 217 個突變蛋白的數(shù)據(jù),數(shù)百萬個突變序列。研究人員會讓蛋白質(zhì)語言模型逐一對這些突變序列打分,再將模型預測的分數(shù)與真實的分數(shù)進行對比,如果相關(guān)性越高,就說明模型的性能越好。

不過,ProteinGym 屬于高通量、低精度的 Benchmark 。受實驗條件限制,它可以進行大規(guī)模測試,但在精度上可能有所不足。如果重復一次實驗,結(jié)果和原始數(shù)據(jù)的相關(guān)性可能會有誤差,導致評測結(jié)果不能準確反映模型實際應用的表現(xiàn)好壞。

為了解決這個問題,我們開發(fā)了 VenusMutHub 這樣的低通量、高精度的小樣本 Benchmark 。它的數(shù)據(jù)量雖然不大,但每一條數(shù)據(jù)都比較精確,而且重復實驗的結(jié)果幾乎一致,更貼近真應用場景。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

* 論文地址:Zhang L, Pang H, Zhang C, et al. VenusMutHub: A systematic evaluation of protein mutation effect predictors on small-scale experimental data[J]. Acta Pharmaceutica Sinica B, 2025, 15(5): 2454-2467.

除此之外,還可以引入結(jié)構(gòu)來增強的蛋白質(zhì)語言模型的突變預測準確度。我們團隊去年在 NeurIPS 上發(fā)表了一篇蛋白質(zhì)語言模型的工作——ProSST 模型,運用了蛋白質(zhì)的氨基酸序列和蛋白質(zhì)結(jié)構(gòu)化的序列完成了一個多模態(tài)的預訓練,在目前最大規(guī)模零樣本突變效應預測的 ProteinGym Benchmark 上,ProSST 排名第一。

* 論文地址:Li M, Tan Y, Ma X, et al. ProSST: Protein language modeling with quantized structure and disentangled attention[C]. Advances in Neural Information Processing Systems, 2024, 37: 35700-35726.

大家在做實驗或者做設計的時候會經(jīng)常碰到一類問題:「就是我該用哪個模型?」「作為使用者我該怎么選?」

在今年發(fā)表的一項研究中,我們團隊發(fā)現(xiàn)蛋白質(zhì)語言模型對目標序列的困惑度(Perplexity)可以大致反映它在突變預測任務中的準確性,好處在于不需要任何目標蛋白突變數(shù)據(jù)的情況下,就能夠給出一個性能預估。具體體現(xiàn)在困惑度越低,說明模型對該序列的理解越好,也往往意味著它在該序列上的突變預測會更準確。

基于這一想法,我們開發(fā)了一個集成模型——VenusEEM 。其根據(jù)困惑度來確定模型的權(quán)重,或直接選擇困惑度最低的模型,這能夠把突變預測準確度提升到一個較高的標準。無論面對哪類策略,最終的預測分數(shù)都相對穩(wěn)定,不會出現(xiàn)因為選錯模型而導致性能明顯下降的情況。

* 論文地址:Yu Y, Jiang F, Zhong B, et al. Entropy-driven zero-shot deep learning model selection for viral proteins[J]. Physical Review Research, 2025, 7(1): 013229.

最后,在「序列→功能」方向的研究中,除前面提到的幾類模型外,我們團隊去年還開發(fā)了一種新型的迭代式高位點突變設計模型 PRIME 。具體而言,我們首先在 9,800 萬條蛋白質(zhì)序列上預訓練了一個大型蛋白質(zhì)語言模型。在高位點突變預測任務中,先獲取低位點突變數(shù)據(jù),并輸入到蛋白質(zhì)語言模型中,將其編碼為功能向量;再基于該功能向量訓練回歸模型,用于預測高點突變。通過這種來回迭代式的反應,僅需 2-3 輪實驗就能夠把一個優(yōu)異的蛋白質(zhì)產(chǎn)品開發(fā)出來。

* 論文地址:Jiang F, Li M, Dong J, et al. A general temperature-guided language model to design proteins of enhanced stability and activity[J]. Science Advances, 2024, 10(48): eadr2641.

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

「功能→序列」

前面講的都是從序列到功能,我們想一下是不是能夠從功能反推出序列呢?

序列與功能之間,存在一個正逆向的問題。正向問題就像在尋找一個確定的答案,但是逆向問題是在一個巨大的可行空間中尋找一個可解性,而「從功能生成序列」就是這個逆向問題。究其原因在于:序列通常只對應一或少數(shù)幾個功能,但一個功能可以由多種完全不同的序列來實現(xiàn)。與此同時,逆向問題沒有可信的 Benchmark,當模型根據(jù)給定功能生成序列時,通常只能通過實驗檢測準確性。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

在當前的研究中,從功能到序列的設計大多采用模板化思路,如果已知某個模板蛋白具備特定功能,就可以以它為基礎去尋找或者生成一個新的區(qū)域。其流程是先從功能到模板序列,從模板蛋白可能會搜索出來一些家族蛋白/同源蛋白,再對蛋白質(zhì)語言模型進行微調(diào),利用微調(diào)后的語言模型生成新的序列區(qū)域,最終進行實驗檢測。

目前較具代表性的兩個生成式蛋白質(zhì)語言模型包括:

* ESM-3,以綠色熒光蛋白(GFP)為模板進行生成,但其所生成的蛋白功能較弱。 

* ProGen 純自回歸式語言模型,類似 ChatGPT 可根據(jù)功能提示進行生成,其在溶菌酶的蛋白架構(gòu)上進行微調(diào)從而生成。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

除了直接生成新蛋白序列,還可以從現(xiàn)有的海量蛋白序列中直接搜索。將模板蛋白編碼到高維空間,根據(jù)向量距離判斷這兩個蛋白是否具有相同的功能,最后在一個數(shù)據(jù)庫中進行檢索。這個思路的原理在于,高維空間里兩個蛋白質(zhì)的編碼或向量之間的距離能夠大致反映出這兩個蛋白質(zhì)的功能是否類似。

下圖所示,列舉了兩個目前比較典型的應用蛋白質(zhì)語言模型挖掘蛋白質(zhì)的案例。其一,西湖大學開發(fā)的 ESM-Ezy,基于 ESM-1b 模型來進行向量搜索,挖掘出多重表達進行填充。其二,VenusMine 大模型挖掘高效 PET 水解酶。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

* 論文地址:Wu B, Zhong B, Zheng L, et al. Harnessing protein language model for structure-based discovery of highly efficient and robust PET hydrolases[J]. Nature Communications, 2025, 16(1): 6211.

除了「功能→序列」,還可以在功能與序列之間增加「媒介」:

* 當結(jié)構(gòu)作為中間媒介:根據(jù)功能推測蛋白結(jié)構(gòu)(常用工具如: RFdiffusion),再將生成的結(jié)構(gòu)輸入逆折疊蛋白質(zhì)語言模型(如 ProteinMPNN)最后生成序列。 

* 當自然語言作為媒介:如研究論文「A text-guided protein design framework」中所介紹的方法,通過對比學習將自然語言和蛋白質(zhì)序列對齊到一個高位空間,然后就可以直接在這個高位空間里面通過自然語言引導來生成一個蛋白的序列。

「序列→結(jié)構(gòu)」

在序列→結(jié)構(gòu)方向,最經(jīng)典的模型無疑是 AlphaFold 。那么,為什么我們還需要蛋白質(zhì)語言模型來做結(jié)構(gòu)預測呢?最主要的原因是——快。

AlphaFold 之所以較慢,主要原因是 MSA(多序列比對)搜索依賴于 CPU 在大型數(shù)據(jù)庫中進行檢索,當然也可以使用 GPU 加速,但其實加速效果反而更慢。其次,AlphaFold 在折疊過程中還需要進行模板匹配,同樣消耗了大量時間。如果將這兩個模塊替換為蛋白質(zhì)語言模型,能夠極大地加速結(jié)構(gòu)預測的過程。然而,根據(jù)目前已發(fā)表的研究,基于蛋白質(zhì)語言模型的結(jié)構(gòu)預測在大多數(shù)評測指標上的精度仍整體低于 AlphaFold 模型。

目前幾個比較常見的從序列到結(jié)構(gòu)的蛋白質(zhì)語言模型,采取了利用蛋白質(zhì)語言模型提取的特征替代 MSA 的共同思路:

* ESMFold(Meta):第一個使用蛋白質(zhì)語言模型直接預測蛋白質(zhì)結(jié)構(gòu)的方法,在不依賴 MSA 搜索的情況下實現(xiàn)了較高精度。

Proteinix-MINI(字節(jié)跳動):采用蛋白質(zhì)語言模型代替 MSA ,同樣達到了非??焖俚男Ч?,預測精度接近 AlphaFold 3 模型。

* xTrimo-Fold(百圖生科):運用了千億參數(shù)模型的特征代替 MSA,搜索速度得到了加快。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

「結(jié)構(gòu)→序列」

根據(jù)已知功能設計出結(jié)構(gòu),但如何將其在實驗室中合成出來呢?我們還需要把它轉(zhuǎn)化成氨基酸的序列,這就是先前提到的「逆折疊語言模型」。

逆折疊語言模型可以理解為 AlphaFold 的「逆向問題」。不同于 AlphaFold 從氨基酸序列預測三維結(jié)構(gòu),逆折疊模型的目標是學習一個從蛋白質(zhì) 3D 結(jié)構(gòu)向氨基酸序列的映射函數(shù)。

我分享的幾個此領(lǐng)域的工作:第一個工作是來自西湖大學研究團隊的 PiFold 模型,其架構(gòu)的一大創(chuàng)新在于采用非自回歸生成方式。

第二個是 David Baker 課題組開發(fā)的 ProteinMPNN,作為是目前應用最廣泛的逆折疊模型之一,其采用自回歸生成方式,通過圖神經(jīng)網(wǎng)絡對單個蛋白質(zhì)結(jié)構(gòu)進行編碼,再逐個生成氨基酸序列。

此外,Meta 公司提出的 ESM-IF 也是一項重要進展,其亮點在于直接利用 AlphaFold 預測的大規(guī)模結(jié)構(gòu)數(shù)據(jù),將數(shù)千萬條蛋白質(zhì)序列統(tǒng)一預測出對應的三維結(jié)構(gòu),并以此構(gòu)建了一個超大規(guī)模的訓練集。 ESM-IF 的訓練數(shù)據(jù)達到千萬級別,模型參數(shù)量超過一億。在此基礎上,該模型除了能夠完成逆折疊任務,也在突變穩(wěn)定性預測上表現(xiàn)出極強的性能。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

多重方式實現(xiàn)蛋白質(zhì)語言模型的增強

最后,補充一個當下非常熱門的研究方向——蛋白質(zhì)語言模型的增強。如果你打算在這個領(lǐng)域開展研究,可以從以下思路切入——引入外部信息、改進內(nèi)部架構(gòu)。

1. 引入外部信息

* 功能信息:例如將溫度、 pH 等功能輸入到 Transformer 中。這些信息既可以顯式地融入模型輸入,也可以通過學習的動作,從而增強蛋白質(zhì)語言模型的性能。 

* 結(jié)構(gòu)信息:引入三維結(jié)構(gòu)或結(jié)構(gòu)化序列信息。

* MSA 信息:多序列比對(MSA)是一類非常有用的信息,將其引入語言模型往往能顯著提升性能。 

* 自然語言信息:近年來也有研究嘗試加入自然語言信息,但這一方向仍在探索中。

2. 改進內(nèi)部架構(gòu)

* 擴展定律:通過大幅增加模型參數(shù)量與訓練數(shù)據(jù)規(guī)模來換取性能提升。

提升數(shù)據(jù)質(zhì)量:降低數(shù)據(jù)中的噪聲,提升精度。

* 新型架構(gòu)探索:如 CARP 、 ProtMamba 、 Evo 架構(gòu)等。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

近年來,利用蛋白質(zhì)結(jié)構(gòu)信息增強模型性能成為熱門研究方向。

早期的代表性研究之一是發(fā)表于 2021 年的論文「Learning the protein language: Evolution, structure, and function」,其展示了如何通過結(jié)構(gòu)信息提升蛋白質(zhì)語言模型的能力。在此之后,SaProt 模型提出了一種頗為巧妙的做法,其將蛋白質(zhì)的氨基酸詞表與 Foldseek 為蛋白質(zhì)結(jié)構(gòu)生成的 20 個虛擬結(jié)構(gòu)詞表進行拼接,最終得到一個大小為 400(20 × 20)的聯(lián)合詞表?;谶@一詞表訓練掩碼語言模型,取得了優(yōu)異的精度。

我們團隊也自主訓練了一個針對蛋白質(zhì)序列和結(jié)構(gòu)的多模態(tài)預訓練模型 ProSST,該模型通過將蛋白質(zhì)的連續(xù)結(jié)構(gòu)轉(zhuǎn)化為離散的 token(2,048 種不同的 token),從而實現(xiàn)了結(jié)構(gòu)信息的離散化表示。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

在蛋白質(zhì)語言模型中加入結(jié)構(gòu)信息可以顯著提升模型性能。然而,在這一過程中可能會遇到一個問題:如果直接使用 AlphaFold 預測得到的結(jié)構(gòu)數(shù)據(jù)進行訓練,雖然訓練集上的損失在逐步降低,但驗證集或測試集上的損失卻逐漸增大。解決這一問題的關(guān)鍵在于對結(jié)構(gòu)信息進行正則化,通俗地講,就是簡化復雜的數(shù)據(jù),使其更適合模型處理。

蛋白質(zhì)的結(jié)構(gòu)在三維空間中通常表示為連續(xù)坐標,需要通過將其轉(zhuǎn)化為離散的整數(shù)序列來簡化這一過程。為此,我們使用了一種圖神經(jīng)網(wǎng)絡架構(gòu),并采用降噪編碼器進行訓練,最終構(gòu)建了一個包含約 2,048 種 token 的離散結(jié)構(gòu)詞表。

有了結(jié)構(gòu)信息和序列信息后,我們選擇了交叉注意力機制來將兩者結(jié)合,從而使得改造后的 Transformer 模型能夠同時輸入氨基酸和結(jié)構(gòu)序列。在預訓練階段,我們將這一模型設計為一個研發(fā)語言模型任務,訓練數(shù)據(jù)包含超過 1,880 萬條高質(zhì)量蛋白質(zhì)結(jié)構(gòu),參數(shù)規(guī)模約 1.1 億。該模型在當時達到了領(lǐng)先水平,盡管之后已被更新的模型所超越,但在發(fā)布之時仍是同類任務中的最佳結(jié)果。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

利用 MSA(多序列比對)增強蛋白質(zhì)語言模型,也是提升模型性能的重要手段。最早可以追溯到 MSA-Transformer,它通過引入行規(guī)則和列規(guī)則的機制有效地將 MSA 信息融入到模型中。最近發(fā)布的 PoET2 模型,使用了層次編碼器來處理 MSA 信息,并將其整合進一個全通的模型結(jié)構(gòu)中,經(jīng)過大規(guī)模訓練后,展現(xiàn)了出色的性能表現(xiàn)。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

擴展定律:模型變大一定更強嗎?

所謂擴展定律(Scaling Law),最早來源于自然語言處理領(lǐng)域。它揭示了一個普遍規(guī)律:模型性能會隨著參數(shù)規(guī)模、訓練數(shù)據(jù)量以及計算資源的增加而持續(xù)提升。

其中,參數(shù)規(guī)模是決定模型性能上限的關(guān)鍵因素。如果參數(shù)量不足,即使投入更多計算資源(通俗地講就是「花更多錢」),模型的性能也會遇到瓶頸。在蛋白質(zhì)語言模型領(lǐng)域,同樣存在這樣的規(guī)律,并且已經(jīng)被多篇研究證實,代表性工作如:代表性工作如:RITA 、 xTrimoPGLM 、 ProGEN3 、 Amix-1 。
* RITA 模型:由牛津大學、哈佛醫(yī)學院聯(lián)合 LightOn AI 公司開發(fā)。

* xTrimoPGLM 模型:由百圖生科團隊開發(fā),實現(xiàn)將模型參數(shù)規(guī)模擴展至約千億級。

* ProGEN3 模型:由 Profluent 生物公司團隊開發(fā)。

* Amix-1 模型:由清華大學智能產(chǎn)業(yè)研究院聯(lián)合上海人工智能實驗室提出,采用貝葉斯流匹配的網(wǎng)絡架構(gòu),同樣具有擴展定律。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

前面我們提到的「擴展定律」,是預訓練過程。但在蛋白質(zhì)研究中,我們最終關(guān)心的往往是下游任務的效果。那么問題來了:預訓練性能提升,對下游任務是否一定有幫助?

在 xTrimoPGLM 的評測中,研究團隊發(fā)現(xiàn),在約 44% 的下游任務中,確實存在「預訓練性能越好則下游表現(xiàn)越強」的正相關(guān)關(guān)系。

與此同時,Amix-1 模型在結(jié)構(gòu)預測任務中,觀察到了涌現(xiàn)能力(Emergent Capability)。其指在一些任務中,小模型完全不具備解決能力,但當模型參數(shù)規(guī)模突破某個臨界點后,性能突然顯著提升。在該實驗中,這種現(xiàn)象在結(jié)構(gòu)預測任務中尤為明顯,當參數(shù)突破臨界點時,性能提升呈現(xiàn)出一條「斷崖式紅線」。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

雖然在部分任務中,大模型確實能帶來更好的下游表現(xiàn)。但是下游任務也發(fā)現(xiàn)了一種逆擴展定律(Inverse Scaling),即模型越小,性能反而變得越好。

有研究表明,如果訓練數(shù)據(jù)本身存在大量噪聲時,單純增加模型參數(shù)量并不能改善結(jié)果,因此大家應該更關(guān)注數(shù)據(jù)的質(zhì)量。在 ProteinGym 基準上的蛋白質(zhì)突變預測任務中發(fā)現(xiàn),中等規(guī)模的模型在準確率上表現(xiàn)反而較好。另外開發(fā) xTirmoPGLM 的團隊也發(fā)現(xiàn)了存在一些非正相關(guān)的案例,即預訓練的性能跟下游任務的性能不相匹配。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

基因組模型:從 DNA 設計到蛋白質(zhì)產(chǎn)量優(yōu)化

基因組模型解決的問題是:我們?nèi)绾稳ドa(chǎn)一個蛋白質(zhì)?

在合成生物學中,生產(chǎn)一個蛋白質(zhì)遵循分子生物學的中心法則:「DNA → RNA → 蛋白質(zhì)」。在細胞中,這個過程由細胞體內(nèi)管控,我們可以通過設計基因來完成這個過程。但核心在于,基因的設計會直接影響蛋白質(zhì)的產(chǎn)量。

在實際應用中,常常會遇到這樣的情況:某個蛋白質(zhì)在功能上表現(xiàn)優(yōu)異,但由于基因設計不佳,其表達量極低,無法滿足工業(yè)化或大規(guī)模應用的需求。此時,AI 模型便可發(fā)揮作用。

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

AI 模型的任務就是實現(xiàn)直接從蛋白質(zhì)序列反推出如何設計 DNA 序列,并令其產(chǎn)量提升。我們團隊提出的模型 ProDMM 就是基于預訓練策略,整體分為兩個階段:

第一個階段,聯(lián)合預訓練學習蛋白質(zhì)和 DNA 的表征。輸入包括蛋白質(zhì)序列和 DNA 序列, 通過 Transformer 架構(gòu)進行語言模型的訓練。目標是同時學習蛋白質(zhì)序列、密碼子序列以及 DNA 序列的表征。第二階段,在下游任務上訓練生成任務,例如:從蛋白質(zhì)到編碼序列(CDS),給定一個蛋白質(zhì)就能夠生成出來一列 DNA 序列。

* 論文地址:Li M, Ren Y, Ye P, et al. Harnessing A Unified Multi-modal Sequence Modeling to unveil Protein-DNA Interdependency[J]. bioRxiv, 2025: 2025.02. 26.640480.

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

從密碼子到非編碼 DNA(NCDS)的目標任務意在完成密碼子優(yōu)化、 5’-UTR 的設計、啟動子設計、代謝通路設計。

其中,代謝通路設計是指為合成一個特定產(chǎn)品服務時,基因中的多個蛋白質(zhì)需要協(xié)同工作。我們需要優(yōu)化整個代謝通路的產(chǎn)物,這一任務是基因組模型才能完成的,因為蛋白質(zhì)模型僅針對單一蛋白質(zhì)進行優(yōu)化,且是上下文無關(guān)的。而基因組模型面臨的一個巨大挑戰(zhàn)是,它需要考慮細胞內(nèi)環(huán)境的相互關(guān)系,這也是基因組模型目前面臨的最大難題。

關(guān)于李明辰博士

本次分享嘉賓上海交通大學自然科學研究院洪亮課題組博士后李明辰,于華東理工大學獲計算機科學與技術(shù)專業(yè)工學博士學位及數(shù)學專業(yè)理學學士學位,主要研究方向為預訓練蛋白質(zhì)語言模型及其微調(diào)。

曾獲上海市優(yōu)秀畢業(yè)生、國家獎學金、「互聯(lián)網(wǎng)+」大學生創(chuàng)新創(chuàng)業(yè)大賽上海賽區(qū)金獎;以第一作者/共同第一作者/通訊作者身份在 NeurIPS 、 Science Advances 、 Journal of Cheminformatics 、 Physical Review Research 等期刊會議上發(fā)表 SCI 論文共 10 篇,參與發(fā)表 SCI 論文 10 篇。

一鍵獲取 2023—2024 年 AI4S 領(lǐng)域高質(zhì)量論文及深度解讀文章 ??

以結(jié)構(gòu)/序列/功能之間的關(guān)系重新定義蛋白質(zhì)語言模型的分類:李明辰博士詳解蛋白質(zhì)語言模型-AI.x社區(qū)

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-8-25 12:57:03修改
收藏
回復
舉報
回復
相關(guān)推薦