偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一個模型裝下整個物種樹！伯克利GPN-Star斬獲基因預(yù)測雙料冠軍

2025-10-15 09:11:41

人工智能新聞

加州大學(xué)伯克利分校等機(jī)構(gòu)的研究人員，近日推出了一種全新的基因組語言模型GPN-Star，可以將全基因組比對和物種樹信息裝進(jìn)大模型，在人類基因變異預(yù)測方面達(dá)到了當(dāng)前最先進(jìn)的水平。

讓大模型讀懂物種關(guān)系，這可能嗎？

近日，加州大學(xué)伯克利分校等機(jī)構(gòu)的研究人員，推出了一個全新、通用且功能強(qiáng)大的GLM框架GPN-Star。

論文地址：https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了傳統(tǒng)GLMs又大又燒算力、且在一些預(yù)測任務(wù)中不如傳統(tǒng)進(jìn)化模型等短板。

同時，它也克服了GPN-MSA在新數(shù)據(jù)場景下泛化能力不足等弱點(diǎn)。

GPN-Star的三點(diǎn)重要改進(jìn)

GPN-Star（Genomic Pretrained Network with Species Tree and Alignment Representations，融合物種進(jìn)化樹與序列比對表示的基因組預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)），是一種基因組語言模型，它的靈感來自經(jīng)典進(jìn)化模型，目標(biāo)是畫出演化軌跡。

研究人員采用了專門的Transformer架構(gòu)，既能夠捕捉到WGA中的進(jìn)化信號，又能夠融入基因組上下文信息（圖1A）。

該模型是純編碼器，以掩碼語言建模（MLM）為目標(biāo)訓(xùn)練，輸入跨物種WGA窗口和系統(tǒng)發(fā)育樹。

相比GPN-MSA，GPN-Star實(shí)現(xiàn)了三點(diǎn)升級：

訓(xùn)練數(shù)據(jù)更加多樣
GPN-MSA僅在人類基因組上進(jìn)行掩碼訓(xùn)練，而GPN-Star則在多個物種中預(yù)測被掩碼的堿基，顯著擴(kuò)大了訓(xùn)練數(shù)據(jù)的規(guī)模與多樣性。
顯式引入物種間系統(tǒng)發(fā)育關(guān)系
GPN-Star通過定制的注意力模塊，可能更貼近生物學(xué)實(shí)現(xiàn)更精準(zhǔn)建模。
靈活適配任意比對數(shù)據(jù)
無需像GPN-MSA手動剔除近緣物種。

GPN-Star是一個通用且高度靈活的框架，可適用于任何物種的比對數(shù)據(jù)，僅需最小程度的超參數(shù)調(diào)優(yōu)即可獲得強(qiáng)大性能。

研究人員先將其在人類基因組落地，分別用目前最大規(guī)模的脊椎動物、哺乳動物與靈長類WGA數(shù)據(jù)分別訓(xùn)練了三個GPN-Star模型(V)、(M)、(P)（圖1B）。

研究人員重點(diǎn)分析了2億參數(shù)版本，結(jié)果顯示其計(jì)算資源開銷遠(yuǎn)低于之前的GLM模型。

與以往超長時跨度（例如從原核生物到人類）的GLM不同，GPN-Star聚焦于近緣系統(tǒng)發(fā)育距離（圖1B）。

很多情況下，建模較短進(jìn)化歷史往往更具優(yōu)勢。尤其是在解釋某些類型的遺傳變異時，捕捉近期的進(jìn)化約束效果更佳（圖1C）。

致病性編碼變異預(yù)測

研究人員系統(tǒng)評估了GPN-Star在一系列標(biāo)準(zhǔn)測試集中的預(yù)測能力。

對比PhyloP、PhastCons、CADD、以及新一代多物種GLM（如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA）之后，GPN-Star (V) 在精確率-召回曲線面積（AUPRC）方面表現(xiàn)最佳，與蛋白語言模型 ESM-1b相當(dāng)（圖 2A）。

研究人員用COSMIC數(shù)據(jù)庫評估了GPN-Star體細(xì)胞錯義變異的預(yù)測性能，結(jié)果GPN-Star(V)明顯優(yōu)于所有對比模型，表現(xiàn)出極強(qiáng)的體細(xì)胞致病性預(yù)測能力（圖2B）。

研究人員還在ProteinGym的31個DMS數(shù)據(jù)集上測試，GPN-Star(V)為基因組級最佳，僅略遜蛋白專用ESM-1b（圖2D）。

在非編碼任務(wù)中，研究人員重點(diǎn)評估致病非編碼變異。

評測用OMIM與HGMD，評測結(jié)果GPN-Star（M）雙基準(zhǔn)奪冠（圖2E、F）。

考慮到啟動子區(qū)域在轉(zhuǎn)錄起始和基因調(diào)控中的關(guān)鍵作用，研究人員還評估了GPN-Star在OMIM啟動子變異中的表現(xiàn)，并啟動了三個子專用模型：PromoterAI、SpeciesLM和GPN-Promoter。

如圖2H所示，GPN-Star（M）在預(yù)測性能上明顯優(yōu)于所有對比模型，尤其是在與其他啟動子模型的比較中，其提升幅度尤為顯著。

定位錯義變異

為了進(jìn)一步評估GPN-Star的實(shí)用價值，研究人員還測試了它在對來自英國生物銀行（UK Biobank）65個性狀的GWAS（全基因組關(guān)聯(lián)研究）精細(xì)定位錯義變異中，區(qū)分潛在因果變異與非因果變異的能力。

在所有參評模型中，GPN-Star（M）在區(qū)分這些精細(xì)定位的錯義變異中表現(xiàn)最好（圖2C）。

在對英國生物銀行的83個性狀的GWAS精細(xì)定位數(shù)據(jù)的基準(zhǔn)測試中，GPN-Star（M）再次優(yōu)于所有其他模型（圖2G）。

對于位于啟動子區(qū)域的精細(xì)定位變異，GPN-Star（M）再次超越了所有模型，包括PromoterAI、SpeciesLM和GPN-Promoter（圖2H）。

強(qiáng)大的全基因組變異解讀框架

上述結(jié)果表明，GPN-Star是一個強(qiáng)大、多用途的全基因組變異解讀框架。

研究人員在多個基準(zhǔn)測試中，觀察到基于更長進(jìn)化時間尺度訓(xùn)練的模型，更容易預(yù)測編碼變異以及低頻、效應(yīng)大的變異。

而非編碼變異以及高頻、效應(yīng)較小的變異，則更適合使用在較短進(jìn)化時間尺度上訓(xùn)練的模型進(jìn)行預(yù)測。

PhyloP和PhastCons分?jǐn)?shù)在三種進(jìn)化時間尺度下也呈現(xiàn)出類似趨勢，但在每一種時間尺度下，GPN-Star表現(xiàn)都優(yōu)于二者（圖2I）。

考慮到GPN-Star在致病變異和精細(xì)定位變異預(yù)測中的強(qiáng)勁表現(xiàn)，研究人員進(jìn)一步探索了它在稀有變異關(guān)聯(lián)分析（RVAT）中的應(yīng)用潛力，發(fā)現(xiàn)GPN-Star提升了稀有變異關(guān)聯(lián)分析的能力。

學(xué)習(xí)基因組功能元件及依賴關(guān)系

GLM模型可以通過預(yù)測被遮蔽的核苷酸來學(xué)習(xí)強(qiáng)大的序列表示。

為探究這一點(diǎn)，研究人員可視化了基因區(qū)、cCRE和背景區(qū)的基因組窗口嵌入（圖4A）。

研究發(fā)現(xiàn)，保守序列窗口的嵌入在功能區(qū)域上的聚類性更強(qiáng)（圖4B），說明GPN-Star在預(yù)測時能識別基因組的關(guān)鍵功能元素。

為了進(jìn)一步分析GPN-Star是否理解基因組「語法」，研究人員系統(tǒng)地對序列中每個位置進(jìn)行突變，并計(jì)算該變異對其它位置預(yù)測概率的影響。

在編碼酶酪氨酸羥化酶的TH基因啟動子及首個外顯子區(qū)域中，研究人員觀察到兩個強(qiáng)依賴模塊：

一個在編碼區(qū)，另一個在轉(zhuǎn)錄因子CREB的結(jié)合位點(diǎn)，該位點(diǎn)突變已知會引發(fā)酪氨酸羥化酶缺乏癥和肌張力障礙（圖4C）。

在HBA1基因中，研究人員也觀察到跨外顯子的依賴關(guān)系。

該基因的內(nèi)含子極短，能夠完整落入模型上下文窗口內(nèi)。剪接供體與受體區(qū)域間的依賴關(guān)系尤其顯著，與已有研究結(jié)果一致。

隨后研究人員分析了LDLR啟動子，該區(qū)域與家族性高膽固醇血癥相關(guān)，且已通過MPRA等方法廣泛研究。

模型可根據(jù)堿基依賴圖中的塊結(jié)構(gòu)準(zhǔn)確預(yù)測TFBS的位置（圖4D），同時還能識別TFBS之間的依賴關(guān)系。

最后，研究人員分析了一個被認(rèn)為受到靈長類特異性進(jìn)化約束的開放區(qū)域。

在該區(qū)域的一個潛在TEAD4結(jié)合位點(diǎn)附近，GPN-Star（P）模型預(yù)測到了最強(qiáng)的依賴信號。

這些結(jié)果表明，GPN-Star能夠通過協(xié)同進(jìn)化信號學(xué)習(xí)有意義的堿基依賴結(jié)構(gòu)，且與已知功能依賴一致。

這相較于傳統(tǒng)的保守性評分方法（如PhyloP和PhastCons）是一次顯著的進(jìn)步。

為了更直接地評估模型預(yù)測與基因組中進(jìn)化約束之間的關(guān)聯(lián)，研究人員利用了gnomAD v3.1.2提供的等位基因頻率數(shù)據(jù)，該版本匯總了來自76,156名個體的全基因組測序樣本。

研究人員重點(diǎn)將GPN-Star與PhyloP和PhastCons進(jìn)行對比，這兩種模型同樣基于全基因組比對（WGA）數(shù)據(jù)來學(xué)習(xí)進(jìn)化約束。

為了評估模型對等位基因頻率與約束關(guān)系的捕捉能力，研究人員選取了這三種模型在脊椎動物、哺乳動物和靈長類三個不同進(jìn)化時間尺度上的版本，對gnomAD v3中第22號染色體的全部變異進(jìn)行了預(yù)測（該染色體未用于GPN-Star模型訓(xùn)練）。

隨后，研究人員按照每個模型的評分分位數(shù)對變異進(jìn)行分組，并對各組中的平均等位基因頻率進(jìn)行比較。

如圖5A所示，在所有三個時間尺度下，GPN-Star評分最低分位數(shù)中的變異平均頻率顯著低于對應(yīng)的PhyloP和PhastCons分組，表明GPN-Star更準(zhǔn)確地捕捉了人類基因組中的選擇性約束。

研究人員進(jìn)一步進(jìn)行量化分析，關(guān)注模型評分分布中「最具約束力」的尾部區(qū)間。如圖5B所示，三種GPN-Star模型在稀有變異富集上均明顯優(yōu)于PhyloP、PhastCons和CADD。

在GPN-Star各版本中，基于脊椎動物訓(xùn)練的模型整體表現(xiàn)最佳，甚至超過了同樣以脊椎動物數(shù)據(jù)訓(xùn)練的GPN-MSA。

進(jìn)一步按分子功能后果對變異進(jìn)行分層分析后，GPN-Star在所有類別中均取得最高富集度。

其中，GPN-Star（V）在錯義變異中表現(xiàn)最優(yōu)，而GPN-Star（M）則在同義與非編碼變異方面領(lǐng)先，這一趨勢與先前基準(zhǔn)測試中的觀察結(jié)果一致。

研究人員研究了上下文相關(guān)的突變率差異對模型預(yù)測的影響，發(fā)現(xiàn)控制突變率變異有助于提升變異效應(yīng)預(yù)測的準(zhǔn)確性。

由于GPN-Star是在真實(shí)基因組序列上訓(xùn)練的，其預(yù)測自然同時反映了突變過程和選擇過程的綜合影響。

研究人員在致病性預(yù)測和復(fù)雜性狀遺傳力方面的結(jié)果證明了GPN-Star在人類遺傳學(xué)中的實(shí)用性。

將進(jìn)化數(shù)據(jù)與功能基因組數(shù)據(jù)結(jié)合，開發(fā)更強(qiáng)大的多模態(tài)基因語言模型，是未來非常值得探索的方向。

責(zé)任編輯：張燕妮來源：新智元

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="1bymk"><track id="1bymk"></track></cite>

<var id="1bymk"><button id="1bymk"></button></var>

<style id="1bymk"></style>