AI破譯生命!微軟蛋白質(zhì)研究「超級(jí)加速器」登上Science
來自微軟團(tuán)隊(duì)研究蛋白質(zhì)的「模擬神器」BioEmu,今日登上了Science!
BioEmu能模擬蛋白質(zhì)在平衡狀態(tài)下的各種可能結(jié)構(gòu)集合,為深入理解蛋白質(zhì)功能提供了關(guān)鍵支持。
圖片
圖片
論文鏈接:https://www.science.org/doi/10.1126/science.adv9817
我們的身體由組織和細(xì)胞構(gòu)成,在納米尺度,蛋白質(zhì)是驅(qū)動(dòng)生命活動(dòng)的微型機(jī)器。
人類基因組計(jì)劃能夠測(cè)序DNA。DNA中有稱為基因的片段,基因可以被轉(zhuǎn)錄和翻譯成一串氨基酸,即蛋白質(zhì)。
根據(jù)氨基酸的序列,蛋白質(zhì)會(huì)折疊成三維結(jié)構(gòu)。
實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)很費(fèi)時(shí)間,但AlphaFold的突破,可以精確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
有了可擴(kuò)展的方法來確定蛋白質(zhì)序列和結(jié)構(gòu),但它們的工作原理仍是個(gè)挑戰(zhàn)。
圖片
蛋白質(zhì)的功能是什么?它與結(jié)構(gòu)有什么關(guān)系?
舉個(gè)例子:肌動(dòng)蛋白是形成肌肉纖維的關(guān)鍵蛋白質(zhì)。
像大多數(shù)蛋白質(zhì)一樣,肌動(dòng)蛋白的結(jié)構(gòu)不是固定的。當(dāng)肌動(dòng)蛋白結(jié)合ATP時(shí),它更傾向于閉合。
閉合的肌動(dòng)蛋白喜歡與其他肌動(dòng)蛋白結(jié)合,形成纖維,這些纖維是肌肉的基礎(chǔ)。
蛋白質(zhì)的生物功能取決于它們改變構(gòu)象的能力,不同構(gòu)象會(huì)影響蛋白質(zhì)與其他蛋白質(zhì)的結(jié)合。
圖片
這些構(gòu)象和它們之間的轉(zhuǎn)變可以通過實(shí)驗(yàn)或分子動(dòng)力學(xué)模擬來研究,但這些方法耗時(shí)且昂貴。
模擬一個(gè)小型蛋白質(zhì)僅一微秒的運(yùn)動(dòng),在一臺(tái)現(xiàn)代GPU上需要整整兩天,且?guī)缀蹩床坏矫黠@運(yùn)動(dòng)。
只有模擬更長時(shí)間(如毫秒級(jí)),才能看到重要的功能性變化,如折疊、展開或結(jié)合,但這需要數(shù)年的計(jì)算時(shí)間,難以大規(guī)模應(yīng)用。
微軟研究AI for Science團(tuán)隊(duì)推出了BioEMU。
使用時(shí),只需輸入蛋白質(zhì)序列,BioEMU就能生成大量蛋白質(zhì)結(jié)構(gòu)樣本,預(yù)測(cè)蛋白質(zhì)的各種性質(zhì)。
它可以展示一個(gè)受體蛋白在兩個(gè)已知結(jié)構(gòu)之間的運(yùn)動(dòng),預(yù)測(cè)大尺度結(jié)構(gòu)變化、局部展開以及藥物分子結(jié)合位點(diǎn)的形成。
BioEMU還能模擬毫秒級(jí)分子動(dòng)力學(xué)模擬的結(jié)果,傳統(tǒng)模擬需要幾年GPU時(shí)間,而BioEMU只需不到1小時(shí)GPU時(shí)間,速度提升10萬倍!
網(wǎng)友評(píng)論,「微軟研究院的突破令人振奮!在如此規(guī)模上對(duì)蛋白質(zhì)平衡集合建模,對(duì)藥物發(fā)現(xiàn)和疾病理解具有重大意義。BioEmu將數(shù)年的結(jié)構(gòu)模擬濃縮到數(shù)小時(shí)內(nèi),是一個(gè)巨大的飛躍?!?/p>
圖片
「我愛科學(xué),還有有史以來最偉大的發(fā)明家,正在以指數(shù)級(jí)改變我的生活?!?/p>
圖片
模擬蛋白質(zhì)動(dòng)態(tài)結(jié)構(gòu)
蛋白質(zhì)的功能與其動(dòng)態(tài)變化的結(jié)構(gòu)密切相關(guān)。
它們可以根據(jù)需求靈活切換不同形狀,這些變化是其發(fā)揮作用的基礎(chǔ)。
BioEmu是一個(gè)模擬器,通過預(yù)測(cè)蛋白質(zhì)在不同狀態(tài)下的結(jié)構(gòu),讓我們更清晰地了解其工作機(jī)制。
圖片
BioEmu 1.1經(jīng)過更長時(shí)間、更高強(qiáng)度的三階段訓(xùn)練,運(yùn)用了海量數(shù)據(jù):
- 大規(guī)模蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù);
 - 超過200毫秒的分子動(dòng)力學(xué)(MD)模擬數(shù)據(jù),相當(dāng)于計(jì)算機(jī)模擬蛋白質(zhì)的運(yùn)動(dòng)軌跡;
 - 50多萬條蛋白質(zhì)穩(wěn)定性測(cè)量數(shù)據(jù)。
 
圖片
因此,BioEmu 1.1能夠更準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)的行為,捕捉與功能相關(guān)的結(jié)構(gòu)變化。
像大規(guī)模結(jié)構(gòu)運(yùn)動(dòng);局部結(jié)構(gòu)解開;隱匿密口袋(cryptic pockets)的形成,成功率顯著提升。
圖片
超快模擬,誤差極低
BioEmu 1.1能模擬毫秒級(jí)別的分子動(dòng)力學(xué)平衡分布,速度極快。
傳統(tǒng)方法可能需要數(shù)年GPU時(shí)間,而BioEmu 1.1僅需幾小時(shí)即可完成,極大提升了研究效率。
圖片
BioEmu 1.1在預(yù)測(cè)蛋白質(zhì)穩(wěn)定性和突變效應(yīng)表現(xiàn)出色。
它讓實(shí)驗(yàn)測(cè)量的穩(wěn)定性數(shù)據(jù)和模擬出的結(jié)構(gòu)集合更匹配:
- 預(yù)測(cè)誤差小于1千卡/摩爾;
 - 在大量測(cè)試數(shù)據(jù)中,與實(shí)驗(yàn)測(cè)量的穩(wěn)定性數(shù)據(jù)相關(guān)性超過0.6;
 - 訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的序列相似度約為50%,預(yù)測(cè)依然精準(zhǔn)。
 
通過分析結(jié)構(gòu)樣本,我們可以了解突變對(duì)蛋白質(zhì)穩(wěn)定性的影響。
圖片
此外,BioEmu 1.1還能準(zhǔn)確預(yù)測(cè)單個(gè)和雙重突變的穩(wěn)定性變化。
即使面對(duì)復(fù)雜的突變情況,它也能通過精細(xì)的數(shù)據(jù)訓(xùn)練,捕捉細(xì)微差異,做出可靠預(yù)測(cè)。
圖片
BioEmu的訓(xùn)練依托于超過100毫秒的分子動(dòng)力學(xué)模擬數(shù)據(jù)集,涵蓋數(shù)千種蛋白質(zhì)系統(tǒng)和數(shù)萬個(gè)突變體。
這個(gè)數(shù)據(jù)集兼具序列多樣性和長時(shí)間模擬的優(yōu)勢(shì),數(shù)據(jù)量大、質(zhì)量高,為BioEmu的出色表現(xiàn)提供了堅(jiān)實(shí)基礎(chǔ)。
圖片
BioEMU為大規(guī)模研究蛋白質(zhì)功能打開了大門,助力藥物發(fā)現(xiàn)、蛋白質(zhì)設(shè)計(jì)。
BioEMU已開源(MIT許可證),可在Azure AI Foundry和Colab Fold使用。
開發(fā)者可以從GitHub獲取代碼,從Hugging Face獲取模型權(quán)重。
參考資料:
https://x.com/MSFTResearch/status/1943373860012744737
https://www.science.org/doi/10.1126/science.adv9817















 
 
 













 
 
 
 