偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta打造首個「蛋白質宇宙」全景圖!用150億參數(shù)語言模型,預測了6億+蛋白質結構

人工智能
在過去的幾十年里,隨著我們對生活在人類體內、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學一直是一個非常活躍的領域。

?Meta在蛋白質結構的探索上又前進了一步!

這次他們瞄準的是更大的目標領域:宏基因組學。

圖片

蛋白質宇宙的「暗物質」

根據(jù)NIH人類基因組研究所的解釋,宏基因組學(Metagenomics,又譯宏基因組學)研究從大宗樣品中的所有生物體(通常是微生物)中分離和分析的整個核苷酸序列的結構和功能,通常用于研究特定的微生物群落,比如居住在人類皮膚上、土壤中或水樣中的微生物身上的蛋白質。

在過去的幾十年里,隨著我們對生活在人類體內、身上以及環(huán)境中的所有微生物有更多的了解,宏基因組學一直是一個非常活躍的領域。

由于宏基因組學的研究對象無所不包,遠遠超過了構成動植物生命的蛋白質,可以說是地球上最不為人知的蛋白質。

為此,Meta AI用上了最新的大型語言模型、打造了一個超過6億個宏基因組結構的數(shù)據(jù)庫,并提供一個API,讓科學家輕松檢索與工作相關的特定蛋白質結構。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

Meta表示,解碼宏基因組結構,有助于解開長期存在的人類進化史之謎,幫助人類更有效地治愈疾病、凈化環(huán)境。

蛋白質結構預測,提速60倍!

宏基因組學主要研究如何從所有這些在環(huán)境中共存的生物體中獲得DNA,這有點像一盒拼圖,但并不只是一盒拼圖,實際上是所有10組較小的拼圖堆在一起,放在一個盒子里。

宏基因組學同時獲取這10種生物的基因組時,實際上是試圖同時解決10個謎題,了解同一個基因組盒子里的所有不同的拼圖。

正是這種結構和生物作用的未知性,通過宏基因組學發(fā)現(xiàn)的新蛋白質,甚至可以稱為蛋白質宇宙的「暗物質」。

圖片

近些年,基因測序方面的進步讓編目數(shù)十億宏基因組蛋白質序列成為可能。

然而,盡管已經知道這些蛋白質序列的存在,但想要進一步了解它們的生物學特性,卻是一個巨大的挑戰(zhàn)。

圖片

為了要得到這些數(shù)以億計的蛋白質序列結構,預測速度的突破是至關重要的。

這個過程,即便是用目前最先進的工具,再搭上一個大型研究機構的計算資源,也可能需要數(shù)年時間。

于是,Meta訓練了一個大型語言模型,來學習進化模式,并直接從蛋白質序列中端到端地生成準確的結構預測,在保持準確性的同時,預測速度比當前最先進的方法快60倍。

事實上,借助于這種新的結構預測能力,Meta在短短兩周內用一個由大約2000個GPU組成的集群上,預測出了圖譜中超過6億個宏基因組蛋白質的序列。

圖片

Meta發(fā)布的宏基因組圖譜名為ESM Atlas,幾乎涵蓋了整個宏基因組序列公共數(shù)據(jù)庫MGnify90的預測。

Meta表示,ESM Atlas是迄今為止最大的高分辨率預測結構數(shù)據(jù)庫,比現(xiàn)有蛋白質結構數(shù)據(jù)庫大3倍,而且是第一個全面和大規(guī)模地覆蓋宏基因組蛋白質的數(shù)據(jù)庫。

這些蛋白質結構為了解自然界的廣泛性和多樣性提供了一個前所未有的視角,并有可能加速發(fā)現(xiàn)蛋白質在醫(yī)學、綠色化學、環(huán)境應用和可再生能源等領域的實際應用。

此次用于預測蛋白質結構的新語言模型擁有150億個參數(shù),是迄今為止最大的「蛋白質語言模型」。

這個模型實際上是Meta今年7月發(fā)布的ESM Fold蛋白質預測模型的延續(xù)。

在當初ESMFold發(fā)布時,已經和AlphaFold2、RoseTTAFold等主流蛋白質模型不相上下。但ESMFold預測速度要比AlphaFold2快一個數(shù)量級!

一下說數(shù)量級可能不好理解三者之間速度的對比,看看下面這張圖就懂了。

圖片

而這次ESM Atlas數(shù)據(jù)庫的發(fā)布,更是讓150億參數(shù)的大語言模型有了最廣泛的用武之地。

由此,科學家便可以在數(shù)億個蛋白質的規(guī)模上搜索和分析以前沒有被定性的結構,并發(fā)現(xiàn)在醫(yī)學和其他應用中有用的新蛋白質。

語言模型,真是「萬能」的

就像文本一樣,蛋白質也可以被寫成字符序列。

其中,構成蛋白質的每個「字符」都對應于20個標準化學元素之一——氨基酸。而每個氨基酸又都有不同的特性。

但想要讀懂這種「生物學語言」是個很大的挑戰(zhàn)。

圖片

雖然就像剛剛說的,蛋白質序列和一段文字都可以寫成字符,但它們之間卻存在著深刻而根本的區(qū)別。

一方面,這些「字符」的不同組合方式的數(shù)量是個天文數(shù)字。例如,對于由200個氨基酸組成的蛋白質,有20^200種可能的序列,比目前可探索的宇宙中的原子數(shù)量還要多。

另一方面,氨基酸的每個序列都會根據(jù)物理定律折疊成一個三維形狀。而且,不是所有的序列都會折疊成連貫的結構,其中有很多會折疊成無序的形式,但正是這種讓人捉摸不透形狀決定了蛋白質的功能。

舉個例子,如果一個位置出現(xiàn)了某種氨基酸,而這種氨基酸通常又會與另一個位置的某種氨基酸配對。那么,在之后的折疊結構中,它們就很可能存在相互作用。

而人工智能,便可以通過觀察蛋白質序列來可以學習和閱讀這些模式,進而推斷出蛋白質的實際結構。

在2019年,Meta提出了語言模型學習蛋白質屬性的證據(jù),例如它們的結構和功能。

圖片

論文地址:https://www.pnas.org/doi/10.1073/pnas.2016239118

利用掩膜這種自監(jiān)督學習形式訓練的模型,可以正確地填補一段文字中的空白,如「要不要__,這是________」。

通過這種方法,Meta在數(shù)百萬天然蛋白質序列的基礎上上訓練了一個語言模型,從而實現(xiàn)了填補蛋白質序列中的空白,如「GL_KKE_AHY_G」。

實驗表明,這種模型經過訓練,可以發(fā)現(xiàn)關于蛋白質的結構和功能的信息。

2020年,Meta發(fā)布ESH1b,這是當時最先進的蛋白質語言模型,目前已被用于各種應用,包括幫助科學家預測新冠病毒的進化,以及發(fā)現(xiàn)遺傳病的病因。

圖片

論文地址:https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1

現(xiàn)在,Meta擴大了這種方法的規(guī)模,創(chuàng)建了下一代蛋白質語言模型ESM-2,這是一個150億參數(shù)的大模型。

隨著模型從800萬個參數(shù)擴展到1500萬個參數(shù),內部表征中出現(xiàn)的信息能夠在原子分辨率下進行三維結構預測。

讀懂「蛋白質語言」,讓生命更透明

從幾十億年前起,生物的進化就形成了一種蛋白質語言,這種語言可以通過簡單的構件形成復雜而動態(tài)的分子機器。學習閱讀蛋白質的語言是我們理解自然界的一個重要步驟。

AI可以為我們提供理解自然世界的新工具,就像顯微鏡一樣,讓我們以幾乎無限小的尺度來觀察世界,并開啟了對生命的全新理解。AI可以幫助我們理解自然界多樣性的巨大范圍,并以一種新的方式看待生物學。

目前,大部分的AI研究都是讓計算機以類似于人類的方式來理解世界。蛋白質的語言是人類無法理解的,甚至最強大的計算工具也無法理解。

所以,Meta的這項工作的意義在于揭示了AI在跨領域時的巨大優(yōu)勢,即:在機器翻譯、自然語言理解、語音識別和圖像生成方面取得進展的大型語言模型,也能夠學習有關生物學的深刻信息。

此次Meta公開這項工作,分享數(shù)據(jù)和成果,并以他人的見解為基礎,希望這個大規(guī)模結構圖集和快速蛋白質折疊模型的發(fā)布,可以推動進一步的科學進步,使我們更好地了解周圍的世界。

參考資料:

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog

責任編輯:武曉燕 來源: 新智元
相關推薦

2022-12-23 15:04:33

Meta模型

2021-07-24 10:21:46

模型人工智能深度學習

2023-07-06 16:59:56

英特爾

2022-11-02 13:42:08

AI語言模型

2023-07-06 13:23:49

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2023-03-03 14:00:00

模型深度學習

2025-02-04 11:11:07

2025-07-14 16:59:06

AI蛋白質模型

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2022-10-08 12:38:23

模型開源

2024-06-26 13:21:50

2023-08-08 10:17:16

人工智能

2020-10-26 10:51:09

人工智能AI語言

2024-04-22 07:20:00

訓練開源

2023-07-18 09:54:43

模型語言

2023-07-13 12:53:02

FrameDiffAI

2022-12-25 13:36:47

論文

2025-09-28 09:12:00

2021-11-22 09:39:21

深度學習神經網絡人工智能
點贊
收藏

51CTO技術棧公眾號