偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

幾何機(jī)器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實(shí)?

人工智能 機(jī)器學(xué)習(xí)
2020年,在幾何和圖形機(jī)器學(xué)習(xí)論文中表現(xiàn)突出的,當(dāng)屬生物化學(xué)、藥物設(shè)計(jì)和結(jié)構(gòu)生物學(xué)。這可能是第一次,我們終于發(fā)現(xiàn)這些機(jī)器學(xué)習(xí)方法對(duì)基礎(chǔ)科學(xué)的影響。本文中,我將重點(diǎn)介紹三篇論文,這三篇論文是過去一年內(nèi)我感觸最深的論文(筆者是其中一篇論文的共同作者)。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

[[389626]]

 2020年,在幾何和圖形機(jī)器學(xué)習(xí)論文中表現(xiàn)突出的,當(dāng)屬生物化學(xué)、藥物設(shè)計(jì)和結(jié)構(gòu)生物學(xué)。這可能是第一次,我們終于發(fā)現(xiàn)這些機(jī)器學(xué)習(xí)方法對(duì)基礎(chǔ)科學(xué)的影響。本文中,我將重點(diǎn)介紹三篇論文,這三篇論文是過去一年內(nèi)我感觸最深的論文(筆者是其中一篇論文的共同作者)。

 

幾何機(jī)器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實(shí)?

 

幾何機(jī)器學(xué)習(xí)方法曾被刊登在《細(xì)胞》和《自然方法學(xué)》雜志2020年2月刊的封面上。

第一篇論文:

J. M. Stokes et al., A deep learning approach to antibiotic discovery (2020) Cell 180(4):688–702.

關(guān)于什么?基于圖形神經(jīng)網(wǎng)絡(luò)研發(fā)抗菌藥物的深度學(xué)習(xí)操作流程。

如何操作?經(jīng)訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)大腸桿菌在多于2000個(gè)已知抗菌活性分子(包括批準(zhǔn)抗生素、動(dòng)植物提取物)數(shù)據(jù)集上的生長(zhǎng)抑制。這種預(yù)測(cè)只是基于分子圖,并不依賴于任何其他輔助信息,如藥物作用機(jī)制等。

訓(xùn)練模型被送到藥物再利用中心,經(jīng)調(diào)查研究,模型中含有約6000種藥物分子,前100種分子被選作試驗(yàn)測(cè)試對(duì)象。令人吃驚的是,一種實(shí)驗(yàn)抗糖尿藥物halicin(海利霉素)具備有效的抗菌效果,能夠消滅實(shí)驗(yàn)小鼠體內(nèi)的多種抗藥病菌。

顯然,圖神經(jīng)網(wǎng)絡(luò)具備良好普適性,因?yàn)閔alicin分子不同于傳統(tǒng)抗生素。但是在這篇論文中,還并不清楚這種預(yù)測(cè)能力是否可以歸結(jié)為預(yù)測(cè)一種抗菌作用的簡(jiǎn)單模式(細(xì)胞膜去極化)。

此外,研究人員還對(duì)ZINC15數(shù)據(jù)庫中超過1億個(gè)分子結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)篩選,ZINC15數(shù)據(jù)庫是專門為虛擬篩選而準(zhǔn)備的商業(yè)可用化合物數(shù)據(jù)庫,通常為藥物設(shè)計(jì)者所用。在挑選的化合物中,物理試驗(yàn)鑒定出8種具有抗菌活性,其中2種對(duì)多種病原體均有較強(qiáng)的活性。

 

幾何機(jī)器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實(shí)?

 

研發(fā)藥物的一大挑戰(zhàn)是,搜索空間很大,但是只有少數(shù)分子能夠在實(shí)驗(yàn)室中測(cè)試。應(yīng)用于分子圖的圖神經(jīng)網(wǎng)絡(luò)可用來預(yù)測(cè)分子屬性,從而對(duì)所選藥物進(jìn)行虛擬篩查。

為何重要?巨大的搜索空間是研發(fā)藥物的一大挑戰(zhàn),據(jù)估計(jì),其中至少包含1060個(gè)分子。只有很少一部分分子能夠在實(shí)驗(yàn)室中測(cè)試,挑選較有可能性的分子至關(guān)重要。通過計(jì)算方法完成挑選的過程稱為“虛擬篩選”。

過去,機(jī)器學(xué)習(xí)方法經(jīng)常用于分子的虛擬篩選,更廣泛來說,協(xié)助不同階段的藥物研發(fā),這是第一次在完全沒有任何人類預(yù)假設(shè)的情況下,從零開始識(shí)別一種全新抗生素的過程。

大多數(shù)經(jīng)由電腦模擬的、基于機(jī)器學(xué)習(xí)的藥物研發(fā)論文結(jié)果都僅由計(jì)算機(jī)預(yù)測(cè),但是斯托克斯等人的論文與之不同,他們的論文不僅鑒別有潛力的藥物分子,而且在實(shí)驗(yàn)動(dòng)物上廣泛驗(yàn)證它們?cè)诨铙w內(nèi)的活性。

雖然在原則上這種方法只可以用于尋找治療癌癥等疾病的方法,但是對(duì)于抗生素的關(guān)注非常及時(shí):濫用抗生素導(dǎo)致抗藥微生物形成,成為威脅全人類健康的夢(mèng)魘,而且可能出現(xiàn)高傳染性的細(xì)菌感染,現(xiàn)有藥物無法治療,這個(gè)現(xiàn)象肯定會(huì)出現(xiàn),只是時(shí)間問題而已。

更多相關(guān)內(nèi)容:《量子雜志》熱搜文章和吉姆·柯林斯(Jim·Collins)2020年TED演講視頻(柯林斯實(shí)驗(yàn)室是本年TED“無畏項(xiàng)目”之一,我們的CETI項(xiàng)目也屬于“無畏項(xiàng)目”)。

第二篇論文:

Jumper et al., High accuracy protein structure predictionusing deep learning (2020) a.k.a. AlphaFold 2.0 (尚未提供全文)

關(guān)于什么?根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu),這是生物信息學(xué)領(lǐng)域眾所周知的一個(gè)難題。

如何操作?AlphaFold 2.0是一個(gè)“基于注意力的神經(jīng)網(wǎng)絡(luò)”(類似于變壓器結(jié)構(gòu)),對(duì)蛋白質(zhì)數(shù)據(jù)庫中17萬種蛋白質(zhì)結(jié)構(gòu)和未知結(jié)構(gòu)蛋白質(zhì)序列進(jìn)行端對(duì)端訓(xùn)練。但是DeepMind尚未公布算法細(xì)節(jié),我們只能假設(shè)它是如何工作的。

在這篇文章中,蛋白質(zhì)被建模為空間聯(lián)系圖,神經(jīng)網(wǎng)絡(luò)“解釋該圖的結(jié)構(gòu),同時(shí)對(duì)正在構(gòu)建的隱圖進(jìn)行推理”。這聽起來很像具備潛在圖學(xué)習(xí)功能的圖神經(jīng)網(wǎng)絡(luò),只不過其中可能包含更多附加細(xì)節(jié)和細(xì)微差異,因?yàn)檫@種方法也使用進(jìn)化序列信息,所以我將其歸類為“幾何機(jī)器學(xué)習(xí)”。

據(jù)報(bào)道,訓(xùn)練的計(jì)算復(fù)雜度很高(相當(dāng)于數(shù)年的GPU時(shí)間),而對(duì)結(jié)構(gòu)的預(yù)測(cè)不過是“幾天的事”。

 

[[389627]]

 

魔蛇玩具形象地展現(xiàn)了蛋白質(zhì)折疊,在蛋白質(zhì)折疊過程中氨基酸的一維序列折疊成復(fù)雜的3D形狀,賦予蛋白質(zhì)功能

為何重要?蛋白質(zhì)可以說是最重要的生物分子,經(jīng)常被稱為“生命分子”,我們還未見過任何不以蛋白質(zhì)為基礎(chǔ)的生命形式。蛋白質(zhì)在DNA內(nèi)編碼,在體內(nèi)具備各種功能,包括抵抗病原體(抗生素)、形成皮膚結(jié)構(gòu)(膠原蛋白)、輸送氧氣到細(xì)胞(血紅蛋白)、催化化學(xué)反應(yīng)(酶)及信號(hào)傳遞(許多激素是蛋白質(zhì))。

從化學(xué)角度來講,蛋白質(zhì)是生物聚合物或者由氨基酸組成的鏈,在靜電作用下折疊成復(fù)雜的3D結(jié)構(gòu)。正是這種結(jié)構(gòu)賦予蛋白質(zhì)功能,而且這種結(jié)構(gòu)對(duì)理解蛋白質(zhì)是如何工作以及做什么是非常必要的。蛋白質(zhì)一般是藥物治療的靶點(diǎn)(藥物是設(shè)計(jì)成與靶點(diǎn)相結(jié)合的小分子),所以制藥業(yè)極為關(guān)注該方面研究。

現(xiàn)代技術(shù)可以對(duì)蛋白質(zhì)進(jìn)行排列(即形成氨基酸串),而且成本較低、技術(shù)可靠,不過獲取3D結(jié)構(gòu)主要還是依賴于傳統(tǒng)的結(jié)晶技術(shù),盡管結(jié)晶技術(shù)不穩(wěn)定、耗時(shí)長(zhǎng)、成本高。目前,已知序列的蛋白質(zhì)大約有2億種,已知結(jié)構(gòu)的蛋白質(zhì)至少有20萬種蛋白質(zhì)。

一直以來,人們認(rèn)為氨基酸序列中包含了足夠多預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的信息,但是現(xiàn)在這個(gè)觀點(diǎn)站不住腳了。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵技術(shù)分析大賽(CASP)是類似于ImageNet的競(jìng)賽,自1994年開始舉辦,參賽者需要預(yù)測(cè)未知蛋白質(zhì)的3D結(jié)構(gòu),這個(gè)大賽已成為生物信息實(shí)驗(yàn)室和制藥公司的經(jīng)典測(cè)試平臺(tái)。

2018年,DeepMind的新技術(shù)AlphaFold在CASP大賽中脫穎而出,獲得比賽勝利,震驚研究界。2020版AlphaFold 2.0效果更好,均方根誤差僅1.6埃,按照結(jié)構(gòu)生物學(xué)標(biāo)準(zhǔn)可以說是非常精確,遠(yuǎn)遠(yuǎn)超過其他競(jìng)爭(zhēng)對(duì)手。這是蛋白質(zhì)科學(xué)領(lǐng)域里的“ImageNet時(shí)刻”。

盡管在關(guān)鍵問題上取得了驚人的進(jìn)展,但是媒體大肆炒作、用詞隨意,歪曲了AlphaFold的功能。特別是在藥物設(shè)計(jì)應(yīng)用上,結(jié)合部位通常需要達(dá)到亞埃精確度,但是這項(xiàng)技術(shù)尚未實(shí)現(xiàn)該功能。

更多相關(guān)內(nèi)容:每個(gè)人都熱切期待解釋該算法的論文發(fā)表。萊克斯·弗里德曼(Lex Fridman)在YouTube視頻中進(jìn)行了很好的概括,穆罕默德·艾爾庫雷希(Mohammed AlQuraishi)在博客中介紹了AlphaFold在2018年的影響。

第三篇論文:

P. Gainza et al., Deciphering interactionfingerprints from protein molecular surfaces using geometric deep learning (2020) Nature Methods 17(2):184–192.

關(guān)于什么?一個(gè)名為MaSIF的幾何深度學(xué)習(xí)方法從蛋白質(zhì)的3D結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)之間的相互作用。

如何操作?MaSIF將蛋白質(zhì)模擬為一個(gè)離散成網(wǎng)格的分子界面,研究人員認(rèn)為此種方式在處理相互作用時(shí)是有利的,因?yàn)樗梢蕴崛〕鰞?nèi)部的折疊結(jié)構(gòu)。這個(gè)架構(gòu)是基于MoNet發(fā)明的,MoNet是我的博士研究生費(fèi)德里科·蒙奇發(fā)明的一個(gè)網(wǎng)狀卷積神經(jīng)網(wǎng)絡(luò),基于預(yù)先計(jì)算的小地測(cè)片中的化學(xué)和幾何特點(diǎn)。

該網(wǎng)絡(luò)使用蛋白質(zhì)數(shù)據(jù)庫中的幾千個(gè)共晶蛋白質(zhì)3D結(jié)構(gòu)來進(jìn)行訓(xùn)練,從而解決界面預(yù)測(cè)、配基分類和對(duì)接等各種問題,展現(xiàn)現(xiàn)代化的性能。MaSIF與其他方法最大的差異是,它不依賴于蛋白質(zhì)的進(jìn)化史。這在蛋白質(zhì)全新設(shè)計(jì)中至關(guān)重要,嘗試“從頭”創(chuàng)造前所未有的全新蛋白質(zhì)。

作為本篇論文的共同作者,我要強(qiáng)調(diào)的是預(yù)算分子界面和本地補(bǔ)丁的重要性,而且手工制作特性的依賴性是MaSIF的主要缺點(diǎn)之一。

在這一年里,我們徹底改造了結(jié)構(gòu),直接操作原子點(diǎn)云來輸入,飛速計(jì)算分子界面(表現(xiàn)為點(diǎn)云),學(xué)習(xí)幾何和化學(xué)特征,端到端可辨,運(yùn)行速度快了幾個(gè)數(shù)量級(jí)(后者是通過使用快速幾何計(jì)算庫KeOps實(shí)現(xiàn)的,是我的博士后珍·菲迪(Jean Feydy)發(fā)明的)。

雖然《自然方法》論文主要關(guān)注計(jì)算方法,但是隨后EPFL的合作者獲得了MaSIF設(shè)計(jì)的幾種新型蛋白質(zhì)結(jié)合劑的晶體結(jié)構(gòu),其與所計(jì)算結(jié)構(gòu)高度吻合。

 

幾何機(jī)器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實(shí)?

 

使用MaSIF預(yù)測(cè)蛋白質(zhì)的結(jié)合位置。如圖所示設(shè)計(jì)蛋白質(zhì)(右)經(jīng)過修飾,以改善與自然產(chǎn)生的“野生型”(中)靶點(diǎn)相結(jié)合。即使結(jié)合部位結(jié)構(gòu)偏平,MaSIF也可以準(zhǔn)確探測(cè)其位置。

為何重要?蛋白質(zhì)與其他生物分子之間的相互作用是大多數(shù)生物活動(dòng)中蛋白質(zhì)發(fā)揮功能的基礎(chǔ)。更好地理解蛋白質(zhì)的作用原理對(duì)基礎(chǔ)生物學(xué)和藥物研發(fā)都非常重要,許多疾病與蛋白質(zhì)間相互作用(PPI)有關(guān),這種相互作用是理想的藥物靶點(diǎn)。然而,這種相互作用通常包含“不可藥物治療”的扁平界面,因?yàn)樗麄兣c傳統(tǒng)的小藥分子靶向的口袋型結(jié)構(gòu)大不相同。

MaSIF能夠成功識(shí)別靶點(diǎn)的結(jié)合劑,是理性蛋白質(zhì)設(shè)計(jì)的理想工具,開啟了生物藥物研究的各種應(yīng)用,比如免疫抑制檢查站癌癥治療,這種療法以負(fù)責(zé)程序性細(xì)胞死亡的PD-1/PD-L1蛋白質(zhì)復(fù)合體為靶體。

 

 

責(zé)任編輯:華軒 來源: 讀芯術(shù)
相關(guān)推薦

2023-01-05 13:12:53

Nature科學(xué)

2016-11-22 08:30:31

2023-10-09 13:35:00

AI機(jī)器學(xué)習(xí)

2018-03-26 09:11:09

數(shù)據(jù)機(jī)器學(xué)習(xí)崗位

2018-05-24 10:45:30

戴爾

2013-05-14 09:08:37

網(wǎng)絡(luò)即服務(wù)云計(jì)算NaaS

2009-10-26 21:14:37

PoE以太網(wǎng)供電

2024-11-26 08:09:40

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)Python

2020-04-16 14:19:33

深度學(xué)習(xí)三體人工智能

2024-03-29 10:39:56

ChatGPTGPTSAI

2021-01-10 15:28:23

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)AI

2022-04-01 15:39:13

機(jī)器學(xué)習(xí)讓孩子們軟件交付

2021-01-18 09:00:00

人工智能機(jī)器學(xué)習(xí)工程師

2022-03-02 09:11:09

機(jī)器學(xué)習(xí)網(wǎng)絡(luò)

2020-01-06 10:51:24

云計(jì)算IT混合云

2017-09-15 09:34:51

R語言Python機(jī)器學(xué)習(xí)

2015-08-28 09:22:07

數(shù)據(jù)科學(xué)

2020-06-24 07:53:03

機(jī)器學(xué)習(xí)技術(shù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)