偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行

新聞
AlphaFold2出世、強(qiáng)力抗生素Halicin的預(yù)測(cè)……機(jī)器學(xué)習(xí),已經(jīng)在生物醫(yī)藥這一大領(lǐng)域貢獻(xiàn)了不少成果。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 AlphaFold2出世、強(qiáng)力抗生素Halicin的預(yù)測(cè)……

機(jī)器學(xué)習(xí),已經(jīng)在生物醫(yī)藥這一大領(lǐng)域貢獻(xiàn)了不少成果。

[[373412]]

然而,這一領(lǐng)域,此前甚至還沒(méi)有大規(guī)模的機(jī)器學(xué)習(xí)數(shù)據(jù)集?

無(wú)論是查找、處理數(shù)據(jù),還是驗(yàn)證模型效果,之前的研究,都只能在幾個(gè)小型數(shù)據(jù)集、或是已經(jīng)被反復(fù)研究的幾個(gè)任務(wù)上進(jìn)行。

這極大地降低了ML在生物醫(yī)藥領(lǐng)域的應(yīng)用進(jìn)展。

為此,一群來(lái)自哈佛、MIT、斯坦福等機(jī)構(gòu)的研究人員,開發(fā)出了第一個(gè)ML領(lǐng)域的生物醫(yī)藥大型數(shù)據(jù)集TDC,還附帶最新的模型評(píng)估方法。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

這是個(gè)什么樣的數(shù)據(jù)集?

TDC(Therapeutics Data Commons)數(shù)據(jù)集有三大特點(diǎn):開源、大型、3行代碼搞定。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

這一開源數(shù)據(jù)集,包含20+有意義的任務(wù),和70多個(gè)高質(zhì)量數(shù)據(jù)集。

涉及的范圍也非常廣,包含生物醫(yī)藥的各種研究方向,如靶蛋白發(fā)現(xiàn)、藥物動(dòng)力學(xué)、安全性和藥物生產(chǎn)等。研究目標(biāo)也不局限于小分子,還包括抗體、疫苗、miRNA等。

使用起來(lái)也非常簡(jiǎn)便,只需要3行代碼,就能獲得ML-ready數(shù)據(jù)、使用TDC里面的各種功能。

TDC解決問(wèn)題的3層架構(gòu)

生物醫(yī)藥領(lǐng)域涵蓋各種任務(wù),每個(gè)任務(wù)都需要不同的數(shù)據(jù)結(jié)構(gòu)來(lái)進(jìn)行處理。

為此,TDC提出了一個(gè)三層式階級(jí)架構(gòu)Central Dogma (中心法則)。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

第一層,模型要解決哪類問(wèn)題?

  • 單實(shí)例預(yù)測(cè)(Single-instance prediction): 預(yù)測(cè)單個(gè)實(shí)體(比如分子,蛋白)的某些性質(zhì)。
  • 多實(shí)例預(yù)測(cè)(Multi-instance prediction): 預(yù)測(cè)多個(gè)實(shí)體之間的某些性質(zhì)(比如反應(yīng)類型)
  • 生成(Generation): 已知一系列的實(shí)體,生成新的擁有某些性質(zhì)的實(shí)體(比如優(yōu)化后的分子)

 第二層,模型要學(xué)習(xí)什么樣的任務(wù)?

從生物醫(yī)藥角度來(lái)定義,任務(wù)包括設(shè)計(jì)新的抗體、識(shí)別個(gè)性化的組合療法、改善疾病診斷、尋找治療新疾病的方法。

第三層,模型用什么數(shù)據(jù)集來(lái)訓(xùn)練?

根據(jù)任務(wù)類型,從TDC已有的數(shù)據(jù)集中挑選數(shù)據(jù),用于訓(xùn)練模型。

根據(jù)這三層架構(gòu),就能非常輕松地找到需要用的數(shù)據(jù)集。

例如,想要檢索Z類問(wèn)題中的學(xué)習(xí)任務(wù)Y,Y中需要用到數(shù)據(jù)集X,只需要三行代碼就能找到需要的結(jié)果。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

TDC的數(shù)據(jù)集長(zhǎng)啥樣

TDC所包含的數(shù)據(jù)集和任務(wù),大多是沒(méi)有用機(jī)器學(xué)習(xí)進(jìn)行過(guò)系統(tǒng)研究、但又極具潛力的應(yīng)用方向。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

例如,ADMET性質(zhì)預(yù)測(cè)。其中,ADMET包含一系列藥物指標(biāo),用于評(píng)估某種藥物分子在口服后,能否安全有效地到達(dá)指定靶點(diǎn)。

[[373413]]

此前,已有部分研究機(jī)構(gòu)進(jìn)行過(guò)ADMET預(yù)測(cè),但都基于非公開數(shù)據(jù)。

TDC從各種小數(shù)據(jù)庫(kù)、期刊等公開資料中,收集整理了20多個(gè)藥廠目前在用的重要指標(biāo),并將所有數(shù)據(jù)進(jìn)行了開源。準(zhǔn)確預(yù)測(cè)這些指標(biāo),可以幫助藥企節(jié)省大量資源。

又例如,對(duì)藥物進(jìn)行精準(zhǔn)組合。

同種藥物,在不同個(gè)體間會(huì)產(chǎn)生不同影響,尤其是腫瘤方向的藥物。如果用機(jī)器學(xué)習(xí),就能預(yù)測(cè)藥物在各種基因表達(dá)下的效果,目前TDC也已經(jīng)包含了這樣的數(shù)據(jù)集。

[[373414]]

此外,多藥物分子組合,往往比單藥物分子效果更好(drug synergy),如果能預(yù)測(cè)出兩個(gè)藥物分子的組合效應(yīng),能節(jié)省大量新藥研發(fā)的時(shí)間,TDC也已經(jīng)處理了這樣的數(shù)據(jù)集。

還有生物藥(Biologics)方向的任務(wù)。

近幾年來(lái),機(jī)器學(xué)習(xí)在小分子上已有許多應(yīng)用,但在大分子生物藥上的應(yīng)用不多。

TDC也包含了6個(gè)生物藥方面的任務(wù),包括抗體和抗原的親和力預(yù)測(cè)、多肽和MHC的親和力預(yù)測(cè)、miRNA和靶點(diǎn)的反應(yīng)預(yù)測(cè)等。

TDC的數(shù)據(jù)處理函數(shù)

除了核心數(shù)據(jù)集以外,TDC還能進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理,主要包括以下四點(diǎn):

 

  • 模型評(píng)估:TDC提供了一個(gè)評(píng)估函數(shù)。只需3行代碼,就能評(píng)估TDC中的任務(wù)。
  • 數(shù)據(jù)分割:TDC提供了一些訓(xùn)練和測(cè)試集的分割方法,用于模擬實(shí)際生物醫(yī)藥場(chǎng)景,如scaffold split等。
  • 數(shù)據(jù)處理:TDC提供可視化、標(biāo)簽轉(zhuǎn)化,二值化等工具。
  • 分子生成任務(wù):目的是讓產(chǎn)生的新藥物分子具有更好的性質(zhì)。TDC收集了20多個(gè)有意義的任務(wù),同樣只需要3行代碼,就能運(yùn)行。

 

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

還可以刷新榜單排名

此外,TDC還提供各種類型的榜單(Leaderboard),給機(jī)器學(xué)習(xí)研究者對(duì)比模型預(yù)測(cè)的效果。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

雖然TDC提供的每個(gè)數(shù)據(jù)集都能作為基準(zhǔn),但如果要真正評(píng)估一個(gè)機(jī)器學(xué)習(xí)模型,就要求其必須在一系列數(shù)據(jù)集和任務(wù)上達(dá)到更好的效果。

因此,TDC圍繞各種有意義的生物醫(yī)療問(wèn)題,合并了各種子基準(zhǔn)、形成基準(zhǔn)組合。

所有的衡量標(biāo)準(zhǔn)和訓(xùn)練、測(cè)試、分割的方式的設(shè)計(jì)目的,都是為了模擬實(shí)際生物醫(yī)藥的應(yīng)用場(chǎng)景。

團(tuán)隊(duì)簡(jiǎn)介

TDC的開發(fā)和維護(hù)團(tuán)隊(duì),由多個(gè)高校和機(jī)構(gòu)的研究人員共同組成。

主要的5位開發(fā)者,分別是來(lái)自哈佛的黃柯鑫、佐治亞理工學(xué)院的符天凡、MIT的高文昊、CMU的趙越、斯坦福的Yusuf Roohani。

此外,還有他們的5位導(dǎo)師,也在這次數(shù)據(jù)集開發(fā)中做出了不少貢獻(xiàn)。

首個(gè)ML生物醫(yī)藥大型數(shù)據(jù)集,3行代碼能運(yùn)行丨哈佛MIT等出品

目前,TDC數(shù)據(jù)集還在不斷地更新和完善中,作者黃柯鑫表示,還會(huì)不斷地更新如CRISPR、臨床試驗(yàn)等方向的其他數(shù)據(jù)。

感興趣的同學(xué),可以戳下方傳送門用起來(lái)了~

項(xiàng)目傳送門:
https://zitniklab.hms.harvard.edu/TDC/

參考鏈接:
https://zhuanlan.zhihu.com/p/340254116

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2009-08-14 10:56:09

曙光高性能生物

2021-01-13 12:07:02

人工智能AI生物技術(shù)

2021-12-16 10:29:22

SAP數(shù)字化轉(zhuǎn)型加速包

2023-09-10 20:31:01

AI

2022-03-07 14:45:21

昇思MindSpore開源

2023-04-20 17:41:38

開源清華

2022-07-27 08:03:01

醫(yī)藥行業(yè)數(shù)字化生物

2017-05-02 15:12:14

數(shù)據(jù)集機(jī)器學(xué)習(xí)

2023-05-17 11:52:53

工具優(yōu)化

2023-07-14 16:43:25

鯤鵬

2012-03-06 09:41:59

物聯(lián)網(wǎng)云計(jì)算

2018-02-09 16:56:29

智能制造

2020-07-27 10:23:10

開源技術(shù) 數(shù)據(jù)

2023-12-01 16:23:52

大數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)