阿斯利康利用基于PyTorch的算法發(fā)現(xiàn)新藥物
譯文【51CTO.com快譯】自2017年推出以來,F(xiàn)acebook的機(jī)器學(xué)習(xí)框架PyTorch已得到很好的利用,應(yīng)用廣泛,從支持Elon Musk的自動駕駛汽車到驅(qū)動機(jī)器人耕種項(xiàng)目,不一而足。
現(xiàn)在制藥公司阿斯利康(AstraZeneca)透露了其內(nèi)部工程師團(tuán)隊(duì)如何利用PyTorch,同樣重要的是簡化和加快藥物發(fā)現(xiàn)。
阿斯利康的技術(shù)將PyTorch與微軟Azure機(jī)器學(xué)習(xí)相結(jié)合,可以梳理大量數(shù)據(jù),對于藥物、疾病、基因、蛋白質(zhì)或分子之間的復(fù)雜關(guān)系有一番新的了解。
這番了解可用于饋送給算法,算法進(jìn)而可以為某種疾病推薦許多藥物靶標(biāo),供科學(xué)家在實(shí)驗(yàn)室進(jìn)行測試。
這種方法便于在藥物發(fā)現(xiàn)之類的領(lǐng)域取得巨大進(jìn)展,迄今為止,該領(lǐng)域一直基于昂貴且耗時(shí)的反復(fù)試驗(yàn)方法。
為了研制出對付某種疾病的新藥,科學(xué)家通常要在實(shí)驗(yàn)室測試不同的蛋白質(zhì)設(shè)計(jì)和組合,直至找到可行的解決方案,這就是為什么從藥物設(shè)計(jì)到準(zhǔn)備上市需要10到15年的時(shí)間。另一方面,阿斯利康的算法可以更快地確定科學(xué)家應(yīng)針對某種疾病尋找的十大藥物靶標(biāo)。
將自動化應(yīng)用于藥物發(fā)現(xiàn)尤其有用,因?yàn)榭茖W(xué)家可以訪問以幫助開展研究的數(shù)據(jù)量每年急劇增長。分析每天越來越龐大的數(shù)據(jù)庫以了解它們?nèi)绾螢樗幬锇l(fā)現(xiàn)提供信息,實(shí)際上成了一項(xiàng)超人才能完成的任務(wù)。
阿斯利康的機(jī)器學(xué)習(xí)工程師Gavin Edwards告訴ZDNet:“每年,可供研究人員使用的科學(xué)信息和數(shù)據(jù)的絕對量在增長。通過利用AI和機(jī)器學(xué)習(xí)工具(比如PyTorch和Azure),我們就能迅速提取、整合和解讀來自多個(gè)來源的信息,旨在比我們手動分析這些數(shù)據(jù)更迅速地得到更準(zhǔn)確的科學(xué)結(jié)論。”
許多可用數(shù)據(jù)是非結(jié)構(gòu)化文本,這時(shí)候PyTorch有了用武之地。Facebook開發(fā)的這個(gè)軟件包基于Python編程語言,是一種開源機(jī)器學(xué)習(xí)庫,尤其適用于在計(jì)算機(jī)視覺和自然語言處理(NLP)等領(lǐng)域處理密集數(shù)據(jù)科學(xué)任務(wù)的開發(fā)人員。
阿斯利康的NLP團(tuán)隊(duì)使用PyTorch來定義和訓(xùn)練生物醫(yī)學(xué)文本挖掘算法,這種算法可以遍歷數(shù)據(jù),查找模式和趨勢,并最終確定可用信息的結(jié)構(gòu)。
然后數(shù)據(jù)饋入到知識圖中,知識圖可以智能地將零星的信息連接起來,以便可以將每個(gè)數(shù)據(jù)點(diǎn)置于上下文中來研究。圖用起來就像信息網(wǎng)絡(luò),不僅能反映每個(gè)數(shù)據(jù)的屬性(基因、蛋白質(zhì)、疾病和化合物),還能反映不同類別之間的關(guān)系。
換句話說,知識圖全面地組織所有可用的科學(xué)數(shù)據(jù)。阿斯利康的工程師隨后利用微軟Azure機(jī)器學(xué)習(xí)的計(jì)算功能,使用知識圖來訓(xùn)練向科學(xué)家推薦新藥物靶標(biāo)的算法。
Edwards說:“我們將公共領(lǐng)域的研究和內(nèi)部研究結(jié)合到對復(fù)雜信息輕松編碼的圖中。通過在此基礎(chǔ)上使用機(jī)器學(xué)習(xí),我們可以訓(xùn)練機(jī)器學(xué)習(xí)模型,這些模型可以推薦新穎的藥物靶標(biāo),并有助于為管道決策提供信息。”
對于在實(shí)驗(yàn)室不懈地嘗試新藥物設(shè)計(jì)的科學(xué)家而言,用于藥物發(fā)現(xiàn)的推薦算法無疑聽起來可以節(jié)省大量時(shí)間。但是Edwards及其團(tuán)隊(duì)還希望,他們在創(chuàng)建的知識圖可幫助研究人員找到新的聯(lián)系,探索新的路徑,并測試未經(jīng)證實(shí)的理論,又不浪費(fèi)太多時(shí)間。
可以縮小數(shù)點(diǎn)知識圖以便詳細(xì)查看問題的某個(gè)方面,也可以擴(kuò)展知識圖以便提供跨不同研究分支的更廣泛視圖。因此,研究人員就能輕松獲得未利用的信息,這些信息可以為其項(xiàng)目帶來更多價(jià)值。
Edwards說:“我們的知識圖使研究人員可以提出有關(guān)基因、疾病、藥物和安全信息等方面的關(guān)鍵問題,幫助識別藥物靶標(biāo)并確定優(yōu)先級。而且,隨著我們的數(shù)據(jù)和知識越來越豐富,我們的圖會隨之龐大,這意味著每個(gè)新試驗(yàn)都將得益于以前學(xué)到的知識。”
對于Edwards來說,這項(xiàng)技術(shù)的應(yīng)用范圍可能很大。在全球疫情持續(xù)不斷的情況下,這無疑是個(gè)好消息。
原文標(biāo)題:AstraZeneca is using PyTorch-powered algorithms to discover new drugs,作者:Daphne Leprince-Ringuet
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】