機(jī)器學(xué)習(xí)+大數(shù)據(jù) 會(huì)是癌癥的新“藥方”嗎?
大概幾年前,Eric Schadt遇到一個(gè)患有癌癥的女人,當(dāng)時(shí)她已經(jīng)是結(jié)腸癌晚期,癌細(xì)胞也擴(kuò)散到了肺部。這個(gè)女人來(lái)自密西西比州,是一個(gè)年輕的寡婦,還要獨(dú)自撫養(yǎng)兩個(gè)女兒,作為身處在醫(yī)療保障最底層的她,唯一能享受到的醫(yī)療保健服務(wù),是得益于他她丈夫去世的撫恤福利——一家只有極少腫瘤醫(yī)生的部隊(duì)醫(yī)院。
這一切,似乎和如今先進(jìn)的醫(yī)療行業(yè)狀況格格不入。但當(dāng)你走進(jìn)這樣一個(gè)治療腫瘤轉(zhuǎn)移性疾病的醫(yī)院,仿佛回到了那個(gè)無(wú)法了解人類基因的時(shí)代,那時(shí)候人類認(rèn)為引起結(jié)腸癌的原因只有一個(gè),而不是數(shù)百萬(wàn)導(dǎo)致各種病變的病因,而且過(guò)去的治療方案簡(jiǎn)直可以說(shuō)是“以毒攻毒”,所有醫(yī)院使用的都是抑制類藥劑,別說(shuō)是在密西西比州,在美國(guó)任何一個(gè)地方都是如此——因?yàn)槟鞘且粋€(gè)沒(méi)有大數(shù)據(jù)、機(jī)器學(xué)習(xí)、以及希望的時(shí)代。
那時(shí)候,Schadt剛剛加入西奈山醫(yī)院伊坎基因和多層級(jí)生物研究所工作,當(dāng)他聽(tīng)說(shuō)這位來(lái)自密西西比州的女人時(shí),不禁表示“她就是我們想要的那種病人”。事實(shí)上,Schadt 嘴里的所說(shuō)的“那種病人”,是指用目前的醫(yī)學(xué)標(biāo)準(zhǔn)無(wú)法治愈,而尚未等到新療法出現(xiàn)的那類患者。而未來(lái)醫(yī)療則會(huì)在超級(jí)計(jì)算機(jī)的幫助下篩選海量基因數(shù)據(jù),最終找到治療和治愈疾病的全新模式。
Schadt 本人并不是治療癌癥疾病的專家,甚至都不是醫(yī)生,他的本職工作是一個(gè)數(shù)學(xué)家兼計(jì)算生物學(xué)專家,而且從沒(méi)有治療過(guò)任何一個(gè)病人。不過(guò),在他西奈山醫(yī)院的新辦公室里,Schadt 從那位女患者身上獲取了數(shù)萬(wàn)億字節(jié)的數(shù)據(jù),模擬了數(shù)千次她在傳統(tǒng)醫(yī)療環(huán)境下會(huì)有什么樣的治療效果,并希望以此找到治愈她結(jié)腸癌的新方法。
因?yàn)楣ぷ麝P(guān)系,讓Schadt 和這位密西西比州的女人成為了好友,但可悲的是,Schadt 的研究失敗了,Schadt 來(lái)到了她的病床邊,悲痛欲絕。去年,這個(gè)女人去世了。
坐在西奈山醫(yī)院的辦公桌前,Schadt 看上去簡(jiǎn)單干練。51歲的他無(wú)論走到哪里都穿著一件短袖T 恤衫和短褲,不管是出席高端宴會(huì),還是在冬季寒冷的紐約也是如此。對(duì)于任何一位醫(yī)療行業(yè)研究人員來(lái)說(shuō),當(dāng)你成功發(fā)表論文、或是開(kāi)發(fā)出了新藥物之后都會(huì)感到非常高興,因?yàn)槟愕墓ぷ骺梢詭椭藗儨p少痛苦。但是,當(dāng)看到自己的研究成果把一個(gè)人慢慢折磨死去,內(nèi)心的煎熬程度可想而已。Schadt 說(shuō)道:
這會(huì)讓人感到深深的愧疚,這種感覺(jué)是我從來(lái)沒(méi)有體驗(yàn)過(guò)的。我們當(dāng)時(shí)正處在研究工作的上升期,你會(huì)不由自主地把眼光放得更長(zhǎng)遠(yuǎn),因此會(huì)認(rèn)為自己有能力找到治愈癌癥的方法。我們覺(jué)得最后肯定能夠找到癌細(xì)胞病變的原因,但也是因?yàn)檠芯刻幵谏仙A段,導(dǎo)致出現(xiàn)的問(wèn)題也越來(lái)越多、越來(lái)越復(fù)雜,這種狀況不斷打擊著我們。
事實(shí)上,在過(guò)去的十年里,人們一直在談?wù)摶蛐蛄袦y(cè)定和個(gè)性化醫(yī)療服務(wù)的潛力。隨著計(jì)算機(jī)處理能力的提升、以及對(duì)人類個(gè)體基因的理解越來(lái)越深入,為我們打開(kāi)了一扇神奇時(shí)代的大門。不僅如此,有理論研究認(rèn)為,足夠的基因數(shù)據(jù)能夠讓人們不用服藥就能治愈疾病。
但是,Schadt 已經(jīng)了解到,個(gè)體 DNA 的數(shù)據(jù)深度還不足以應(yīng)對(duì)、治愈各種疾病,它需要更加全面、更大數(shù)量級(jí)的數(shù)據(jù)來(lái)監(jiān)測(cè)人群中的疾病類型,再使用機(jī)器學(xué)習(xí),找到引發(fā)疾病的變異網(wǎng)絡(luò),最后才能找到解決方案。這些數(shù)據(jù)集合的規(guī)模越大,疾病類型分析的就會(huì)越準(zhǔn)確,預(yù)測(cè)疾病的功能也會(huì)變得越強(qiáng)大。
所以,現(xiàn)在的問(wèn)題就集中在如何獲取海量基因數(shù)據(jù)上。顯然,你不能跑到某個(gè)人面前,或是數(shù)百萬(wàn)人面前,跟他們說(shuō):“請(qǐng)給我你的數(shù)據(jù)”。首先,你必須要說(shuō)服他們,收集到的數(shù)據(jù)只能用來(lái)做好事,而且你也會(huì)做好數(shù)據(jù)安全工作,不會(huì)把這些個(gè)人數(shù)據(jù)落入到壞人之手(我們都很看重自己的隱私)。
不僅如此,你還必須要說(shuō)服收集相關(guān)數(shù)據(jù)的醫(yī)療中心和基因公司,而不是讓他們“囤積居奇”獲利,更重要的是,這些數(shù)據(jù)應(yīng)該被共享,研究社區(qū)也能從規(guī)模經(jīng)濟(jì)中獲益——海量數(shù)據(jù)的重要程度不言而喻,最后這些數(shù)據(jù)也會(huì)被逐一編號(hào),Schadt 和許多其他研究人員相信,了解疾病的病因非常有必要,這對(duì)工程人員研究新的癌癥治療方法也非常必要。
現(xiàn)在,研究人員所獲得的信息量并不能支持治愈癌癥。但是不管是科技巨頭如Google,還是生物醫(yī)療初創(chuàng)公司都在努力解決數(shù)據(jù)規(guī)模問(wèn)題,Schadt 顯然也渴望能夠參與其中。
如果把人類生物復(fù)雜度比做成一部動(dòng)漫電影,那么在過(guò)去一百年時(shí)間里我們所理解的所有知識(shí),大概只相當(dāng)于電影里的一個(gè)像素而已。的確,只通過(guò)這“一個(gè)像素”,沒(méi)有人能夠了解整個(gè)故事的全部。但隨著像素越來(lái)越多,幾百個(gè)像素、幾千個(gè)像素——或是這,全部像素的1%——模式和主題就會(huì)開(kāi)始浮現(xiàn),而人們也就能夠看清故事的開(kāi)頭。
正是出于這種想法,讓 Schadt 在2011年選擇創(chuàng)建伊坎基因和多層級(jí)生物研究所,當(dāng)時(shí)的他已經(jīng)在著名制藥公司 Merck 從事了十年的藥物研發(fā)工作,這家制藥公司的一半藥物都是用來(lái)治療類似心臟病、糖尿病、以及肥胖癥這樣的病癥,也讓 Schadt 的研究變得更加多樣化。當(dāng)時(shí)醫(yī)學(xué)界普遍認(rèn)為,癌癥是由單一基因模型引起的,因此藥物研發(fā)也都是按照這一理解來(lái)實(shí)施,而 Schadt 相信,癌癥并不是由單一基因,而是由多種基因組成的基因網(wǎng)絡(luò)引發(fā)的,這些基因網(wǎng)絡(luò)會(huì)導(dǎo)致疾病滲入到人類的自然防御系統(tǒng)內(nèi)部,也只有通過(guò)深入了解這些基因網(wǎng)絡(luò)的生物信息,才能夠?yàn)閺氐字斡┌Y找到方向。
為了探索這種復(fù)雜的模型,Schadt 從慈善投資家 Carl Icahn 那里募集到了1.5 億美元資金,并來(lái)到了著名的西奈山醫(yī)院,以 Carl Icahn 的名字命名了一家研究所。在該研究所的地下室,Schadt 構(gòu)建了一臺(tái)名為“Minerva”的超級(jí)計(jì)算機(jī),用來(lái)分析西奈山西苑每年收集到的數(shù)千組人類基因數(shù)據(jù)。他還招募了其他數(shù)量分析專家,包括為 Facebook 打造首支數(shù)據(jù)團(tuán)隊(duì)的 Jeffery Hammerbacher。一名來(lái)自醫(yī)學(xué)院的知名腫瘤醫(yī)學(xué)家如是說(shuō)道:
你身邊忽然出現(xiàn)了一大群數(shù)據(jù)科學(xué)家,這幫人不是應(yīng)該去編寫電子游戲程序的嗎?
時(shí)間過(guò)得很快,Schadt 發(fā)現(xiàn)自己需要更大的支持。2014 年,伊坎基因和多層級(jí)生物研究所與 Sage Bioneworks 合作成立了一家公司,并啟動(dòng)了“Resilience Project”項(xiàng)目,嘗試治療總計(jì) 170 種罕見(jiàn)兒童疾病,包括囊包性纖維癥、鐮狀細(xì)胞性貧血、以及家族黑蒙性癡呆。
研究人員會(huì)在人群中努力尋找通過(guò)接種而攜帶抵抗這些疾病的 DNA 變種個(gè)體,Schadt 和他的團(tuán)隊(duì)嘗試從 60 萬(wàn)人的基因池(迄今規(guī)模最大的基因研究)內(nèi)找到這些具備“恢復(fù)力”的個(gè)體,該基因池的數(shù)據(jù)來(lái)自很多數(shù)據(jù)源,包括DNA鑒定公司23andMe,北京華大基因、以及麻省理工學(xué)院和哈佛大學(xué)布羅德研究所。然而,在這 60萬(wàn)人的基因池內(nèi)尋找疾病抗體并不是件容易的事情,在上文提到的 170 種疾病中,研究人員最終只找到了能對(duì)抗 8 種疾病的抗體個(gè)人基因。
60 萬(wàn)人的基因池研究規(guī)模依然還是太小了,通過(guò)計(jì)算人類引起疾病的基因突變發(fā)生頻率,Schadt 和他的團(tuán)隊(duì)認(rèn)為研究所需的基因池規(guī)模遠(yuǎn)遠(yuǎn)不夠,至少需要達(dá)到 1000 萬(wàn)人的基因池。對(duì)于“Resilience Project”項(xiàng)目背后的計(jì)算能力,以及所謂的“海量數(shù)據(jù)”,Schadt 依然覺(jué)得患者信息的數(shù)量和質(zhì)量依然不夠,他說(shuō)道:
像西奈山這樣規(guī)模的醫(yī)院,我們至少需要 100 個(gè),也只有這樣的規(guī)模,才能實(shí)現(xiàn)在患者數(shù)據(jù)中找到治療和診斷的方法。在過(guò)去的五年時(shí)間里,我認(rèn)為這一切不能在醫(yī)療中心里發(fā)生,因?yàn)檫@些機(jī)構(gòu)彼此之間競(jìng)爭(zhēng)非常激烈,因此不會(huì)共享數(shù)據(jù),只會(huì)彼此孤立。相比于取得重大進(jìn)步的其他行業(yè),醫(yī)療行業(yè)內(nèi)并沒(méi)有那種連貫性的架構(gòu),因此很難迅速發(fā)展。
那些大型醫(yī)療中心把患者數(shù)據(jù)牢牢抓在自己手里,而且,與其他同行合作,把自己的數(shù)據(jù)分享用于行業(yè)研究也不會(huì)給他們帶來(lái)較大的經(jīng)濟(jì)利益,因此 Schadt 認(rèn)為,醫(yī)療行業(yè)的創(chuàng)新顛覆只能從外部入手。
所以,這就是為什么 Schadt 希望自己創(chuàng)建基因數(shù)據(jù)公司 Sema4 的原因。Sema4 公司總部位于紐約市,專注于收購(gòu)和拓展基因科學(xué)領(lǐng)域里的初創(chuàng)公司,這些公司通常會(huì)專注于基因測(cè)試——比如癌細(xì)胞攜帶者篩選和非侵入式產(chǎn)前測(cè)試——以收集、共享數(shù)百萬(wàn)個(gè)體基因數(shù)據(jù)集合。
在 Sema4 的可搜索平臺(tái)上,醫(yī)生可以輕松獲得與患者相關(guān)的基因數(shù)據(jù),幫助他們進(jìn)行醫(yī)療診斷。該平臺(tái)對(duì)制藥企業(yè)是收費(fèi)的,他們主要利用 Seam4 平臺(tái)針對(duì)性地尋找患者,以進(jìn)行藥物臨床試驗(yàn)。而對(duì)于科學(xué)家們來(lái)說(shuō),在機(jī)器學(xué)習(xí)算法和強(qiáng)大的計(jì)算機(jī)支持下,他們目前所使用的分析工具已經(jīng)非常強(qiáng)大了,現(xiàn)在有了 Seam4 共享的海量基因數(shù)據(jù)支持,將會(huì)幫助其研究更上一層樓。
盡管不少科技巨頭也正在涉足生命科學(xué)領(lǐng)域,而且美國(guó)國(guó)家衛(wèi)生研究院也在招募 100 萬(wàn)名志愿者幫助他們自主創(chuàng)建大型生物銀行,但 Schadt 相信,Seam4 和其他類似的初創(chuàng)公司(比如 Craig Venter 創(chuàng)立的 Human Longevity 公司和 Patrick Soon-Shion 創(chuàng)立的 Nant-Health 公司)更加專注于擴(kuò)大基因數(shù)據(jù)規(guī)模。
當(dāng)然啦,這些公司彼此之間也會(huì)互相競(jìng)爭(zhēng),已獲得更多、更優(yōu)質(zhì)的數(shù)據(jù)資源,而 Sema4 公司與其他公司的不同之處在于,他們并不是以盈利為目的,而是將自己的基因數(shù)據(jù)庫(kù)向全世界所有學(xué)術(shù)醫(yī)療中心和研究人員開(kāi)放。而如果 Seam4 公司的競(jìng)爭(zhēng)對(duì)手也想訪問(wèn)他們的數(shù)據(jù),則需要向其搜索平臺(tái)支付費(fèi)用,事實(shí)上,Sema4 公司和其他公司也在嘗試合作,創(chuàng)建更加龐大的基因數(shù)據(jù)集合來(lái)支持像“Resilience Project”這樣的項(xiàng)目。
但是,Schadt 特別表示說(shuō),簡(jiǎn)單依靠企業(yè)獲取數(shù)據(jù)集合的做法,依然無(wú)法解決基因數(shù)據(jù)庫(kù)規(guī)?;膯?wèn)題,關(guān)鍵是要讓患者那里獲取數(shù)據(jù)?;谒谖髂紊结t(yī)院的工作經(jīng)驗(yàn),Schadt 發(fā)現(xiàn),最近幾年越來(lái)越多人希望通過(guò)遺傳基因來(lái)治愈自己身上的病患。他提到,在 2011 年剛來(lái)到西奈山醫(yī)院的時(shí)候,一年內(nèi)能夠篩選的基因樣例只有幾千份,而在今年,他們已經(jīng)篩選出了 15 萬(wàn)份基因樣例,絕大多數(shù)都是來(lái)自紐約地區(qū)的患者。Schadt 說(shuō)道:
Sema4 公司的目標(biāo),是把基因樣例篩選數(shù)量擴(kuò)大五十萬(wàn)份,再用一年時(shí)間擴(kuò)大到一百萬(wàn)份!
Sema4 公司希望能夠通過(guò)在全球范圍內(nèi)收購(gòu)其他基因測(cè)試公司來(lái)擴(kuò)大業(yè)務(wù)規(guī)模,據(jù)悉,絕大多數(shù)被收購(gòu)的公司雖然被 Sema4 公司收購(gòu),但依然還是獨(dú)立運(yùn)營(yíng)的。不過(guò),這些公司都會(huì)以統(tǒng)一的安全標(biāo)準(zhǔn)和意愿來(lái)構(gòu)建一個(gè)龐大的基因信息網(wǎng)絡(luò)。
Schadt 承認(rèn),讓一個(gè)人把自己的基因生物數(shù)據(jù)交給一家匿名企業(yè)的確不是件容易的事情。即便企業(yè)砸下了數(shù)十億美元的巨額投資,依然無(wú)法保證數(shù)據(jù)不會(huì)被泄露。而在 Sema4 公司,每一位患者都會(huì)被詳細(xì)告知自己的數(shù)據(jù)是如何被加密,匿名化、以及刪除可鑒別個(gè)人信息。所以就算有患者的個(gè)人信息發(fā)生泄漏,其身份也難以被識(shí)別出來(lái),更不會(huì)被過(guò)度曝光。
此外,這里還會(huì)涉及到一個(gè)知情權(quán)的問(wèn)題——也就是對(duì)于自己被收集的數(shù)據(jù)是什么,如何收集,以及為什么收集,都必須要得到患者的理解和批準(zhǔn)——這也會(huì)直接影響收集數(shù)據(jù)的質(zhì)量和數(shù)量。Schadt 解釋說(shuō):
如今有不少公司都對(duì)外宣傳自己掌握了數(shù)百萬(wàn)分患者數(shù)據(jù),但是在絕大多數(shù)情況下,特別是站在利用的角度來(lái)看,這些數(shù)據(jù)其實(shí)毫無(wú)意義。一方面是因?yàn)檫@些數(shù)據(jù)通常不夠準(zhǔn)確和不完整,另一方面則是它們無(wú)法在不同系統(tǒng)之間關(guān)聯(lián)使用。不僅如此,很多數(shù)據(jù)里面甚至連 DNA、或是由 DNA 產(chǎn)生的基因數(shù)據(jù)都沒(méi)有。就拿“Resilience Project”項(xiàng)目為例,除了基因數(shù)據(jù)量級(jí)規(guī)模較小之外,如何按照不同安排下使用這 60 萬(wàn)份基因數(shù)據(jù)也是個(gè)很大的問(wèn)題。如果有重要發(fā)現(xiàn),大量患者其實(shí)是無(wú)法被追蹤、或是被重新聯(lián)系到的,所以從實(shí)際研究的觀點(diǎn)出發(fā),這些數(shù)據(jù)就會(huì)變得毫無(wú)意義。
如今,絕大多數(shù)基因數(shù)據(jù)獲取形式都盡可能快速且簡(jiǎn)練,而不是便于讓研究人員獲取高質(zhì)量的數(shù)據(jù)。實(shí)際上,這也增加了獲取高質(zhì)量基因數(shù)據(jù)的難度。研究發(fā)現(xiàn),當(dāng)患者在了解研究目的的情況下愿意參與合作,那么研究人員就能夠獲得更好、更高質(zhì)量的信息,同時(shí)也能讓科學(xué)專家們長(zhǎng)期追蹤患者的身體健康狀況。在 Sema4 公司,Schadt 采用了多階段信息獲取流程——其中包括了必要的強(qiáng)制測(cè)驗(yàn)——因此,患者足以能夠了解自己所言語(yǔ)的科研項(xiàng)目。雖然這一系列舉措會(huì)讓患者花費(fèi)較長(zhǎng)時(shí)間,但 Schadt 相信,當(dāng)醫(yī)患雙方彼此的了解更加深入,患者就越愿意分享自己的基因信息。
隨著數(shù)字基礎(chǔ)設(shè)施到位,Schadt 希望讓越來(lái)越多的患者參與到基因數(shù)據(jù)收集項(xiàng)目之中。不過(guò),他希望患者不僅僅分享自己的基因,也能分享從其他監(jiān)控設(shè)備所收集到的生物信息,比如血壓、血糖等等。最終,Schadt 希望收集到的數(shù)據(jù)更加全面,包括讓患者的微生物組合定期測(cè)序、經(jīng)常檢測(cè)核糖核酸(RNA)、以及不斷監(jiān)測(cè)血液細(xì)胞。
事實(shí)上,像西奈山醫(yī)院這樣的醫(yī)療中心在獲取患者數(shù)據(jù)領(lǐng)域里占有壟斷地位,但現(xiàn)在這種情況可能要發(fā)生改變了,最終,研究人員會(huì)獲得海量基因數(shù)據(jù),為未來(lái)醫(yī)療行業(yè)發(fā)展尋求突破。Schadt 問(wèn)道:
如果我們能夠訪問(wèn)更多信息,那么人類會(huì)因此收益嗎?當(dāng)你能夠利用全世界的力量,能夠開(kāi)發(fā)出治愈疾病的治療模型嗎?答案是肯定的。
人們不能靠猜測(cè)來(lái)治病,而是要像數(shù)學(xué)那樣嚴(yán)謹(jǐn),即便是到了癌癥晚期,也許有一天也能夠被治愈。