他的人工智能工具,能夠窺探活體細胞內(nèi)部的奧秘
▲ 圖:來自艾倫細胞科學(xué)研究所的計算機視覺研究員Greg Johnson已經(jīng)證明,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠從未經(jīng)標(biāo)記的顯微照片中提取細胞解剖結(jié)構(gòu)細節(jié),并據(jù)此創(chuàng)建出復(fù)雜的細胞模型。(Chona Kasinger/圖片來源)
首先聲明一點,大家在高中生物教科書里學(xué)習(xí)到的細胞知識基本都是錯的。典型的體細胞——例如能夠分化為肌肉、神經(jīng)乃至皮膚等人體組織的多能干細胞——并不是那種簡單的半透明球體。其內(nèi)部構(gòu)成,也絕不是像懸浮在明膠中的菠蘿切塊那種便于區(qū)分的靜態(tài)結(jié)構(gòu)。相反,活體細胞更像是一塊被塞進小小三明治里的半融化果凍豆,其內(nèi)部構(gòu)成一直在不斷變化,而且編排機制遠比計算機芯片更精確也更復(fù)雜。
簡而言之,即使是在二十一世紀,我們?nèi)院茈y了解細胞內(nèi)部究竟是什么樣子——更不用說其中各組成部分間的相互作用。艾倫細胞科學(xué)研究所計算機視覺與機器學(xué)習(xí)研究員Greg Johnson說道,“我們可以把一個細胞看作像是汽車那樣的復(fù)雜機器。除了24小時不斷運作之外,有時候兩輛車會并排前行,有時候甚至是四輛車齊頭并進。即使是世界上最聰明的工程師,也無法重現(xiàn)如此精密復(fù)雜的機器——想到人類對細胞的運作方式始終知之甚少,我總會萌生出這樣的感慨。”
為了觀察活體細胞的內(nèi)部運作方式,生物學(xué)家們目前選擇將基因工程與先進的光學(xué)顯微鏡加以結(jié)合。(電子顯微鏡能夠非常詳細地對細胞內(nèi)部進行成像,但卻無法拍攝動來動去的活體樣本。)一般來講,對細胞進行基因修飾能夠使其產(chǎn)生熒光蛋白,該蛋白會附著于特定的亞細胞結(jié)構(gòu)當(dāng)中,例如線粒體或者細胞微管。當(dāng)細胞被特定波長的光線照射時,熒光蛋白即會發(fā)光,相當(dāng)于對相關(guān)結(jié)構(gòu)進行視覺標(biāo)記。然而,這種技術(shù)昂貴、極為耗時,而且每次只能觀察到細胞中的一部分結(jié)構(gòu)特征。
但憑借著自己在軟件工程方面的專業(yè)背景,Johnson希望了解:如果研究人員能夠教會人工智能識別細胞內(nèi)部特征并自動進行標(biāo)記,結(jié)果又會如何?2018年,他和艾倫研究所的幾位合作者開始了這場探索之旅。利用熒光成像樣本,他們訓(xùn)練出一套深度學(xué)習(xí)系統(tǒng),用以識別十幾種亞細胞結(jié)構(gòu),直到該系統(tǒng)能夠在前所未見的細胞中分辨這些結(jié)構(gòu)。更重要的是,經(jīng)過訓(xùn)練,Johnson’的這套系統(tǒng)甚至能夠處理細胞的“明場圖像”——即通過普通光學(xué)顯微鏡直接獲得的圖像,其內(nèi)容“像是手電筒照射之下的細胞”。
不同于以往昂貴的熒光成像實驗,如今科學(xué)家們可以利用這種“無標(biāo)記測定”高效拼湊出活體細胞內(nèi)部的高保真3D影像。
這些數(shù)據(jù)還可用于構(gòu)建理想化的細胞生物學(xué)精確模型——基本上類似于高中教科書里那種規(guī)整的圖像,但具有更高的科學(xué)準確性。這也是本次項目的最終目標(biāo)。
▲ 圖:在簡單的活細胞“明場”光學(xué)顯微鏡圖像中,Johnson的系統(tǒng)能夠識別出未經(jīng)標(biāo)記的DNA、核仁、核膜、細胞膜以及線粒體(該系統(tǒng)會以多種顏色進行突出顯示)。此后,系統(tǒng)還能夠為這些細胞創(chuàng)建動態(tài)3D模型。
Johnson表示,“我們希望能夠拿出一個普通的細胞,認真觀察它、進行解剖并分析其中的具體構(gòu)造。此外,由于結(jié)果基于統(tǒng)計數(shù)據(jù),因此結(jié)果當(dāng)中還包含我們期望的所有變化。大家可以說,讓我們看看這個異常版本的細胞,弄清它是如何構(gòu)成的。”
Johnson利用機器學(xué)習(xí)實現(xiàn)細胞內(nèi)部可視化的嘗試早在2010年就已經(jīng)在卡耐基梅隆大學(xué)開始了,當(dāng)時深度學(xué)習(xí)技術(shù)還沒有在人工智能領(lǐng)域引發(fā)一系列突破。近十年之后,Johnson認為他的AI增強活細胞成像方法能夠顯著提高軟件模型的準確度,從而減少甚至完全消除某些實驗需要。他表示,“我們希望盡可能降低細胞圖像的拍攝成本,同時盡可能多地對細胞形態(tài)做出預(yù)測。它是如何構(gòu)成的?基因表達情況如何?它的近鄰細胞又與它存在哪些交互?對我來說,無標(biāo)記測定只是實現(xiàn)未來更多復(fù)雜目標(biāo)的基礎(chǔ)。”
我們采訪了Johnson,希望了解基礎(chǔ)細胞生物學(xué)中存在的挑戰(zhàn),以及AI在顯微學(xué)領(lǐng)域的未來發(fā)展。對話內(nèi)容經(jīng)過編輯以確保清晰流暢。
(Chona Kasinger/圖片來源)
問:觀察活體細胞內(nèi)部結(jié)構(gòu)為什么如此困難?
Johnson:如果要觀察活體細胞內(nèi)部,我們必須克服兩大限制。我們雖然可以利用激光照射細胞以使各個熒光蛋白標(biāo)記發(fā)光,但這種特定的激光具有危害性,對細胞來講就像沙漠中的陽光一樣殺傷力巨大。
另一個限制在于,這些標(biāo)記會附著在細胞中的原始蛋白質(zhì)上。這些蛋白質(zhì)本來需要移動到其它位置并發(fā)揮作用,但由于附著了這個體形龐大的熒光分子,蛋白質(zhì)的活動將受到影響,所以標(biāo)記過多會改變細胞的運作方式。有時候,熒光標(biāo)記的引入會令實驗無法完成;有時候,這些標(biāo)準甚至?xí)⑺滥繕?biāo)細胞。
問:但能起作用還不夠嗎?畢竟這種方法支持生物學(xué)走到了今天。
Johnson:讓我們再次回到之前的汽車比喻當(dāng)中。這就像是我們擁有了一輛完全由玻璃制成的汽車,我們能夠看到車里的東西,但卻弄不清楚這些組件之間如何相互作用。在此基礎(chǔ)上,我們利用熒光分子突出標(biāo)記汽車中的一到兩種組件?,F(xiàn)在,我們可以明確區(qū)分出哪些是門把手,或者是汽車有幾個輪胎。然而,有時候我們會發(fā)現(xiàn)自己的“汽車”只有兩個輪子,而且一個門把手也沒有。研究人員會好奇,“這到底是什么東西?”好吧,事實證明這可能是一輛摩托車,但我們甚至連摩托車是什么都不清楚,因為我們只看到過那些擁有四個輪子和門把手的細胞。大概就是這么回事。
如果我們能夠?qū)铙w細胞進行成像,就能夠同時看到所有構(gòu)造,這將推動生物學(xué)領(lǐng)域上升至新的高度。我們可以拆開這輛車,使用X射線透視車輛結(jié)構(gòu),甚至親自開起來試試。也許我們有一天可以打造出自己的引擎??傊@至少能讓我們更好地了解細胞當(dāng)中到底發(fā)生了什么。
問:是什么激發(fā)了你利用深度學(xué)習(xí)技術(shù)標(biāo)記細胞內(nèi)部的靈感?
Johnson:在我看到人們開始利用深度學(xué)習(xí)(2014年首次使用生成對抗網(wǎng)絡(luò))生成仿真面孔時,我突然意識到“哦,我們也可以用它生成細胞。”這就是我的工作內(nèi)容:模擬細胞結(jié)構(gòu)。我想,“如果我們能夠通過特定標(biāo)記實驗生成細胞圖像,并使其質(zhì)量達到生物學(xué)家們也無法判斷真?zhèn)蔚乃?,結(jié)果會怎樣?”如果能夠?qū)崿F(xiàn)這項目標(biāo),那么在某種意義上,可以說我們建立起了一套能夠真正實驗內(nèi)容的模型。
問:是否存在這樣一種風(fēng)險,AI生成了某些并不存在的結(jié)構(gòu)?
Johnson:我們真正需要的是預(yù)測實驗結(jié)果,以幫助科學(xué)家們優(yōu)先進行他們認為最有價值的實驗方向。
假設(shè)我有一份細胞圖像,該軟件將預(yù)測細胞內(nèi)物質(zhì)的位置排布模式——例如線粒體。我們在無標(biāo)記模型中觀察線粒體時,看到的實際是AI對于線粒體所在位置的預(yù)測結(jié)果。換言之,這類似于給出了細胞內(nèi)線粒體的平均位置。
我們也可以換一種使用方式:假設(shè)我打算進行一項實際實驗,利用熒光蛋白標(biāo)記某些細胞。但我并沒有真正執(zhí)行實驗,而是直接采用那些成本低廉的明場顯微鏡圖像,并利用機器預(yù)測這一標(biāo)記實驗的可能結(jié)果。接下來,如果我在生成的預(yù)測圖像中看到了值得深入挖掘的結(jié)果,我可以再推進到實際實驗階段。
問:那么,您是打算使用AI技術(shù)改善實驗,還是要替代實驗?
Johnson:我認為這兩個答案都不算錯。一位科學(xué)家曾說,“實驗的目的在于證明你的模型是錯的。”因為我們的深度學(xué)習(xí)模型完全利用熒光成像實驗數(shù)據(jù)的訓(xùn)練,所以我們每一次收集到的新實驗數(shù)據(jù)都將指出該模型的錯誤。我可以將這些數(shù)據(jù)添加到模型當(dāng)中,以確保其在下一次預(yù)測時做得更好。
這是一種雙贏書面,因為無論該模型能否正確預(yù)測實驗結(jié)果,其獲得的新數(shù)據(jù)都能幫助我們未來做出更準確的預(yù)測。
如果把這個過程推向極端,我們最終會得到一套機器學(xué)習(xí)模型,我們可以向其中輸入任何想要運行的實驗參數(shù)。接下來,它會給出大家想要測量的一切結(jié)果。而如果這些結(jié)論與實際實驗中的真實數(shù)據(jù)相同,那么我們就擁有了一套從基本面來講能夠準確反映生物學(xué)原理的模型。
問:這種方法是否存在爭議?
Johnson:大約兩到三年之前,人們可能會看著它說,“我不太相信這玩意。”我參加過不少會議,展示了自己的成果,而有些人的反饋是“把這垃圾扔出去。”但現(xiàn)在,人們開始接納這種基本思路。事實上,AI技術(shù)在整個細胞生物學(xué)成像領(lǐng)域正得到迅速推廣。
問:為什么會發(fā)生這樣的改變?
Johnson:我的博士課題主要就是利用經(jīng)典統(tǒng)計建模完成這類工作。雖然統(tǒng)計確實是一種非常非常強大的工具,但統(tǒng)計工具可能會也可能不會產(chǎn)生能夠達到真實質(zhì)量的細胞圖像。我可以在細胞之內(nèi)進行模糊分布,然后指定某個亮度更高的位置認為其就是線粒體的所處位置。但人們會說,“可是,這看起來根本不像真正的細胞。”這確實讓我非常沮喪,因為我所使用的數(shù)學(xué)與概率計算都正確無誤。
但在我們看到第一張來自無標(biāo)記預(yù)測模型的圖像時,其看起來真的非常真實。我們能夠明確看到細胞中各個組成部分的分布位置。人們驚訝得合不攏嘴,然后我們就決定沿著這個方向探索下去。
問:眼見是否為實?
Johnson:是的,當(dāng)然為實。實際上,我們使用明場圖像作為指導(dǎo)的結(jié)果讓人們感到震驚,因為在成像領(lǐng)域,明場圖像主要充當(dāng)一次性數(shù)據(jù)。當(dāng)我們拍攝這些組織圖像時,僅僅需要在上面照射正常的光線,目的是弄清楚顯微鏡是否正常聚焦在樣品之上。然后,這些圖像就被保存在磁盤上的某個地方,再也沒人拿出來用了。相較于極為昂貴的熒光分子標(biāo)記實驗,明場圖像的成本幾乎可以忽略不計。如果能夠利用這些昂貴的數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型,而后借此預(yù)測所拍攝明場圖像的細胞內(nèi)部結(jié)構(gòu),將為我們節(jié)約下大量的時間與金錢。
問:您是否需要訓(xùn)練多個獨立的深度學(xué)習(xí)模型,以識別細胞內(nèi)的不同部分?這些模型在識別效果上是否確有差別?
Johnson:與細胞膜結(jié)合的細胞器,例如細胞核與線粒體,一般比較容易預(yù)測。其它非膜結(jié)合細胞器,例如微管或者高爾基體,則很難預(yù)測。究其原因,在于這些細胞器的密度與細胞內(nèi)周邊區(qū)域的密度差別不大。
問:那您是如何克服這些局限的?
Johnson:一般我們會利用偏振光或者其它光學(xué)性成像技巧以獲得不同級別的圖像內(nèi)對比度,而不僅僅使用正常的透射光。
或者,如果我們當(dāng)前的實驗只能使用三個熒光標(biāo)記,我會刻意避免利用它們標(biāo)記系統(tǒng)已經(jīng)擅長預(yù)測的結(jié)構(gòu),而是用在相對較難預(yù)測的結(jié)構(gòu)身上——例如肌動蛋白與微管等細胞內(nèi)結(jié)構(gòu)。
問:我們觀察到,您與艾倫研究所(the Allen Institute)的其他科學(xué)家可以不斷改進這些模型,而“集成細胞”正是這項工作的后續(xù)成果。那么,艾倫研究所之外的科學(xué)家們也能享受由此帶來的便利嗎?
Johnson:可以的,這也是我們整個項目中的一大重要組成部分。當(dāng)谷歌構(gòu)建AlphaGo并擊敗全球最強的圍棋選手時,這套系統(tǒng)已經(jīng)擁有相當(dāng)于人類200年的訓(xùn)練積累。除了亞馬遜或者微軟之外,沒有其它機構(gòu)能夠拿出同樣的資源進行如此充分的訓(xùn)練。我們希望其他人也能在自己的實驗室中利用我們的細胞系與技術(shù)進行自己的研究——當(dāng)然,他們不一定需要像我們這樣設(shè)置非常精細的操作流程。
我們的努力方向之一,是在商業(yè)硬件上構(gòu)建這類模型——也就是一臺帶有顯卡的普通計算機。系統(tǒng)需要的訓(xùn)練圖像,則可以在正常實驗室中由普通研究人員輕松獲取。我們所有的模型都只需要大約30張熒光標(biāo)記細胞結(jié)構(gòu)圖像即可訓(xùn)練完成,一位研究生在一個下午時間里就能搞定。另外,完成這項工作的計算機大約只需要2000美元成本,就實驗室設(shè)備而言這無疑相當(dāng)便宜。如果真的需要構(gòu)建一套實用性模型,這樣的前提條件已經(jīng)非常寬松了。
問:您如何看待這項技術(shù)進步?您希望細胞生物學(xué)家在AI的幫助下獲得怎樣的觀察能力?
Johnson:我們想做的是拍攝一部關(guān)于細胞的影片,觀察其內(nèi)部結(jié)構(gòu)之間的關(guān)系如何在預(yù)測層面發(fā)生變化。
以微管與DNA為例。當(dāng)細胞分裂為兩個時,通常由負責(zé)幫助細胞保持形態(tài)的微管取出DNA,并將其拆分為細胞兩側(cè)的兩份副本。這種現(xiàn)象已經(jīng)得到大家的認可,也是細胞生物學(xué)家們的必修課。但是,這兩種結(jié)構(gòu)之間存在諸多關(guān)聯(lián),這些關(guān)系非常微妙,人們可能很難直接進行觀察。我們希望利用這些前沿計算機視覺與機器學(xué)習(xí)方法自動解析不同結(jié)構(gòu)之間的相互關(guān)系。
問:這項成果是否僅適用于圖像數(shù)據(jù)?
Johnson:不,我們沒必要給自己設(shè)限。我們可以對細胞中的各種信號進行提取,測量細胞形態(tài),并建立起各結(jié)構(gòu)間的相互關(guān)系。再次用玻璃汽車來做比喻:我們不僅能夠看到所有部件都打上了明顯的標(biāo)簽,還可以看到車輛的里程數(shù)、組裝時間、部件工作時長、是否進行過更換等等。
大家可以將這項技術(shù)培訓(xùn)視為顯微鏡的數(shù)據(jù)驅(qū)動機制,未來的顯微鏡可能會配上虛擬現(xiàn)實顯示器。我們能夠在自己的細胞或者任何其它測量過程中測量任何對象,并了解這些對象之間的關(guān)系。這完全改變了我們對于生物學(xué)乃至一般性科學(xué)的思考方式。當(dāng)科學(xué)家們觀察自己的組織樣本時,我希望他們能夠用上這樣的顯示器,并預(yù)測出我們能夠在細胞當(dāng)中測量得到的一切結(jié)論。