探索自然本源!谷歌2022年終總結第七彈:「生化環(huán)材」如何吃上機器學習紅利?
隨著機器學習和量子計算的巨大進步,我們現(xiàn)在有了更強大的新工具,能夠以新的方式與各行業(yè)研究者合作,并從根本上加速突破性科學發(fā)現(xiàn)的進展。
本期谷歌年終總結的主題是「自然科學」,文章作者為谷歌研究院的杰出科學家John Platt,1989年博士畢業(yè)于加州理工大學。
自從八年前加入 Google Research 以來,我有幸成為一個天才研究人員的社區(qū)的一員,致力于應用前沿計算技術來推動應用科學的可能性,目前團隊正在探索物理和自然科學的課題,從幫助組織全世界的蛋白質和基因組信息以造福人們的生活,到利用量子計算機提高我們對宇宙本質的理解。
利用機器學習解開生物學之謎
生物學的非凡復雜性讓無數(shù)研究人員感到著迷,從探究大腦的奧秘、探究蛋白質的構造,再到編碼生命語言的基因組,谷歌一直與來自世界各地其他領先組織的科學家合作,應對連接組學(connectomics)、蛋白質功能預測和基因組學領域的重大挑戰(zhàn),并使創(chuàng)新成果能夠為更廣泛的科學界所利用。
神經(jīng)生物學
2018年,谷歌開發(fā)的一個應用是探索信息是如何通過斑馬魚大腦中的神經(jīng)元通路傳播的,提供了對斑馬魚如何參與像群集這樣的社會行為的深入觀察結果。
論文鏈接:https://www.nature.com/articles/s41592-018-0049-4
通過與馬克斯 · 普朗克生物智能研究所(Max Planck Institute for Biology Intelligence)的研究人員合作,研究人員們用計算機重建了一部分斑馬魚大腦的3D 電子顯微鏡圖像。
這也是在利用成像和計算管道繪制小腦中的神經(jīng)元回路方面取得的里程碑式的進展,也是連接組學領域的又一次進步。
這項工作涉及到的技術甚至可以應用到神經(jīng)科學以外的領域,例如,為了解決處理大型的連接組學數(shù)據(jù)集的難題,谷歌的研究人員開發(fā)并發(fā)布了 TensorStore,一個開源的 C++ 和 Python 軟件庫,專門用于存儲和操作 n 維數(shù)據(jù),在其他領域也適用于存儲大型數(shù)據(jù)集。
代碼鏈接:https://github.com/google/tensorstore
通過比較人類語言處理和自回歸深層語言模型(DLM) ,研究人員利用機器學習闡明了人類大腦是如何執(zhí)行像語言這樣與眾不同的功能。
論文鏈接:https://www.nature.com/articles/s41593-022-01026-4
在這項研究中,谷歌與普林斯頓大學和紐約大學格羅斯曼醫(yī)學院的研究者合作,讓實驗參與者聽30分鐘的播客,同時使用皮層腦電圖記錄他們的大腦活動。
記錄結果表明,人類大腦和 DLM 共享處理語言的計算原理,包括連續(xù)的下一個單詞預測,依賴上下文嵌入,以及基于單詞匹配的post-onset suprise計算,即可以測量人類大腦對單詞的驚訝(surprise)程度,并將驚訝信號與 DLM 對單詞的預測程度相關聯(lián)。
這些結果為人類大腦中的語言處理提供了新的結論,并且表明 DLM 可以用來揭示語言的神經(jīng)基礎的有價值的見解。
生物化學
機器學習還使得在理解生物序列方面取得了重大進展,研究人員利用深度學習的最新進展,從原始氨基酸序列中準確預測蛋白質功能。
論文鏈接:https://www.nature.com/articles/s41587-021-01179-w
谷歌還與歐洲分子生物學實驗室的歐洲生物信息研究所(EMBL-EBI)開展緊密合作,仔細評估模型的性能,并向公共蛋白質數(shù)據(jù)庫 UniProt、 Pfam/interPro 和 MGnify 添加了數(shù)以億計的功能標注。
論文鏈接:https://www.nature.com/articles/s41587-021-01179-w.epdf
人類對蛋白質數(shù)據(jù)庫的標注可能是一個艱苦而緩慢的過程,而谷歌提出的機器學習方法使得標注速度實現(xiàn)了一個巨大的飛躍。
例如,Pfam標注增加的數(shù)量比過去十年所有其他努力的總和還要多,全世界每年訪問這些數(shù)據(jù)庫的數(shù)百萬科學家現(xiàn)在可以利用該標注進行研究。
雖然人類基因組的第一稿于2003年公布,但由于測序技術的技術局限性,它并不完整。
2022年,Telomere-2-Telomere (T2T) 聯(lián)盟在解決這些先前無法獲得的區(qū)域(包括5個完整的染色體臂和近2億個新 DNA 序列堿基對)方面取得的顯著成就,這些區(qū)域對于人類生物學、進化和疾病的問題既有趣又重要。
谷歌的開源基因組變體caller,即DeepVariant是 T2T 聯(lián)盟使用的工具之一,以用于準備發(fā)布一個完整的30.55億堿基對的人類基因組序列。
論文鏈接:https://www.nature.com/articles/nbt.4235
T2T 聯(lián)盟也正在使用谷歌開源的方法 DeepConsensus,為 Pacific Biosciences 長期閱讀測序儀器提供設備上的錯誤糾正,在T2T對全面的泛基因組資源的最新研究中,可以代表人類遺傳多樣性的廣度。
論文鏈接:https://www.nature.com/articles/s41587-022-01435-7.epdf
量子計算在新物理發(fā)現(xiàn)中的應用
在促進科學發(fā)現(xiàn)上,量子計算仍處于初級階段,但其具有很大的潛力,所以谷歌正在探索提高量子計算能力的方法,以使量子在計算成為科學發(fā)現(xiàn)和突破的工具。
通過與來自世界各地的物理學家合作,研究人員開始使用現(xiàn)有的量子計算機來創(chuàng)建全新的物理實驗,其中一個量子實驗問題是:當傳感器測量一個物體時,需要用計算機處理來自傳感器的數(shù)據(jù)。
在傳統(tǒng)的處理過程中,需要將傳感器的數(shù)據(jù)轉換為經(jīng)典信息(classical information)后再進行處理。
對于量子計算來說,可以直接處理來自傳感器的量子數(shù)據(jù),將量子傳感器的數(shù)據(jù)直接提供給量子算法,而無需經(jīng)過測量,相比傳統(tǒng)計算機會有更大的優(yōu)勢。
論文鏈接:https://www.science.org/doi/10.1126/science.abn7293
在谷歌最近與多所大學的研究人員合作撰寫發(fā)表的一篇Science論文中,實驗結果表明,只要量子計算機與量子傳感器直接耦合并運行一個學習算法,量子計算可以從比經(jīng)典計算少得多的實驗中提取信息。
即使在目前還不成熟的中等規(guī)模量子計算機上,「量子機器學習」也可以在數(shù)據(jù)集上產(chǎn)生指數(shù)級的優(yōu)勢。
論文鏈接:https://arxiv.org/abs/2112.00778
由于實驗數(shù)據(jù)往往是科學發(fā)現(xiàn)的限制因素,量子機器學習算法有可能完全釋放出量子計算機的巨大威力,更強的是,這項工作的研究結果也適用于學習量子計算的輸出,如很難抽取的量子模擬輸出。
即使沒有量子機器學習,量子計算機的一個很有前景的應用是實驗性地探索那些無法觀察或模擬的量子系統(tǒng)。
2022年,Quantum AI 團隊利用這種方法觀察到了第一個使用超導量子比特處于束縛態(tài)的多個微波光子的實驗證據(jù)。
論文鏈接:https://www.nature.com/articles/s41586-022-05348-y
光子通常需要額外的非線性元素才能相互作用,谷歌的量子計算機對這些相互作用的模擬結果出乎研究人員的意料:本來以為這些束縛態(tài)的存在依賴于脆弱的條件,但實際上卻發(fā)現(xiàn)它們甚至對相對強烈的擾動都是穩(wěn)健的。
鑒于谷歌在應用量子計算取得物理學突破方面取得的初步成功,研究人員對這項技術的可能性還抱有很大的希望,將使未來的突破性發(fā)現(xiàn)能夠產(chǎn)生與晶體管或全球定位系統(tǒng)的創(chuàng)造一樣重大的社會影響。
把量子計算作為一種科學工具是非常有前景的!