Bengio團(tuán)隊(duì)Nature發(fā)文:四個(gè)維度講AI for Science,還討論了AI跨界核心挑戰(zhàn)
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
最近,Yoshua Bengio帶領(lǐng)團(tuán)隊(duì)展示了一場(chǎng)人工智能十年跨界秀。
從數(shù)據(jù)收集到模型構(gòu)建,從實(shí)驗(yàn)設(shè)計(jì)到過(guò)程控制,AI跨界正在改變科學(xué)研究方式,成為科學(xué)發(fā)現(xiàn)引擎。
盡管科學(xué)實(shí)踐因科學(xué)研究階段而異,但AI的發(fā)展跨越了傳統(tǒng)上孤立的學(xué)科。
例如在粒子物理實(shí)驗(yàn)中,每秒產(chǎn)生的海量數(shù)據(jù)難以處理和存儲(chǔ),AI模型可以通過(guò)異常檢測(cè)算法在實(shí)時(shí)流中找出罕見(jiàn)事件,大大減少存儲(chǔ)壓力。
在生物信息學(xué)領(lǐng)域,AI可以給海量未標(biāo)注的基因序列賦予功能注釋,幫助后續(xù)模型的訓(xùn)練。
AI正賦能眾多科學(xué)領(lǐng)域的研究發(fā)現(xiàn),融入科學(xué)發(fā)現(xiàn)的假設(shè)形成、實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)收集和分析各個(gè)階段。
在“Scientific discovery in the age of artificial intelligence”這篇Yoshua Bengio領(lǐng)隊(duì)的論文中,研究人員詳解了自監(jiān)督學(xué)習(xí)、幾何深度學(xué)習(xí)、生成式人工智能等技術(shù)在科學(xué)研究中的應(yīng)用,并提出了目前AI跨界仍存在的核心問(wèn)題,目前該論文已刊于Nature綜述文章。
來(lái)看大佬如何總結(jié)AI for Science。
十年科學(xué)發(fā)現(xiàn)中AI的身影
在這篇論文中,研究人員從AI輔助的科學(xué)研究數(shù)據(jù)收集和整理、學(xué)習(xí)有意義的科學(xué)數(shù)據(jù)表示、使用AI生成科學(xué)假說(shuō)、AI驅(qū)動(dòng)的實(shí)驗(yàn)和模擬幾個(gè)方面講述了近年來(lái)AI在科學(xué)研究中的應(yīng)用。
AI輔助的科學(xué)研究數(shù)據(jù)收集和整理
科學(xué)發(fā)現(xiàn)和理論的形成基于數(shù)據(jù)的收集、轉(zhuǎn)化和理解,過(guò)去十年AI在數(shù)據(jù)的選擇、標(biāo)注、生成、精化等方面得到了廣泛應(yīng)用。
在數(shù)據(jù)選擇(Data selection)方面,隨著科學(xué)實(shí)驗(yàn)中收集的數(shù)據(jù)集規(guī)模和復(fù)雜性不斷增加,科學(xué)研究越來(lái)越依賴實(shí)時(shí)處理和高性能計(jì)算來(lái)選擇性地存儲(chǔ)和分析數(shù)據(jù)。
一個(gè)典型案例就是粒子碰撞實(shí)驗(yàn),每秒將生成超100TB的數(shù)據(jù),這給數(shù)據(jù)傳輸和存儲(chǔ)帶來(lái)巨大挑戰(zhàn)。
在這類物理實(shí)驗(yàn)中,超過(guò)99.99%的原始數(shù)據(jù)都屬于背景事件,需要實(shí)時(shí)檢測(cè)并丟棄。
為了識(shí)別用于科學(xué)研究的罕見(jiàn)事件,深度學(xué)習(xí)方法取代了預(yù)編程的硬件事件觸發(fā)器,而是使用算法搜索異常信號(hào),并檢測(cè)出可能被忽略的罕見(jiàn)現(xiàn)象。
這種無(wú)監(jiān)督方法不需要標(biāo)注樣本,已被廣泛應(yīng)用在物理、神經(jīng)科學(xué)、地球科學(xué)等領(lǐng)域。
在數(shù)據(jù)標(biāo)注(Data annotation)方面,訓(xùn)練監(jiān)督學(xué)習(xí)模型需要大量標(biāo)注過(guò)的數(shù)據(jù)集來(lái)提供監(jiān)督信息,但是科研數(shù)據(jù)的標(biāo)注工作非常耗時(shí)耗力。
AI的加入提供了用半監(jiān)督學(xué)習(xí)方法自動(dòng)標(biāo)注大規(guī)模無(wú)標(biāo)注數(shù)據(jù)集的選擇:
(1) 偽標(biāo)記(Pseudo-labelling):使用預(yù)訓(xùn)練模型為無(wú)標(biāo)注樣本生成偽標(biāo)簽,然后用這些偽標(biāo)簽來(lái)訓(xùn)練后續(xù)預(yù)測(cè)模型。
(2) 標(biāo)簽傳播(Label propagation):基于特征嵌入構(gòu)建樣本相似圖,然后將已有標(biāo)簽擴(kuò)散到無(wú)標(biāo)注樣本上。
(3) 主動(dòng)學(xué)習(xí)(Active learning):識(shí)別人類標(biāo)注的最有信息量的數(shù)據(jù)點(diǎn),或者確定要執(zhí)行的最有信息量的實(shí)驗(yàn)。
在數(shù)據(jù)生成(Data generation)方面,提高訓(xùn)練數(shù)據(jù)的質(zhì)量、多樣性和規(guī)模可以改善深度學(xué)習(xí)的性能。
文中提到了兩種主要的合成數(shù)據(jù)增強(qiáng)方法:
(1) 自動(dòng)數(shù)據(jù)增強(qiáng):手動(dòng)設(shè)計(jì)或用增強(qiáng)學(xué)習(xí)方法發(fā)現(xiàn)自動(dòng)數(shù)據(jù)增強(qiáng)策略。
(2) 深度生成模型:可以學(xué)習(xí)底層數(shù)據(jù)分布,然后從優(yōu)化的分布中采樣新的訓(xùn)練點(diǎn)。
生成對(duì)抗網(wǎng)絡(luò)(GAN)已被證明對(duì)科研圖像合成有益,可以合成各領(lǐng)域的逼真圖像。
此外,概率編程,用計(jì)算機(jī)程序表達(dá)數(shù)據(jù)生成模型,是一種新興的可編程生成建模方法。
目前,生成數(shù)據(jù)已被廣泛應(yīng)用于粒子物理、病理切片、X光、MRI、材料微結(jié)構(gòu)、蛋白功能等領(lǐng)域。
在數(shù)據(jù)精化(Data refinements)方面,超高分辨率激光器等高精度儀器可以直接或間接測(cè)量真實(shí)世界對(duì)象,產(chǎn)生高度準(zhǔn)確的數(shù)據(jù)。
使用AI技術(shù)可以顯著提高測(cè)量分辨率,減少噪聲、消除誤差。
例如,深度卷積網(wǎng)絡(luò)可以將質(zhì)量較差的時(shí)空分辨率低的數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量、超分辨率和結(jié)構(gòu)化的圖像。
去噪自編碼器可以將高維輸入數(shù)據(jù)投影到更緊湊的基本特征表示中,變分自編碼器(VAE)通過(guò)潛在自編碼學(xué)習(xí)隨機(jī)表示,保留了基本數(shù)據(jù)特征,同時(shí)忽略了非基本的變化因素。
在科學(xué)實(shí)驗(yàn)中應(yīng)用的例子包括可視化時(shí)空區(qū)域,如黑洞、捕捉物理粒子碰撞、提高活細(xì)胞圖像的分辨率等。
學(xué)習(xí)有意義的科學(xué)數(shù)據(jù)表示
深度學(xué)習(xí)能夠在不同抽象層次上提取科學(xué)數(shù)據(jù)的有意義表示,并通過(guò)端到端學(xué)習(xí)來(lái)優(yōu)化這些表示用于指導(dǎo)研究。
優(yōu)質(zhì)的表示應(yīng)簡(jiǎn)潔并保留盡可能多的信息??茖W(xué)上有意義的表示應(yīng)具有緊湊性、可區(qū)分性、可解耦性以及對(duì)下游任務(wù)的泛化能力。
研究人員介紹了三種滿足這些要求的新興策略:幾何先驗(yàn)、自監(jiān)督學(xué)習(xí)和語(yǔ)言建模。
1、幾何先驗(yàn)
幾何先驗(yàn)的應(yīng)用能夠有效地捕捉數(shù)據(jù)的幾何和結(jié)構(gòu)特征,這在科學(xué)領(lǐng)域尤為重要。
對(duì)稱性是其中的一個(gè)關(guān)鍵概念,可以用不變性和等變性來(lái)描述,用于表示數(shù)學(xué)函數(shù)在一組變換下的行為規(guī)律。
比如一些重要的結(jié)構(gòu)屬性,像分子系統(tǒng)的二級(jí)結(jié)構(gòu)、溶劑可及性、殘基緊湊性和氫鍵模式等,在空間方向上是不變的。
在科學(xué)圖像分析中,對(duì)象在圖像中平移時(shí)不會(huì)改變,這意味著圖像分割掩碼是平移等變的,因?yàn)樗鼈冊(cè)谄揭戚斎胂袼貢r(shí)等效地變化。
通過(guò)將對(duì)稱性等因素納入模型中,可以改善在少標(biāo)注數(shù)據(jù)集下的AI應(yīng)用。通過(guò)增加訓(xùn)練樣本,可以改進(jìn)對(duì)于與模型訓(xùn)練過(guò)程中遇到的輸入顯著不同的外推預(yù)測(cè)。
圖神經(jīng)網(wǎng)絡(luò)已成為在具有底層幾何和關(guān)系結(jié)構(gòu)的數(shù)據(jù)集上進(jìn)行深度學(xué)習(xí)的主要方法之一。
幾何深度學(xué)習(xí)顯式利用局部化的圖信息或變換群信息,通過(guò)神經(jīng)消息傳遞算法學(xué)習(xí)關(guān)系模式。
2、自監(jiān)督學(xué)習(xí)
在標(biāo)注數(shù)據(jù)不足時(shí),僅依賴監(jiān)督學(xué)習(xí)是不夠的,利用無(wú)標(biāo)注數(shù)據(jù)可以提高模型性能和學(xué)習(xí)能力。
自監(jiān)督學(xué)習(xí)使用無(wú)標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)一般特征,主要策略包括:
- 預(yù)測(cè)圖像的遮擋區(qū)域
- 預(yù)測(cè)視頻的前后幀
- 對(duì)比學(xué)習(xí)使模型區(qū)分相似和不相似數(shù)據(jù)點(diǎn)
自監(jiān)督學(xué)習(xí)可以預(yù)訓(xùn)練模型抓取大規(guī)模無(wú)標(biāo)注數(shù)據(jù)的特征,然后在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。
3、語(yǔ)言建模
語(yǔ)言建模是一種流行的自監(jiān)督學(xué)習(xí)方法,可以用于學(xué)習(xí)自然語(yǔ)言和生物序列的特征。
在訓(xùn)練過(guò)程中,主要目標(biāo)是預(yù)測(cè)序列中的下一個(gè)token,而在基于掩碼的訓(xùn)練中,自監(jiān)督任務(wù)是使用雙向序列上下文來(lái)恢復(fù)序列中的掩碼token。
原子或氨基酸的排列類似于字母組成單詞和句子,用于定義分子和生物功能的結(jié)構(gòu)。蛋白質(zhì)語(yǔ)言模型可以編碼氨基酸序列以捕捉其結(jié)構(gòu)和功能特性,并評(píng)估變異的進(jìn)化適應(yīng)性。
這些表示方法可以在各種任務(wù)中傳遞應(yīng)用,包括序列設(shè)計(jì)和結(jié)構(gòu)預(yù)測(cè)。在處理生物化學(xué)序列時(shí),化學(xué)語(yǔ)言模型能夠有效地探索廣闊的化學(xué)空間,用于預(yù)測(cè)性質(zhì)、計(jì)劃合成過(guò)程以及探索化學(xué)反應(yīng)的可能性。
說(shuō)到這里,就不得不提Transformer架構(gòu),它能夠通過(guò)靈活地建模任意token對(duì)之間的交互,從而處理token序列,超越了使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行序列建模的早期嘗試。
在自然語(yǔ)言處理領(lǐng)域,Transformer已占據(jù)主導(dǎo)地位,并成功應(yīng)用于地震信號(hào)檢測(cè)、DNA 和蛋白質(zhì)序列建模、模擬序列變異對(duì)生物功能的影響、符號(hào)回歸等系列問(wèn)題。
使用AI生成科學(xué)假說(shuō)
可檢驗(yàn)的假設(shè)是科學(xué)發(fā)現(xiàn)的核心,它們可以來(lái)源于數(shù)學(xué)中的符號(hào)表達(dá)式、化學(xué)中的分子、生物學(xué)中的基因變異……
但提出這樣一種有意義的假設(shè)可能需要漫長(zhǎng)的時(shí)間,正如Johannes Kepler,花費(fèi)了四年時(shí)間分析恒星和行星數(shù)據(jù),才得出了一個(gè)能發(fā)現(xiàn)行星運(yùn)動(dòng)定律的假設(shè)。
AI可以用以下幾種方式幫助提出科學(xué)假說(shuō):
(1) 黑箱預(yù)測(cè)器:高通量快速篩選候選假說(shuō),選擇有價(jià)值的進(jìn)行后續(xù)驗(yàn)證。
(2) 導(dǎo)航組合假說(shuō)空間:使用強(qiáng)化學(xué)習(xí)評(píng)估每次搜索的回報(bào),聚焦在最有前景的假說(shuō)要素上。
(3) 優(yōu)化可微假說(shuō)空間:將離散假說(shuō)空間映射到連續(xù)可微空間進(jìn)行優(yōu)化。
這些AI方法為科學(xué)假說(shuō)的生成、評(píng)價(jià)和選擇提供了強(qiáng)有力的新工具。
AI驅(qū)動(dòng)的實(shí)驗(yàn)和模擬
通過(guò)實(shí)驗(yàn)評(píng)估科學(xué)假設(shè)對(duì)于科學(xué)發(fā)現(xiàn)至關(guān)重要,但實(shí)驗(yàn)成本高昂。
AI技術(shù)可以優(yōu)化實(shí)驗(yàn)的參數(shù)設(shè)置、步驟設(shè)計(jì)等,減少不必要的試驗(yàn),提高資源利用效率。
強(qiáng)化學(xué)習(xí)可以根據(jù)實(shí)時(shí)反饋動(dòng)態(tài)調(diào)整實(shí)驗(yàn)方向,最大化實(shí)驗(yàn)成功率和安全性。
計(jì)算模擬可以探索實(shí)際難以實(shí)現(xiàn)的情況,補(bǔ)充實(shí)驗(yàn)。但是依賴于人為設(shè)置的簡(jiǎn)化參數(shù)和啟發(fā)式方法,精度和效率存在局限。
然而,隨著深度學(xué)習(xí)的出現(xiàn),通過(guò)識(shí)別和優(yōu)化假設(shè)進(jìn)行有效測(cè)試,以及使計(jì)算機(jī)模擬能夠?qū)⒂^察結(jié)果與假設(shè)聯(lián)系起來(lái),這些問(wèn)題正被解決。
這些AI驅(qū)動(dòng)的實(shí)驗(yàn)優(yōu)化和計(jì)算模擬方法,已經(jīng)在量子物理、化學(xué)合成、聚變反應(yīng)堆控制等領(lǐng)域展現(xiàn)出價(jià)值。
AI跨界面臨重大挑戰(zhàn)
值得一提的是,文中還討論了AI在科學(xué)發(fā)現(xiàn)中面臨的挑戰(zhàn)。
人工智能系統(tǒng)可以成為科學(xué)家發(fā)現(xiàn)新知識(shí)的重要助手,但也存在潛在的安全隱患。
例如,科學(xué)數(shù)據(jù)存在不完整、偏差等問(wèn)題,需要規(guī)范化;還需要考慮數(shù)據(jù)的可訪問(wèn)性、隱私等。模型和數(shù)據(jù)的標(biāo)準(zhǔn)化也很必要。
其次,分布偏移是一個(gè)核心問(wèn)題,需要增強(qiáng)模型的泛化能力。處理多模態(tài)科學(xué)數(shù)據(jù)仍有挑戰(zhàn),如何系統(tǒng)地整合科學(xué)知識(shí)和原理也需要進(jìn)一步探索,增強(qiáng)模型的解釋性和可信度亦很重要。
此外,AI專業(yè)人才短缺和計(jì)算資源需求巨大,需要產(chǎn)學(xué)界進(jìn)一步合作,科學(xué)家需要掌握AI的適用性,還需建立倫理審查流程。
研究人員認(rèn)為:
AI工具的錯(cuò)誤應(yīng)用和對(duì)其結(jié)果的錯(cuò)誤解讀可能會(huì)產(chǎn)生重大的負(fù)面影響。廣泛的應(yīng)用范圍使這些風(fēng)險(xiǎn)變得更加復(fù)雜。
然而,人工智能的濫用不僅僅是一個(gè)技術(shù)問(wèn)題,還取決于領(lǐng)導(dǎo)人工智能創(chuàng)新和投資人工智能實(shí)施的動(dòng)機(jī)。建立道德審查流程和負(fù)責(zé)任的實(shí)施策略至關(guān)重要,包括對(duì)人工智能的范圍和適用性進(jìn)行全面審查。
團(tuán)隊(duì)介紹
除了Yoshua Bengio帶隊(duì)外,三位華人一作也格外引人注目,他們分別是:
Hanchen Wang
斯坦福大學(xué)CS和Genentech聯(lián)合博士后研究員,劍橋大學(xué)ML博士學(xué)位。
Tianfan Fu
伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)系博士后研究員,佐治亞理工學(xué)院計(jì)算科學(xué)與工程系博士學(xué)位。
Yuanqi Du
康奈爾大學(xué)計(jì)算機(jī)科學(xué)博士研究生,2021年獲喬治梅森大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
傳送門:https://www.nature.com/articles/s41586-023-06221-2(論文鏈接)