首次實(shí)現(xiàn)納米晶體端到端解析,哥大團(tuán)隊(duì)提出PXRDnet,成功解析200種復(fù)雜模擬納米晶體 原創(chuàng)
X 射線衍射(X-ray diffraction, XRD)的發(fā)現(xiàn)和應(yīng)用堪稱晶體學(xué)發(fā)展中的一個(gè)重要里程碑,因?yàn)樵摷夹g(shù)使得人們能夠深入了解晶體的微觀結(jié)構(gòu),繼而帶動(dòng)了材料學(xué)和整個(gè)人類文明的進(jìn)步。然而,當(dāng)傳統(tǒng)的方法與由微小顆粒組成的粉末狀納米晶體不期而遇時(shí),理想的結(jié)果卻并未發(fā)生。
由于納米晶體尺寸有限(通常小于 1000 ?),其 X 射線衍射圖譜中布拉格峰會(huì)出現(xiàn)明顯展寬,導(dǎo)致結(jié)構(gòu)信息出現(xiàn)嚴(yán)重的實(shí)質(zhì)性退化,這為精確解析其晶體結(jié)構(gòu)帶來(lái)了巨大挑戰(zhàn)。除此之外,實(shí)際情況中難以獲取純單晶樣品會(huì)進(jìn)一步加大結(jié)構(gòu)解析的難度,納米晶體結(jié)構(gòu)解析也成為了困擾材料科學(xué)界長(zhǎng)達(dá)百年之久的「世紀(jì)難題」。
針對(duì)于此,哥倫比亞大學(xué)、斯坦福大學(xué)的研究人員提出了一種基于擴(kuò)散模型的生成式人工智能結(jié)構(gòu)解析方法 PXRDnet。該模型利用已知的 45,229 個(gè)晶體結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù),引入統(tǒng)計(jì)先驗(yàn)知識(shí)。即便僅以化學(xué)式和信息稀缺的有限尺寸展寬粉末衍射圖為條件,PXRDnet 也能成功解析 200 種不同對(duì)稱性和復(fù)雜性的模擬納米晶體,涵蓋來(lái)自所有 7 個(gè)晶體系統(tǒng)的結(jié)構(gòu),最小粒徑可至 10 ?。實(shí)驗(yàn)結(jié)果表明,該模型可以成功并可驗(yàn)證地確定 5 次中的 4 次結(jié)構(gòu)候選者,通過(guò) rietveld 細(xì)化 r 因子測(cè)量后平均誤差僅為 7%。
相關(guān)研究以「Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models」為題,發(fā)表于 Nature Materials。
研究亮點(diǎn):
* 該成果破解了長(zhǎng)期困擾材料科學(xué)界的納米晶體結(jié)構(gòu)解析難題,并提供了一款高效的人工智能解析工具,有望推動(dòng)納米技術(shù)、生物醫(yī)學(xué)、能源存儲(chǔ)、電子器件等多領(lǐng)域的創(chuàng)新應(yīng)用
* 該方法顯著突破了傳統(tǒng)方法的適用邊界,并在多個(gè)案例中獲得接近真實(shí)結(jié)構(gòu)的候選解
* 研究提出了 MP-20-PXRD 基準(zhǔn)數(shù)據(jù)集(包含 Materials Project 中 20 個(gè)原子以內(nèi)的穩(wěn)定材料及其模擬衍射數(shù)據(jù)),并公開(kāi)了代碼和數(shù)據(jù)集,為后續(xù)研究提供了統(tǒng)一標(biāo)準(zhǔn)
論文地址:
Materials Project 在線材料數(shù)據(jù)庫(kù):
??https://go.hyper.ai/2gCe9??
數(shù)據(jù)集:提出 MP-20-PXRD 基準(zhǔn)數(shù)據(jù)集
為了得到有效的模型,研究人員提供了一個(gè)名為 MP-20-PXRD 的基準(zhǔn)數(shù)據(jù)集,用來(lái)對(duì) PXRDnet 進(jìn)行以端到端的訓(xùn)練。
具體來(lái)說(shuō),研究人員采用了 Materials Project 的 MP-20 數(shù)據(jù)集,該數(shù)據(jù)集由從 Materials Project 數(shù)據(jù)庫(kù)中采樣的材料組成,其晶胞內(nèi)原子數(shù)量最多為 20 個(gè)。然后研究人員采用 pymatgen package 模擬 MP-20 中所有結(jié)構(gòu)的粉末衍射圖。
Materials Project 在線材料數(shù)據(jù)庫(kù):
??https://go.hyper.ai/2gCe9??
模擬采用了 Cu Kα 輻射,且 Q 值范圍為 0-8.1568 ??1。
MP-20-PXRD 數(shù)據(jù)集包含 45,229 種材料,按照 90%、7.5%、2.5% 的比例用以訓(xùn)練、驗(yàn)證和測(cè)試。值得一提的是,MP-20-PXRD 數(shù)據(jù)集已被開(kāi)源,研究人員希望以此激勵(lì)「后來(lái)者」進(jìn)一步探索納米晶體結(jié)構(gòu)解析新方案。
模型架構(gòu):基于 CDVAE 打造,引入 PXRD 回歸器
PXRDnet 模型基于 CDVAE 架構(gòu)設(shè)計(jì),主要包含 3 個(gè)主要分支,即原子去噪聲分支、變分自編碼器(variational autoencoder, VAE)分支和 PXRD 回歸器,它們通過(guò)共享的高斯?jié)撛诖a相連接。該方法使得 PXRDnet 能夠在給定 PXRD 模式和化學(xué)式的情況下,準(zhǔn)確生成符合要求的材料結(jié)構(gòu)候選,為納米材料結(jié)構(gòu)解析提供了新見(jiàn)解。
PXRDnet 訓(xùn)練過(guò)程
基于 CDVAE 的骨架開(kāi)發(fā)
介紹 PXRDnet,就不得不提到 CDVAE 模型,這是前者創(chuàng)建的基礎(chǔ)。
CDVAE 是一種材料結(jié)構(gòu)生成模型,其靈感來(lái)自于變分自編碼器和去噪擴(kuò)散網(wǎng)絡(luò),是一種學(xué)習(xí)從噪聲中解壓縮數(shù)據(jù)的生成模型。
為了理解 VAE 和擴(kuò)散組件的分解,研究人員認(rèn)識(shí)到材料的晶胞可以用 4 個(gè)組件來(lái)表示,即化學(xué)成分、原子數(shù)、晶格參數(shù)和原子坐標(biāo)。
CDVAE 的第一個(gè)分支使用 VAE 處理前三個(gè)組件,編碼器為 DimeNet —— 一種 SE(3)- 不變圖神經(jīng)網(wǎng)絡(luò)(SE (3)-invariant Graph Neural Network),它可以將材料的圖表示映射為潛在表示 z。圖表示被修改為有向多重圖,以體現(xiàn)材料固有的周期性。然后研究人員通過(guò) kullback-Leibler 散度損失,潛在表示 z 被正則化為多元高斯分布,接著從 z 解碼出化學(xué)成分、原子數(shù)和晶格參數(shù)。
每個(gè)預(yù)測(cè)都由一個(gè)單獨(dú)的晶體參數(shù)多層感知器(MLP)生成,該感知器接收潛在編碼 z。z 將在隨后模型的所有其他分支中用作材料表示。
CDVAE 的第二個(gè)分支通過(guò)噪聲條件評(píng)分網(wǎng)絡(luò)(noise-conditioned score network)利用去噪擴(kuò)散來(lái)處理組件。它假設(shè)組件原子數(shù)和晶格參數(shù)是固定的,正向過(guò)程用多元高斯噪聲擾動(dòng)原子坐標(biāo)和原子種類;反向過(guò)程用 GemNet 參數(shù)化,這是一種 SE(3)- 等變圖神經(jīng)網(wǎng)絡(luò) (equivariant graph neural network)。該過(guò)程以上述潛在編碼 z 為條件,這是其正常工作的基礎(chǔ)。
值得一提的是,反向過(guò)程本質(zhì)上是預(yù)測(cè)如何通過(guò) Langevin 動(dòng)力學(xué)對(duì)受擾動(dòng)的原子坐標(biāo)和種類進(jìn)行去噪,使它們移動(dòng)到真實(shí)位置并恢復(fù)為真實(shí)種類。同樣輸出圖表示是一個(gè)有向多重圖,與材料的周期性兼容。
生成階段,CDVAE 首先從多元高斯分布中采樣一個(gè)潛在代碼 z ≈?N(0, I),利用晶體參數(shù)多層感知器對(duì)其進(jìn)行解碼,獲得組件化學(xué)成分、原子數(shù)和晶格參數(shù),這可用于初始化一個(gè)晶胞,其中原子位置同樣從 N(0, I)中隨機(jī)選擇,然后通過(guò) Langevin 動(dòng)力學(xué) SE(3) 等變圖去噪過(guò)程對(duì)原子位置和種類進(jìn)行優(yōu)化,其整個(gè)去噪過(guò)程中,晶格參數(shù)和原子數(shù)保持不變,最終得到生成材料。
專門(mén)設(shè)計(jì)的 PXRD 回歸器
此外,在本次研究中,粉末 X 射線衍射(PXRD)圖譜設(shè)定為期望預(yù)測(cè)的屬性,因此研究人員設(shè)計(jì)了一個(gè) PXRD 回歸器 Fψ,它將 PXRDnet 的潛在材料表征 z∈R256 映射到一個(gè)向量 y∈R512,即材料 PXRD 圖譜的估計(jì) Q 空間表征。
PXRD 回歸器由 DenseNet 啟發(fā)的架構(gòu)進(jìn)行參數(shù)化,
該架構(gòu)擴(kuò)展了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)。回歸器基于 CrystalNet 的設(shè)計(jì),具有一維輸入和輸出的密集連接架構(gòu)。具體來(lái)說(shuō),對(duì)于網(wǎng)絡(luò)中的給定深度,
DenseNet 將先前的中間數(shù)據(jù)表征聚合起來(lái),作為下一個(gè)卷積層的輸入。如下圖所示。
PXRDnet 的 PXRD 回歸量可視化展示
研究表明,DenseNet 減少了梯度消失問(wèn)題,并在標(biāo)準(zhǔn)計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。
實(shí)驗(yàn)結(jié)果:具備真實(shí)場(chǎng)景應(yīng)用潛力
通常,納米結(jié)構(gòu)被定義為尺寸小于 1000 ? 的晶體,但為了測(cè)試所提方法的有效性,研究人員將晶體的尺寸降低了兩個(gè)數(shù)量級(jí),通過(guò)傅里葉分析的數(shù)學(xué)原理過(guò)濾方法,模擬了晶體尺寸為 10 ? 和 100 ? 的 PXRD 方法。如預(yù)期,10 ? 情況下比 100 ? 情況顯示了更多的峰展寬,代表信息退化更驗(yàn)證。如下圖所示。
納米材料的 PXRD 圖譜
該圖展示了研究人員通過(guò) sinc2 濾波模擬納米尺度收縮對(duì) PXRD 峰的影響。其中,灰線代表了理想模式,紫線代表經(jīng)過(guò)處理后展寬的 PXRD 峰。為了提升模型性能,研究人員在 sinc 濾波后進(jìn)一步應(yīng)用了一個(gè)額外高斯濾波器,雖然這會(huì)加大展寬衍射峰,但卻能有效消除由濾波引起的銳利波紋。橫軸表示散射矢量的大小為 ??1,縱軸為縮放后的衍射強(qiáng)度,其中 1 表示最大強(qiáng)度值。
接下來(lái),研究人員展示了 PXRDnet 結(jié)構(gòu)預(yù)測(cè),如下圖所示。其中最左邊的一欄為真實(shí)晶體結(jié)構(gòu),其他列顯示了 PXRDnet 所模擬的直徑為 10 ? 和 100 ? 的納米晶體在 PXRD 模式中重建后晶體結(jié)構(gòu),并經(jīng)過(guò) Rietveld 精細(xì)化修正。
PXRDnet 結(jié)構(gòu)預(yù)測(cè)
結(jié)果顯示,PXRDnet 在對(duì)各種無(wú)機(jī)化學(xué)成分的材料結(jié)構(gòu)解析中表現(xiàn)出色,其中 100 ? 模擬晶體尺寸的性能略好,而更具挑戰(zhàn)的 10 ? 模擬晶體尺寸的情況下,依舊表現(xiàn)出色。例如,PXRDnet 可以成功捕獲 Cs?YCuCI? 和 SmMn?SiC 等材料的晶體形狀,還成功捕獲了 Cs?YCuCI? 和 BaSrMnWO? 等材料的對(duì)稱性。除此之外,即便在極端某些情況下,如 Li?Nb?Cu?O?? 或 Sb?F?? 等失效情況下,PXRDnet 依舊能夠?yàn)閷?shí)驗(yàn)提供有價(jià)值的參考。
下圖展示了真實(shí) PXRD 模式、PXRDnet 原始預(yù)測(cè)模式和經(jīng)過(guò) Rietveld 精修后模式的結(jié)果對(duì)比,展示了預(yù)測(cè)模型與真實(shí)數(shù)據(jù)之間的溫和程度,同時(shí)驗(yàn)證了 Rietveld 的必要性,能夠有效提升模型預(yù)測(cè)精度。例如,在 100 ? 情況下,Sb?F?? 預(yù)測(cè)差值為 0.681,經(jīng)過(guò)精修后(AI+Rietveld)來(lái)到了 0.019。
真實(shí) PXRD 模式、PXRDnet 原始預(yù)測(cè)模式和經(jīng)過(guò) Rietveld 精修后模式的結(jié)果對(duì)比
以下表格展示了 PXRDnet 能夠成功重構(gòu) MP-20 中的材料,與 CDVAE-Search 基線相比,PXRDnet 的預(yù)測(cè)結(jié)果更加突出。
材料結(jié)構(gòu)重建情況
為了進(jìn)一步改善結(jié)果,研究人員對(duì) PXRDnet 解析的 20 種均勻選取的結(jié)構(gòu)進(jìn)行了 Rietveld 精修,每個(gè)結(jié)構(gòu)選取排名最高的 10 個(gè)候選輸入。如下圖所示。
Rietveld 精修結(jié)果,a、b 分別為 10 ? 和 100 ? 納米晶體尺寸的結(jié)果
結(jié)果顯示,Rietveld 精修對(duì)于 100 ? 的測(cè)試非常有效,因?yàn)樗鼈兙哂懈逦?Bragg 峰值,在 20 個(gè)測(cè)試結(jié)構(gòu)中有 18 個(gè)的結(jié)果差值都將至 20% 以下,15 個(gè)將至 10% 以下。這表明盡管其中仍有一些小問(wèn)題,但 PXRDnet 仍然能夠持續(xù)輸出接近真實(shí)結(jié)構(gòu)的結(jié)果,而在每個(gè)案例中加入適當(dāng)人工干預(yù)就能得到正確結(jié)構(gòu)。
最后,研究人員通過(guò)實(shí)驗(yàn)驗(yàn)證了 PXRD 測(cè)試性能,數(shù)據(jù)來(lái)源于 IUCr 數(shù)據(jù)庫(kù)。如下圖所示。
實(shí)驗(yàn)數(shù)據(jù)
最左列為基準(zhǔn)結(jié)構(gòu),基于 IUCr 數(shù)據(jù)庫(kù)獲取的實(shí)驗(yàn)觀察 PXRD 模式,中間為 PXRDnet 預(yù)測(cè)結(jié)構(gòu),右側(cè)為 TOPAS(v.7)模擬 PXRD 與實(shí)際實(shí)驗(yàn)觀測(cè) PXRD 的比較。結(jié)果顯示,PXRDnet 克服了模擬到實(shí)際的差距,其結(jié)果在視覺(jué)分析和定量指標(biāo)上與從模擬數(shù)據(jù)中獲得的結(jié)果相當(dāng),顯示了所提模型在真實(shí)場(chǎng)景中應(yīng)用的潛力。
AI 與材料科學(xué)界交叉融合,解決百年難題
PXRDnet 的提出,解決了材料科學(xué)界長(zhǎng)達(dá)一個(gè)世紀(jì)的難題。正如論文所說(shuō),該方法與任何結(jié)構(gòu)解決方案一樣,并非百分之百成功,但是卻為探索結(jié)構(gòu)解析提供了一個(gè)候選方法,從而打開(kāi)了更多通向成功的大門(mén)。
當(dāng)然,PXRDnet 的成功并非一蹴而就的,而是站在巨人的肩膀上不斷探索的。在人工智能與納米材料的交叉領(lǐng)域,有無(wú)數(shù)的科研人員不斷攻關(guān)。
比如麻省理工學(xué)院、斯坦福大學(xué)等團(tuán)隊(duì)以「Crystal Structure Determination from Powder Diffraction Patterns with Generative Machine Learning」發(fā)表的研究,其中提出了一種開(kāi)創(chuàng)新的生成式機(jī)器學(xué)習(xí)模型,能夠從真實(shí)實(shí)驗(yàn) PXRD 數(shù)據(jù)中求解晶體結(jié)構(gòu)。在實(shí)驗(yàn)中,研究人員預(yù)測(cè)了來(lái)自 RRUFF 數(shù)據(jù)庫(kù)的 134 個(gè)實(shí)驗(yàn)圖案和來(lái)自 Materials Project 的數(shù)千個(gè)模擬圖案的結(jié)構(gòu),其模型匹配率分別達(dá)到了最先進(jìn)的 42% 和 67%。
論文地址:
??https://pubs.acs.org/doi/10.1021/jacs.4c10244??
另外,來(lái)自中國(guó)科學(xué)院、上海交通大學(xué)、清華大學(xué)、中國(guó)人民大學(xué)的團(tuán)隊(duì)也曾發(fā)表相關(guān)研究,提出了一個(gè)端到端神經(jīng)網(wǎng)絡(luò) PXRDGen,能夠通過(guò)學(xué)習(xí)實(shí)驗(yàn)穩(wěn)定晶體及其 PXRD 的結(jié)構(gòu)分布來(lái)確定晶體結(jié)構(gòu),并通過(guò) PXRD 數(shù)據(jù)提煉出原子精度的結(jié)構(gòu)。該模型繼承了一個(gè)預(yù)訓(xùn)練的 XRD 編碼器、一個(gè)基于擴(kuò)散/flow-based 的結(jié)構(gòu)生成器和一個(gè) Rietveld 細(xì)化模塊,僅需幾秒就能精確實(shí)現(xiàn)結(jié)構(gòu)解析。相關(guān)研究以「Powder Diffraction Crystal Structure Determination Using Generative Models」為題發(fā)表。
論文地址:
??https://arxiv.org/abs/2409.04727??
總而言之,PXRDnet 以及其他方法的探索,實(shí)現(xiàn)了材料科學(xué)界從傳統(tǒng)方法向著人工智能與材料科學(xué)交叉融合的方向前進(jìn),不僅實(shí)現(xiàn)了實(shí)質(zhì)性的突破,解決了材料科學(xué)界所面臨的難題,同時(shí)也為后續(xù)的研究提供了新的思路和方法,為今后材料學(xué)發(fā)展注入了新的活力。
