DeepMind大模型再登Nature:8分鐘預(yù)測15日天氣,準(zhǔn)確度超頂尖物理模型,已開源
DeepMind大模型再登上Nature——
氣象預(yù)測大模型GenCast,8分鐘內(nèi)完成15天的預(yù)測,而且不管常規(guī)還是極端天氣都能分析。
在97.2%的場景中,GenCast的表現(xiàn)都超過了全球頂尖的中期天氣預(yù)報(bào)系統(tǒng)ENS。
不同于DeepMind之前推出的GraphCast的確定性預(yù)測,GenCast關(guān)注的是各種天氣情況的概率。
和GraphCast一樣,GenCast也已經(jīng)開源。
它基于擴(kuò)散模型實(shí)現(xiàn),分辨率為0.25度經(jīng)度/緯度(在赤道處約為28×28公里),相當(dāng)于將地球表面分割成了超過100萬個(gè)網(wǎng)格。
每個(gè)網(wǎng)格都涵蓋80多個(gè)地表和大氣變量,相當(dāng)于每次預(yù)測都有數(shù)千萬甚至上億條數(shù)據(jù)生成。
測試結(jié)果表明,在1320種實(shí)驗(yàn)條件中,GenCast在97.2%的任務(wù)中,都比ENS更準(zhǔn)確。
對(duì)于GenCast的表現(xiàn),論文作者、DeepMind研究人員Ilan Price表示:
我們確實(shí)取得了巨大的進(jìn)步,通過機(jī)器學(xué)習(xí)趕上了并超越了基于物理的模型。
準(zhǔn)確率超最強(qiáng)傳統(tǒng)方法
傳統(tǒng)天氣預(yù)報(bào)基于數(shù)值天氣預(yù)報(bào)(NWP)算法實(shí)現(xiàn),核心是對(duì)模擬大氣動(dòng)力學(xué)的方程求近似解。
不過,相比于單一確定性的預(yù)測,氣象機(jī)構(gòu)越來越依賴集合預(yù)報(bào),生成多個(gè)基于NWP的結(jié)果,對(duì)各種可能的情景進(jìn)行建模。
GenCast做的也是集合式預(yù)報(bào),當(dāng)然基于的原理不是NWP而是AI。
開頭提到的ENS,就是目前最先進(jìn)的集合預(yù)報(bào)系統(tǒng),來自歐洲歐洲中期天氣預(yù)報(bào)中心(ECMWF),未來將被納入其確定性預(yù)報(bào)系統(tǒng)HRES。
但即便是這種最強(qiáng)的傳統(tǒng)方式,也無法戰(zhàn)勝AI系統(tǒng)。
在常規(guī)預(yù)報(bào)當(dāng)中,DeepMind團(tuán)隊(duì)利用訓(xùn)練數(shù)據(jù)中未涵蓋的真實(shí)歷史(2019年)數(shù)據(jù),設(shè)置了1320種實(shí)驗(yàn)條件,涉及不同的物理變量、預(yù)報(bào)時(shí)長和垂直高度。
結(jié)果在97.2%的場景當(dāng)中,GenCast的CRPS都顯著優(yōu)于ENS,如果只看對(duì)36小時(shí)之后的預(yù)測,GenCast在99.6%的條件下都能勝出。
(CRPS衡量了預(yù)報(bào)與觀測值之間累積概率分布的差異,數(shù)值越小說明預(yù)報(bào)越準(zhǔn)確)
對(duì)于高溫、大風(fēng)等極端天氣事件(實(shí)驗(yàn)中按發(fā)生概率分為1%/0.1%/0.01%三檔),除了在個(gè)別場景下,GenCast的預(yù)報(bào)的相對(duì)經(jīng)濟(jì)價(jià)值(REV)顯著優(yōu)于ENS。
(2t代表距離海平面2米高處溫度,10wind_speed代表10米處風(fēng)速,msl代表平均海平面氣壓,藍(lán)線代表GenCast)
除了基礎(chǔ)的預(yù)測,在下游應(yīng)用上GenCast也表現(xiàn)出了更強(qiáng)的預(yù)測能力。
DeepMind團(tuán)隊(duì)測試了一款區(qū)域風(fēng)電應(yīng)用,使用全球發(fā)電廠數(shù)據(jù)庫中的5344個(gè)風(fēng)電場位置和裝機(jī)容量信息,通過插值獲得各風(fēng)電場位置的10米風(fēng)速預(yù)報(bào),并通過功率曲線轉(zhuǎn)換為風(fēng)電功率。
在120公里、240公里、480公里三個(gè)空間聚合尺度上,GenCast的風(fēng)電功率預(yù)報(bào)CRPS和REV在7天內(nèi)都顯著優(yōu)于ENS。
不僅精準(zhǔn)性強(qiáng),GenCast的預(yù)測速度也很快,完成一次15天的預(yù)測僅需約8分鐘,而ENS需要幾個(gè)小時(shí)。
用擴(kuò)散模型預(yù)測天氣
不同于DeepMind去年在Science上發(fā)表的GraphCast(基于圖神經(jīng)網(wǎng)絡(luò)GNN),GenCast基于擴(kuò)散模型實(shí)現(xiàn)。
它以最近的X(t)和前一步天氣狀態(tài)X(t-1)的殘差Z(t)為采樣條件,經(jīng)過去噪后得到預(yù)測結(jié)果,然后利用預(yù)測結(jié)果計(jì)算新的殘差作為新的輸入依據(jù),將預(yù)測向更長時(shí)間延伸。
而具體的去噪過程,DeepMind又選擇了交給Transformer來完成。
Transformer編碼器首先將物理狀態(tài)場從經(jīng)緯度網(wǎng)格表征映射到一個(gè)六次細(xì)化的二十面體網(wǎng)格上。
然后,在Transformer的自注意力機(jī)制中,網(wǎng)格上的每個(gè)節(jié)點(diǎn)都會(huì)關(guān)注其周圍32跳鄰域內(nèi)的所有節(jié)點(diǎn),從而有效捕捉局部和中等尺度的天氣特征。
最后,解碼器將結(jié)果映射回原始分辨率,得到去噪后的結(jié)果。
GenCast從公開的ERA5再分析數(shù)據(jù)集中,選取了1979至2018這40年的數(shù)據(jù)(間隔12小時(shí),分辨率0.25°)對(duì)GenCast進(jìn)行了訓(xùn)練。
為了提高預(yù)訓(xùn)練效率,數(shù)據(jù)首先被降采樣到1°分辨率,使用5次細(xì)化的二十面體網(wǎng)格進(jìn)行學(xué)習(xí)。
這個(gè)階段需要200萬步,在32個(gè)TPUv5實(shí)例上運(yùn)行約3.5天。
完成預(yù)訓(xùn)練后,再用原始的0.25度分辨率數(shù)據(jù)和6次細(xì)化的二十面體網(wǎng)格,對(duì)模型進(jìn)行高精度微調(diào),共計(jì)64000步,需要約1.5天完成。
目前,像去年發(fā)布的確定性預(yù)測模型GraphCast一樣,GenCast也已經(jīng)開源,代碼和模型權(quán)重均已發(fā)布。
DeepMind還表示,將會(huì)很快發(fā)布GenCast(和以前的模型)生成的實(shí)時(shí)和歷史預(yù)報(bào)結(jié)果,為其他研究者提供更多的研究資源。
論文地址:https://www.nature.com/articles/s41586-024-08252-9
參考鏈接:
[1]https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/。
[2]https://www.nature.com/articles/d41586-024-03957-3。