數(shù)據(jù)驅(qū)動的科學(xué):AI如何革新HPC領(lǐng)域
對許多從事高性能計(jì)算(HPC)的人而言,工作流程大致如此:科學(xué)首先用微分方程刻畫世界;只要解出或近似這些方程,就能追蹤模型隨時(shí)間的演化——天氣預(yù)報(bào)便是典型例子。而在量子力學(xué)里,積分微積分則被用來預(yù)測原子與分子的能級。
所有這些方法的核心都是基于理論或第一性原理(基本物理規(guī)則)的模型,這些模型反映了自然界的行為方式。最終的仲裁者當(dāng)然是自然,而模型根據(jù)各種因素提供不同程度的準(zhǔn)確性。有些模型表現(xiàn)出色,通常需要大量的計(jì)算時(shí)間來遍歷所有數(shù)學(xué)運(yùn)算。

經(jīng)典粒子(質(zhì)量為m)的運(yùn)動學(xué)量:位置r、速度v、加速度a。
高性能計(jì)算(HPC)自誕生以來便以這種方式發(fā)展。隨著可移植FORTRAN編程標(biāo)準(zhǔn)的引入,開發(fā)者可以專注于開發(fā)和改進(jìn)其計(jì)算模型,而無需針對各種機(jī)器的細(xì)微差別和差異進(jìn)行編程。這些模型統(tǒng)稱為“模態(tài)仿真(Modsim)”(模型與仿真),并持續(xù)推動HPC市場向更大、更快的機(jī)器發(fā)展。
各種超級計(jì)算設(shè)計(jì)已被開發(fā)用于運(yùn)行模態(tài)仿真(Modsim)代碼。從最初的向量處理器到并行集群和大規(guī)模并行GPU,HPC以利用任何可用硬件或軟件來增加模型規(guī)模和/或性能而聞名。
大規(guī)模人工智能(AI)建模的出現(xiàn)改變了這種久經(jīng)考驗(yàn)的HPC計(jì)算公式。大型AI模型可以在模態(tài)仿真(Modsim)數(shù)據(jù)上進(jìn)行訓(xùn)練,生成“數(shù)據(jù)模型”,這些模型能夠以更少的時(shí)間準(zhǔn)確求解傳統(tǒng)數(shù)學(xué)模型,而無需求解底層的物理原理。
這個(gè)出人意料的結(jié)論在傳統(tǒng)HPC從業(yè)者眼中既引人注目,又在某種程度上是“褻瀆神靈”的。受物理定律約束的過程,如何能“僅僅通過數(shù)據(jù)”進(jìn)行建模?
物理學(xué)的結(jié)構(gòu)
暫且不提對通用人工智能(AGI, Artificial General Intelligence)的追求,我們來思考當(dāng)前生成式AI大型語言模型(LLM, Large Language Model)的運(yùn)作方式。通過對大量文本數(shù)據(jù)進(jìn)行采樣,它們學(xué)習(xí)了英語中Token(單詞)之間的統(tǒng)計(jì)關(guān)系。(這種分析也適用于其他語言,并且大多數(shù)模型都是基于從互聯(lián)網(wǎng)上抓取的英語內(nèi)容。)眾所周知,LLM利用這些關(guān)系,根據(jù)用戶提示來補(bǔ)全句子、段落乃至?xí)@?,一個(gè)LLM可能會生成以下句子:
帶把傘,因?yàn)槊魈鞎?nbsp;
根據(jù)所學(xué)習(xí)的模型,下一個(gè)詞有很高的概率是“下雨”、“細(xì)雨”、“暴風(fēng)雨”,或與“下雨”相關(guān)的其他詞或短語。選擇取決于LLM的溫度(Temperature)設(shè)置;低溫度意味著選擇最可能的詞,高溫度意味著隨機(jī)選擇一個(gè)候選詞。低溫度也意味著對相同提示的回答幾乎相同,而高溫度將提供不同的響應(yīng)。如果設(shè)置過高,則會導(dǎo)致完全隨機(jī)的響應(yīng)。溫度設(shè)置會影響LLM中的幻覺(即錯(cuò)誤的詞或短語)。
LLM的有效性在于它們能夠識別英語中的關(guān)系結(jié)構(gòu)。語言存在一定的結(jié)構(gòu)或規(guī)則,沒有它,語言將無法存在。語言的結(jié)構(gòu)是靈活的,提供了多種表達(dá)相同事物的方式組合,這就是為什么LLM中的溫度是使響應(yīng)聽起來更像人類的有效方式。(例如,我們甚至可以理解《星球大戰(zhàn)》中的尤達(dá)大師。)
語言中有一個(gè)結(jié)構(gòu)更為受限的領(lǐng)域,那就是計(jì)算機(jī)軟件。編程語言具有非常具體的結(jié)構(gòu),并且僅限于一組基本詞匯或操作。像自然語言一樣,它們?nèi)匀辉试S許多不同的路徑通向相同的結(jié)果,但與典型的LLM提示的響應(yīng)不同,計(jì)算機(jī)程序可以自動檢查其準(zhǔn)確性,并且可以輕松過濾掉錯(cuò)誤的結(jié)果。
科學(xué),包括物理學(xué)、化學(xué)和生物學(xué),也具有一種結(jié)構(gòu)或規(guī)則,這種結(jié)構(gòu)或規(guī)則最終由科學(xué)定律決定,例如牛頓運(yùn)動定律或量子力學(xué)中的薛定諤方程。科學(xué)模型所依據(jù)的數(shù)學(xué)所施加的結(jié)構(gòu)通常比人類語言的結(jié)構(gòu)更嚴(yán)格。
即使是混沌(例如流體流動)的研究也具有與之相關(guān)的結(jié)構(gòu)或規(guī)則。混沌系統(tǒng)曾被認(rèn)為是難以處理的,其特征是無序的隨機(jī)狀態(tài)。然而,在混沌行為中,存在著潛在的模式、相互連接、持續(xù)的反饋循環(huán)、重復(fù)、自相似性、分形和自組織。
對物理定律的遵循為物理系統(tǒng)中的關(guān)系提供了結(jié)構(gòu)。通過AI訓(xùn)練,這種結(jié)構(gòu)塑造了物理系統(tǒng)各個(gè)方面之間的關(guān)系,所有這些都可以被模型學(xué)習(xí)。由于這些模型是數(shù)字而非文本,它們通常被稱為大型定量模型(LQM, Large Quantitative Model)。這種學(xué)習(xí)類似于LLM如何通過一個(gè)詞與文本語料庫中其他詞的關(guān)系來定義它。
計(jì)算中的驗(yàn)證
迄今為止,最大的成功或許是Alphabet(谷歌)DeepMind的AlphaFold所取得的成果,它利用AI根據(jù)初始肽鏈(由細(xì)胞DNA序列定義)來確定蛋白質(zhì)如何折疊。使用傳統(tǒng)模態(tài)仿真(Modsim)方法計(jì)算可能的蛋白質(zhì)構(gòu)型被認(rèn)為(并且仍然是)一個(gè)計(jì)算上困難的問題,因?yàn)榭赡艿慕M合(折疊類型)數(shù)量極其龐大。AlphaFold在現(xiàn)有蛋白質(zhì)數(shù)據(jù)上進(jìn)行訓(xùn)練,并通過消除不太可能的結(jié)構(gòu)來限制搜索;它已成為確定蛋白質(zhì)結(jié)構(gòu)(或至少消除不太可能的結(jié)構(gòu))的事實(shí)方法。AlphaFold的作者,谷歌DeepMind的Demis Hassabis和John Jumper,分享了2024年諾貝爾化學(xué)獎(jiǎng)的一半,該獎(jiǎng)項(xiàng)是“為了蛋白質(zhì)結(jié)構(gòu)預(yù)測”而頒發(fā)的。一個(gè)類似的開源工具OpenFold也向科學(xué)界開放,它使用相同的AI增強(qiáng)方法來加速模態(tài)仿真(Modsim)計(jì)算。
除了蛋白質(zhì)折疊之外,AI增強(qiáng)型HPC還有許多其他例子。正如HPCwire文章所描述的,Aurora AI驅(qū)動的大氣模型比傳統(tǒng)系統(tǒng)快5000倍,據(jù)Aurora模型的開發(fā)者微軟(不要與Argonne的Aurora超級計(jì)算機(jī)混淆)稱,該模型在以前的天氣數(shù)據(jù)(計(jì)算和測量)上進(jìn)行訓(xùn)練,其預(yù)測速度比數(shù)值集成預(yù)報(bào)系統(tǒng)快約5000倍。Aurora數(shù)據(jù)模型的準(zhǔn)確性(與模態(tài)仿真Modsim結(jié)果和實(shí)際天氣相比)與傳統(tǒng)數(shù)值模型相同或更優(yōu)。它可以通過增加數(shù)據(jù)集多樣性和模型大小進(jìn)行“調(diào)優(yōu)”。
最近,伯克利實(shí)驗(yàn)室與Meta合作,發(fā)布了Open Molecules 25 (OMol25)和Universal Model for Atoms (UMA)供公眾使用。Open Molecules是一個(gè)包含超過1億個(gè)3D分子快照的集合,其性質(zhì)已使用密度泛函理論(DFT, Density Functional Theory)計(jì)算。DFT是一種極其強(qiáng)大(且計(jì)算開銷大)的工具,用于建模原子相互作用的精確細(xì)節(jié),使科學(xué)家能夠預(yù)測每個(gè)原子上的力和系統(tǒng)的能量,這反過來又決定了分子運(yùn)動和化學(xué)反應(yīng),從而決定了更大尺度的性質(zhì),例如電解質(zhì)在電池中如何反應(yīng)或藥物如何與受體結(jié)合以預(yù)防疾病。使用傳統(tǒng)分子動力學(xué)模擬(DFT)結(jié)果來訓(xùn)練機(jī)器學(xué)習(xí)模型可以提供相同水平的分子預(yù)測,但比傳統(tǒng)DFT分子動力學(xué)模擬數(shù)值方法快10,000倍。

我們?nèi)绾沃来鸢甘钦_的?
對AI持懷疑態(tài)度是合理的。請記住,“AI”一詞涵蓋了廣泛的方法論,本身并沒有嚴(yán)格的定義。AI方法的不同形式可能利用能夠使計(jì)算機(jī)模擬人類學(xué)習(xí)、理解、問題解決、決策、創(chuàng)造力和自主性的技術(shù)。AI應(yīng)用范圍從基本的統(tǒng)計(jì)監(jiān)督學(xué)習(xí)模型到由OpenAI、Google、Meta等公司提供的大型LLM。
更大的模型和通用人工智能(AGI)的主張正受到持續(xù)的審視。無論是由于缺乏“世界觀”而下棋(表現(xiàn)不佳),還是無法解決超越記憶解決方案的經(jīng)典AI難題“漢諾塔”,最新、最強(qiáng)大的LLM仍然存在一些不足之處。此外,LLM的幻覺并非沒有后果,正如作為法庭文件一部分提交的虛構(gòu)法律幻覺的增長所表明的那樣(有人沒有檢查他們的工作)。
這些擔(dān)憂對于任何形式的AI都是有效的,包括數(shù)據(jù)過擬合或欠擬合、特征生成、數(shù)據(jù)溯源等問題。LLM和科學(xué)模型之間的關(guān)鍵區(qū)別在于對物理結(jié)構(gòu)與語言結(jié)構(gòu)的依賴。作為優(yōu)秀的科學(xué)家,計(jì)算結(jié)果總是需要與現(xiàn)實(shí)世界進(jìn)行驗(yàn)證。
衡量任何計(jì)算值準(zhǔn)確性的唯一方法是將其與物理系統(tǒng)進(jìn)行比較。例如,許多原子和化學(xué)性質(zhì)可以通過模態(tài)仿真(Modsim)程序計(jì)算。解決方案的一部分可能是幾何和/或能級,可以通過與現(xiàn)有(或測量)光譜信息進(jìn)行比較來驗(yàn)證?,F(xiàn)實(shí)永遠(yuǎn)是最終的檢驗(yàn)標(biāo)準(zhǔn)。
在上述DFT示例中,結(jié)果的驗(yàn)證至關(guān)重要。數(shù)據(jù)模型帶來的運(yùn)行時(shí)間縮短無疑將導(dǎo)致基于DFT的方法使用量增加。最近一篇題為《如何通過可復(fù)現(xiàn)和通用工作流驗(yàn)證密度泛函理論實(shí)現(xiàn)的精度》(How to verify the precision of density-functional-theory implementations via reproducible and universal workflows)的論文,由四十五位作者共同撰寫,表明了對模態(tài)仿真(Modsim)和AI增強(qiáng)型HPC方法驗(yàn)證的重視。
AI用于科學(xué)有所不同
關(guān)于AI的一個(gè)常見誤解是它將取代現(xiàn)有流程和系統(tǒng)。雖然這個(gè)目標(biāo)在其他領(lǐng)域可能成立,并且歷史上計(jì)算機(jī)通常也是如此,但HPC數(shù)值模態(tài)仿真(Modsim)方法是正在開發(fā)的新AI數(shù)據(jù)模型不可或缺的一部分。事實(shí)上,為了訓(xùn)練HPC-AI模型,準(zhǔn)確的數(shù)據(jù)是必需的。HPC領(lǐng)域比企業(yè)領(lǐng)域具有顯著優(yōu)勢,因?yàn)樗梢允褂眉榷ǖ臄?shù)值建模和仿真(Modsim)方法創(chuàng)建自己的模型數(shù)據(jù)。此外,這些數(shù)據(jù)可以根據(jù)所需的特定模型訓(xùn)練類型進(jìn)行微調(diào)。例如,如果需要特定類別的分子,可以生成示例并用于訓(xùn)練針對此特定情況的模型。
此外,科學(xué)以及HPC具有企業(yè)領(lǐng)域所不具備的要求,包括可復(fù)現(xiàn)性、開放性、協(xié)作和文檔(如研究論文所示)。在科學(xué)領(lǐng)域,信息的創(chuàng)建和數(shù)據(jù)流非常不同。
需要明確的是,AI增強(qiáng)型HPC所提供的加速不一定是“免費(fèi)午餐”。訓(xùn)練模型所需的計(jì)算資源可能會抵消數(shù)據(jù)模型的速度增益;然而,這取決于模型的訓(xùn)練是多么具體或通用。
未來將如何發(fā)展?
傳統(tǒng)模態(tài)仿真(Modsim)結(jié)果與基于數(shù)據(jù)的AI模型之間的協(xié)同性質(zhì),以及必要的大數(shù)據(jù)管理方法,已經(jīng)創(chuàng)造了一個(gè)數(shù)據(jù)發(fā)現(xiàn)的良性循環(huán),這將加速科學(xué)發(fā)現(xiàn)。如下圖所示,一個(gè)循環(huán)可以建立在每一個(gè)過去的發(fā)現(xiàn)循環(huán)之上。考慮圖中的每個(gè)步驟:
- 科學(xué)研究與HPC: 重大挑戰(zhàn)性科學(xué)需要HPC能力,并有能力生成大量模態(tài)仿真(Modsim)數(shù)據(jù)。
- 數(shù)據(jù)饋送AI模型: 數(shù)據(jù)管理至關(guān)重要。大量數(shù)據(jù)必須進(jìn)行管理、清洗、整理、歸檔、溯源和存儲。
- “數(shù)據(jù)”模型改進(jìn)研究: 借助數(shù)據(jù)洞察,AI模型/LLM/LQM分析模式,從示例中學(xué)習(xí),并進(jìn)行預(yù)測。HPC系統(tǒng)是用于訓(xùn)練、推理和預(yù)測步驟1的新數(shù)據(jù)所必需的。
- 持續(xù)迭代

AI增強(qiáng)型科學(xué)的機(jī)會并未被忽視。萬億參數(shù)聯(lián)盟(TPC, Trillion Parameter Consortium)的成立旨在解決AI和科學(xué)的獨(dú)特需求。正如已經(jīng)概述的那樣,科學(xué)發(fā)現(xiàn)的需求與企業(yè)組織的需求截然不同。特別是,對開放數(shù)據(jù)和流程的要求對于科學(xué)進(jìn)步至關(guān)重要。TPC是一個(gè)開放社區(qū),基于并向所有有興趣利用AI方法進(jìn)行HPC和科學(xué)的科學(xué)家和工程師開放,包括編程、代理系統(tǒng)、AI增強(qiáng)型模型和報(bào)告。
----------
參考資料:Eadline, D. (2025, July 10). The unlikely reasonableness of AI-augmented HPC. HPCwire. https://www.hpcwire.com/2025/07/10/the-unlikely-reasonableness-of-ai-augmented-hpc/
本文轉(zhuǎn)載自????????Andy730????????,作者:常華?

















