偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

230頁(yè)長(zhǎng)文,涵蓋5大科學(xué)領(lǐng)域,微軟團(tuán)隊(duì)使用GPT-4探索LLM對(duì)科學(xué)發(fā)現(xiàn)的影響

人工智能 新聞
隨著人工智能領(lǐng)域的不斷發(fā)展,像 GPT-4 這樣的復(fù)雜模型的集成將在加速科學(xué)研究和創(chuàng)新方面發(fā)揮越來越重要的作用。

圖片

前不久,微軟 DeepSpeed 團(tuán)隊(duì)啟動(dòng)了一個(gè)名為 DeepSpeed4Science 的新計(jì)劃,旨在通過 AI 系統(tǒng)優(yōu)化技術(shù)實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)。

11 月 13 日,微軟團(tuán)隊(duì)在 arXiv 預(yù)印平臺(tái)發(fā)表題為《大型語言模型對(duì)科學(xué)發(fā)現(xiàn)的影響:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。

文章篇幅長(zhǎng)達(dá) 230 頁(yè)。

圖片

論文鏈接:https://arxiv.org/abs/2311.07361

近年來,自然語言處理領(lǐng)域的突破性進(jìn)展在強(qiáng)大的大型語言模型(LLM)的出現(xiàn)中達(dá)到了頂峰,這些模型在眾多領(lǐng)域展示了非凡的能力,包括自然語言的理解、生成和翻譯,甚至擴(kuò)展到語言處理之外的任務(wù)。

在本報(bào)告中,微軟研究人員深入研究了 LLM 在科學(xué)發(fā)現(xiàn)/研究背景下的表現(xiàn),重點(diǎn)關(guān)注最先進(jìn)的語言模型 GPT-4。研究涵蓋多個(gè)科學(xué)領(lǐng)域,包括藥物發(fā)現(xiàn)、生物學(xué)、計(jì)算化學(xué)(DFT 和 MD)、材料設(shè)計(jì)和偏微分方程 (PDE)。

評(píng)估 GPT-4 的科學(xué)任務(wù)對(duì)于發(fā)掘其在各個(gè)研究領(lǐng)域的潛力、驗(yàn)證其特定領(lǐng)域的專業(yè)知識(shí)、加速科學(xué)進(jìn)步、優(yōu)化資源配置、指導(dǎo)未來模型開發(fā)和促進(jìn)跨學(xué)科研究至關(guān)重要。探索方法主要包括專家驅(qū)動(dòng)的案例評(píng)估,它為模型對(duì)復(fù)雜科學(xué)概念和關(guān)系的理解提供定性見解,并且偶爾進(jìn)行基準(zhǔn)測(cè)試,它定量評(píng)估模型解決明確定義的特定領(lǐng)域問題的能力。

初步探索表明,GPT-4 在各種科學(xué)應(yīng)用中展現(xiàn)出廣闊的潛力,展示了其處理復(fù)雜問題解決和知識(shí)整合任務(wù)的能力。研究人員對(duì) GPT-4 在上述領(lǐng)域(例如藥物發(fā)現(xiàn)、生物學(xué)、計(jì)算化學(xué)、材料設(shè)計(jì)等)的性能進(jìn)行了分析,強(qiáng)調(diào)了其優(yōu)點(diǎn)和局限性。從廣義上評(píng)價(jià) GPT-4 的知識(shí)基礎(chǔ)、科學(xué)理解能力、科學(xué)數(shù)值計(jì)算能力和各種科學(xué)預(yù)測(cè)能力。

在生物學(xué)和材料設(shè)計(jì)方面,GPT-4 擁有廣泛的領(lǐng)域知識(shí),可以幫助滿足特定要求。在藥物發(fā)現(xiàn)等其他領(lǐng)域,GPT-4 顯示出強(qiáng)大的特性預(yù)測(cè)能力。然而,在計(jì)算化學(xué)和偏微分方程等研究領(lǐng)域,雖然 GPT-4 有望幫助研究人員進(jìn)行預(yù)測(cè)和計(jì)算,但仍需要進(jìn)一步努力來提高其準(zhǔn)確性。盡管其功能令人印象深刻,但 GPT-4 還可以針對(duì)定量計(jì)算任務(wù)進(jìn)行改進(jìn),例如需要進(jìn)行微調(diào)以實(shí)現(xiàn)更好的準(zhǔn)確性。

研究人員希望這份報(bào)告能夠?yàn)槟切で罄?LLM 的力量進(jìn)行科學(xué)研究和應(yīng)用的研究人員和從業(yè)者,以及那些對(duì)推進(jìn)特定領(lǐng)域科學(xué)任務(wù)的自然語言處理感興趣的人提供寶貴的資源。需要強(qiáng)調(diào)的是,LLM 和大規(guī)模機(jī)器學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,該技術(shù)的未來幾代可能擁有本報(bào)告中強(qiáng)調(diào)的功能之外的其他功能。值得注意的是,LLM 與專業(yè)科學(xué)工具和模型的整合,以及基礎(chǔ)科學(xué)模型的開發(fā),代表了兩條有希望的探索途徑。

藥物發(fā)現(xiàn)

藥物發(fā)現(xiàn)是制藥行業(yè)的重要組成部分,在推進(jìn)醫(yī)學(xué)科學(xué)方面發(fā)揮著至關(guān)重要的作用。藥物發(fā)現(xiàn)涉及復(fù)雜的多學(xué)科過程,包括靶點(diǎn)識(shí)別、先導(dǎo)化合物優(yōu)化和臨床前測(cè)試,最終導(dǎo)致安全有效藥物的開發(fā)。

評(píng)估 GPT-4 在藥物發(fā)現(xiàn)方面的能力具有巨大的潛力,例如加速發(fā)現(xiàn)過程、降低搜索和設(shè)計(jì)成本、增強(qiáng)創(chuàng)造力等。在本章中,研究人員首先通過定性測(cè)試研究 GPT-4 關(guān)于藥物發(fā)現(xiàn)的知識(shí),然后通過對(duì)多個(gè)關(guān)鍵任務(wù)的定量測(cè)試來研究其預(yù)測(cè)能力,包括藥物-靶標(biāo)相互作用/結(jié)合親和力預(yù)測(cè)、分子性質(zhì)預(yù)測(cè)和逆合成預(yù)測(cè)。

第一個(gè)示例是生成給定藥物名稱的化學(xué)式、IUPAC 名稱和 SMILES,這是名稱和藥物其他表示形式之間的翻譯。以 Afatinib 作為輸入藥物。GPT-4 正確輸出化學(xué)式為 C24H25ClFN5O3,IUPAC 名稱也正確,這意味著 GPT-4 知道藥物 Afatinib。然而,SMILES 并不正確。因此,研究人員給予指導(dǎo),讓 GPT-4 再次生成 SMILES。不幸的是,雖然明確要求 GPT-4 「注意每種原子類型的原子數(shù)量」并基于正確的 IUPAC 和化學(xué)式生成,但在幾次試驗(yàn)中生成的 SMILES 序列仍然不正確。

圖片

圖 1:藥物名稱和藥物其他表示形式之間的翻譯。(來源:論文)

生物

在本章中,研究人員深入探討了 GPT-4 在生物學(xué)研究領(lǐng)域的能力,主要關(guān)注其理解生物語言、利用內(nèi)置生物知識(shí)進(jìn)行推理的熟練程度,以及設(shè)計(jì)生物分子和生物實(shí)驗(yàn)。觀察表明,GPT-4 通過展示其處理復(fù)雜生物語言、執(zhí)行生物信息任務(wù)、甚至作為生物設(shè)計(jì)的科學(xué)助手的能力,展現(xiàn)出為生物學(xué)領(lǐng)域做出貢獻(xiàn)的巨大潛力。GPT-4 對(duì)生物學(xué)概念的廣泛掌握及其作為設(shè)計(jì)任務(wù)中的科學(xué)助手的巨大潛力凸顯了其在推進(jìn)生物學(xué)領(lǐng)域的重要作用。

首先評(píng)估了 GPT-4 處理生物序列序列符號(hào)和文本符號(hào)的能力。

研究人員要求 GPT-4 在生物序列及其文本符號(hào)之間進(jìn)行轉(zhuǎn)換:1)輸出給定蛋白質(zhì)序列的蛋白質(zhì)名稱。2) 輸出給定名稱的蛋白質(zhì)序列。在執(zhí)行每個(gè)任務(wù)之前,都會(huì)重新啟動(dòng)會(huì)話以防止信息泄露。結(jié)果表明,GPT-4 知道序列到文本符號(hào)轉(zhuǎn)換的過程,但它不能自己直接查找(也稱為 BLAST 序列)。同時(shí),GPT-4 更喜歡生物序列的文本標(biāo)記(包括蛋白質(zhì)和 DNA,后者未顯示)。當(dāng)給出文本符號(hào)時(shí),它提供了更豐富的信息,這可能是由于其設(shè)計(jì)理念。需要指出的是,還注意到,生成序列可能會(huì)導(dǎo)致 GPT-4 的災(zāi)難性行為。如下圖所示,雖然 GPT-4 返回了正確的 UniProt ID,但在生成序列時(shí)遇到了困難。序列生成因嘗試的幾種不同提示而崩潰。

圖片

圖 2:序列符號(hào)和文本符號(hào)之間的轉(zhuǎn)換。(來源:論文)

計(jì)算化學(xué)

計(jì)算化學(xué)是一個(gè)跨學(xué)科領(lǐng)域,利用計(jì)算方法和技術(shù)來解決化學(xué)中的復(fù)雜問題。長(zhǎng)期以來,它一直是分子系統(tǒng)研究中不可或缺的工具,提供了對(duì)原子級(jí)相互作用的見解并指導(dǎo)實(shí)驗(yàn)工作。計(jì)算化學(xué)在微觀和宏觀層面上理解分子結(jié)構(gòu)、化學(xué)反應(yīng)和物理現(xiàn)象方面發(fā)揮著至關(guān)重要的作用。

在本章中,研究了 GPT-4 在計(jì)算化學(xué)各個(gè)領(lǐng)域的功能,包括電子結(jié)構(gòu)方法和分子動(dòng)力學(xué)模擬,并展示了 GPT-4 從不同角度服務(wù)的兩個(gè)實(shí)際示例??傊?,GPT-4 能夠以多種方式幫助計(jì)算化學(xué)研究人員。

研究從評(píng)估 GPT-4 解釋量子化學(xué)和物理概念的能力開始。評(píng)估涵蓋了該領(lǐng)域常用的方法,如密度泛函理論(DFT)和波函數(shù)理論(WFT)。

圖片

圖 3:密度泛函理論的概念檢驗(yàn)。(來源:論文)

在以上例子中,GPT-4 很好地理解了密度泛函理論、KohnSham 密度泛函理論和無軌道密度泛函理論的概念。

材料設(shè)計(jì)

在本章中,研究了 GPT-4 在材料設(shè)計(jì)領(lǐng)域的功能。研究人員設(shè)計(jì)了一套全面的任務(wù),涵蓋材料設(shè)計(jì)過程中的各個(gè)方面,從最初的概念化到隨后的驗(yàn)證和合成。目標(biāo)是評(píng)估 GPT-4 的專業(yè)知識(shí)及其在實(shí)際應(yīng)用中生成有意義的見解和解決方案的能力。設(shè)計(jì)的任務(wù)涵蓋各個(gè)方面,包括背景知識(shí)、設(shè)計(jì)原則、候選識(shí)別、候選結(jié)構(gòu)生成、屬性預(yù)測(cè)和合成條件預(yù)測(cè)。通過解決整個(gè)設(shè)計(jì)過程,目標(biāo)是對(duì) GPT-4 在材料設(shè)計(jì)方面的熟練程度進(jìn)行整體評(píng)估,特別是對(duì)于結(jié)晶無機(jī)材料、有機(jī)聚合物以及金屬有機(jī)框架 (MOF) 等更復(fù)雜的材料。

值得注意的是,評(píng)估主要側(cè)重于對(duì) GPT-4 在這一專業(yè)領(lǐng)域的能力進(jìn)行定性評(píng)估,而只有在可行的情況下才能獲得統(tǒng)計(jì)分?jǐn)?shù)。

研究人員首先詢問目前固體電解質(zhì)的分類,其分類標(biāo)準(zhǔn)有不同的要求,例如一般化學(xué)和陰離子類型。還要求提供基于分類標(biāo)準(zhǔn)的示例。如圖 4 所示,這里的所有答案都是事實(shí),而且大部分都是正確的。由于這些分類標(biāo)準(zhǔn)在文獻(xiàn)中沒有得到很好的體現(xiàn),GPT-4 應(yīng)該對(duì)化學(xué)的含義有一個(gè)相對(duì)清晰的理解。

圖片

圖 4:無機(jī)固體電解質(zhì)的分類。(來源:論文)

偏微分方程

偏微分方程 (PDE) 是數(shù)學(xué)領(lǐng)域中一個(gè)重要且高度活躍的研究領(lǐng)域,在物理、工程、生物學(xué)和金融等各個(gè)學(xué)科中具有深遠(yuǎn)的應(yīng)用。偏微分方程在建模和理解各種現(xiàn)象(從流體動(dòng)力學(xué)和傳熱到電磁場(chǎng)和群體動(dòng)力學(xué))方面發(fā)揮著至關(guān)重要的作用。

在本章中,研究了 GPT-4 在偏微分方程的幾個(gè)方面的技能:理解偏微分方程的基礎(chǔ)知識(shí)、求解偏微分方程以及協(xié)助 AI 進(jìn)行偏微分方程研究。研究人員在不同形式的 PDE 上評(píng)估模型,例如線性方程、非線性方程和隨機(jī) PDE。研究表明 GPT-4 能夠以多種方式幫助研究人員。

第一個(gè)問題是關(guān)于偏微分方程的定義和形式,GPT-4 對(duì)偏微分方程提供了很好的解釋,如圖 5 所示。在用戶的提示下,GPT-4 給出了偏微分方程的清晰概念以及線性或非線性、橢圓形、拋物線形或雙曲形的類別。該領(lǐng)域的新手將從這些概念和分類中受益。

圖片

圖 5:PDE 的基本概念介紹。(來源:論文)

未來展望

在該研究中,研究人員探索了 LLM 在各個(gè)自然科學(xué)領(lǐng)域的能力和局限性,涵蓋了各種任務(wù)。研究的主要目標(biāo)是對(duì)最先進(jìn)的 LLM GPT-4 及其對(duì)科學(xué)發(fā)現(xiàn)做出貢獻(xiàn)的潛力提供初步評(píng)估,為多個(gè)領(lǐng)域的研究人員提供寶貴的資源和工具。

通過廣泛的分析,研究強(qiáng)調(diào)了 GPT-4 在眾多科學(xué)任務(wù)中的熟練程度,從文獻(xiàn)綜合到屬性預(yù)測(cè)和代碼生成。盡管其功能令人印象深刻,但必須認(rèn)識(shí)到 GPT-4(以及類似的 LLM)的局限性,例如處理特定數(shù)據(jù)格式的挑戰(zhàn)、響應(yīng)的不一致以及偶爾的幻覺。

研究人員相信,該探索是理解和認(rèn)識(shí) GPT-4 在自然科學(xué)領(lǐng)域潛力的關(guān)鍵第一步。通過詳細(xì)概述其優(yōu)點(diǎn)和缺點(diǎn),旨在幫助研究人員在將 GPT-4(或其他 LLM)納入日常工作時(shí)做出明智的決定,確保最佳應(yīng)用,同時(shí)注意其局限性。

此外,鼓勵(lì) GPT-4 和其他 LLM 的進(jìn)一步探索和發(fā)展,旨在提高其科學(xué)發(fā)現(xiàn)能力。這可能涉及完善培訓(xùn)過程、合并特定領(lǐng)域的數(shù)據(jù)和架構(gòu),以及集成針對(duì)不同科學(xué)學(xué)科量身定制的專業(yè)技術(shù)。

隨著人工智能領(lǐng)域的不斷發(fā)展,像 GPT-4 這樣的復(fù)雜模型的集成將在加速科學(xué)研究和創(chuàng)新方面發(fā)揮越來越重要的作用。

最后,研究總結(jié)了 LLM 在科學(xué)研究方面需要改進(jìn)的方面,并討論加強(qiáng) LLM 或在此基礎(chǔ)上推動(dòng)科學(xué)突破的潛在方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-03-26 21:03:54

GPT-4人工智能

2024-03-13 10:47:45

機(jī)器人

2023-09-02 11:24:02

模型研究

2023-11-21 07:23:19

微軟報(bào)告

2023-03-29 14:58:04

GPT-4技術(shù)

2024-02-26 13:48:00

模型數(shù)據(jù)

2023-04-23 11:25:48

AIGPT-4

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-10-12 14:18:06

2023-12-29 13:52:00

AI技術(shù)

2023-11-15 13:19:14

2023-12-26 08:17:23

微軟GPT-4

2023-03-17 10:17:52

GPT-4AI

2023-06-19 08:19:50

2023-03-16 17:26:09

AI模型

2023-12-18 15:16:47

數(shù)據(jù)模型

2023-12-04 12:56:08

AI數(shù)據(jù)

2023-08-11 13:34:06

GPT-4訓(xùn)練

2023-08-17 08:00:00

2025-04-16 09:35:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)