四分鐘成功復(fù)現(xiàn)諾獎!CMU開發(fā)GPT-4化學家,自主編碼操控機器人顛覆化學研究登Nature
ChatGPT大模型爆火這一年,沒想到竟顛覆了整個化學領(lǐng)域。
先是谷歌DeepMind的AI工具GNoME成功預(yù)測出200萬種晶體結(jié)構(gòu),隨后微軟推出的MatterGen,大大加速了設(shè)計所需材料特性的速度。
今天,CMU和Emerald Cloud Lab的研究團隊開發(fā)了一種全新自動化AI系統(tǒng)——Coscientist,榮登Nature。
它可以設(shè)計、編碼和執(zhí)行多種反應(yīng),完全實現(xiàn)了化學實驗室的自動化。
圖片
實驗評測中,Coscientist利用GPT-4,在人類的提示下檢索化學文獻,成功設(shè)計出一個反應(yīng)途徑來合成一個分子。
GPT-4遍歷整個互聯(lián)網(wǎng)上的說明書,并選擇數(shù)據(jù)庫中最好的試劑盒和試劑,在現(xiàn)實中制造分子。
論文地址:https://www.nature.com/articles/s41586-023-06792-0
最令人震驚的是,Coscientist在短短4分鐘內(nèi),一次性復(fù)現(xiàn)了諾獎研究。
具體來說,全新AI系統(tǒng)在6個不同任務(wù)中呈現(xiàn)了加速化學研究的潛力,其中包括成功優(yōu)化「鈀催化偶聯(lián)反應(yīng)」。
「鈀催化偶聯(lián)反應(yīng)」的研究是由美國化學家Richard Fred Heck,以及兩位日本化學家獲得了2010年諾貝爾化學獎。
領(lǐng)導這項研究的CMU化學家Gabe Gome表示,「當我看到一種非有機智能能夠自主計劃、設(shè)計和執(zhí)行人類發(fā)明的化學反應(yīng)的那一刻,真是太神奇了」!
GPT-4自動化學研究
當前,AI工具在科學領(lǐng)域的應(yīng)用激增,但對于在實驗室工作的研究人員,或那些不精通代碼的人來說,AI并非唾手可得。
我們都知道,化學研究建立在迭代循環(huán)的基礎(chǔ)上。在這個循環(huán)中,實驗被設(shè)計、執(zhí)行,然后進行改進以實現(xiàn)特定目標。
對于化學家來說,所做的研究是多管齊下的——不僅需要執(zhí)行化學反應(yīng)的技術(shù)技能,還需要規(guī)劃和設(shè)計化學反應(yīng)的知識。
舉個栗子,當合成一個新物質(zhì)時,化學家們需要「逆合成分析」,從最后的目標物質(zhì)一步一步想回去,以確定初始的分子,然后在數(shù)據(jù)庫中搜索合適的反應(yīng)條件,并選出一條最可能成功的合成路線。
但是,在實際的實驗中就會發(fā)現(xiàn),化學反應(yīng)通常無法按預(yù)期高產(chǎn)率和選擇性得出產(chǎn)物。
這時,還得需要重新搜索文獻、設(shè)計新的實驗路線、再次嘗試實驗,整個迭代過程就會變得遙遙無期。
對于人類化學家來說,即便有了相應(yīng)的知識,要想設(shè)計和執(zhí)行一個化學反應(yīng)也不是一件容易的事情,因為設(shè)計出的化學反應(yīng)往往很難以理想的速率來生成產(chǎn)物。
當OpenAI在3月份放出GPT-4后,Gomes和團隊成員開始思考,如何讓大模型為化學家服務(wù)。
Gomes表示,「Coscientist卻可以做真正訓練有素的化學家可以做的大部分事情?!?/span>
當人類科學家要求Coscientist合成一個特定的分子時,它會在互聯(lián)網(wǎng)上搜索以設(shè)計合成路線,然后為所需的反應(yīng)設(shè)計實驗方案。
在獲得具體的實驗方案以后,它能編寫代碼來指示移液工作站,然后運行代碼,讓機器人執(zhí)行它編程過的任務(wù)。
而真正厲害的是,Coscientist還可以從反應(yīng)的結(jié)果中學習,并建議對協(xié)議進行更改以進行改進。
這種迭代循環(huán)優(yōu)化了反應(yīng),從而能夠?qū)崿F(xiàn)預(yù)期的實驗?zāi)繕恕?/span>
AI編寫代碼,控制化學機器人
顯然,當前高科技化學機器人通常是由人類化學家編寫的計算機代碼來控制。
而Coscientist系統(tǒng)首次實現(xiàn),由AI編寫的計算機代碼控制機器人。
研究人員首先讓Coscientist去完成一些簡單的任務(wù),控制一臺機器人液體處理機,將有色液體分配到一個包含96個網(wǎng)格排列的小孔的盤子中。
它被要求「每隔一行滴上一種顏色」,「畫一條藍色的對角線」,「用黃色繪制一個3x3的矩形」,「畫一個紅叉」等等。
Coscientist被指示用液體處理機器人進行不同的設(shè)計
液體處理機僅是一個初試,團隊人員通過Emerald Cloud Lab實驗室合作,還將Coscientist引入了更多類型的機器人設(shè)備,
這家實驗室配備了各種自動化儀器,包括測量被化學樣品吸收的光波長的分光計。
一個盤子里面裝著3種不同顏色(紅黃藍)的液體,Coscientist被要求確定這些液體是什么顏色,以及它們在盤子上的什么位置。
Coscientist沒有「眼睛」,只能通過編寫代碼,將神秘的色板自動傳遞給分光光度計,并分析每個孔吸收的光的波長,從而識別出有哪些顏色,及其在色板上的位置。
對于這項任務(wù),研究人員不得不稍微給Coscientist一點提示,指示它考慮不同顏色吸收光的方式。
剩下的任務(wù),就可完全放心交給AI系統(tǒng)去完成。
由Coscientist生成的代碼。分為以下幾個步驟:定義方法的元數(shù)據(jù)、加載實驗器皿模塊、設(shè)置液體處理器、執(zhí)行所需的試劑轉(zhuǎn)移、設(shè)置加熱器-振動器模塊、運行反應(yīng)以及關(guān)閉模塊。
4分鐘復(fù)現(xiàn)諾獎,自主糾正代碼錯誤
Coscientist的終極測試是,將其組裝的模塊和訓練放在一起,以完成研究團隊執(zhí)行「Suzuki和Sonogashira反應(yīng)」的命令。
這種反應(yīng)是在20世紀70年代發(fā)現(xiàn)的,使用金屬鈀作為催化劑,在有機分子中的碳原子之間形成鍵。
事實證明,這些反應(yīng)在生產(chǎn)治療炎癥、哮喘和其他疾病的新型藥物方面非常有用。它們還用于有機半導體,以及許多智能手機和顯示器中的有機發(fā)光二極管。
值得一提的是,這些突破性的反應(yīng)及其廣泛的影響得到了正式認可,2010年諾貝爾獎便授予了Sukuzi、Richard Heck和Ei-ichi Negishi。
當然,Coscientist以前從未嘗試過這些反應(yīng)。
MacKnight表示,設(shè)計了Coscientist搜索技術(shù)文檔的軟件模塊,「對我來說,最驚艷的時刻是看到它問了所有正確的問題?!?/span>
Coscientist主要在維基百科上尋找答案,也還有許多其他網(wǎng)站,包括美國化學學會、皇家化學學會和其他包含描述Suzuki和Sonogashira反應(yīng)的學術(shù)論文的網(wǎng)站。
鈀催化偶聯(lián)反應(yīng)整個流程
在不到4分鐘的時間里,Coscientist設(shè)計了一個使用團隊提供的化學物質(zhì)產(chǎn)生所需反應(yīng)的準確程序。
當它試圖用機器人在現(xiàn)實世界中執(zhí)行程序時,它在編寫的代碼中「犯了一個錯誤」,該代碼用來控制加熱和搖動液體樣品的設(shè)備。
但是在沒有人的提示的情況下,Coscientist立即發(fā)現(xiàn)了問題,重新參考了設(shè)備的技術(shù)手冊,更正了代碼并再次嘗試。
實驗結(jié)果被裝在了幾個極小的透明液體樣本中。Boiko分析了樣品,發(fā)現(xiàn)了鈴木反應(yīng)和Sonogashira反應(yīng)的光譜特征。
當Boiko和MacKnight告訴Gomes Coscientist的成果時,Gomes表示懷疑。
「我以為他們在跟我開玩笑,」他回憶道。
但是成果就放在那里,簡直讓人難以置信。
「隨之而來的是明智地使用這種潛在的力量,并防止濫用。」Gomes說,了解人工智能的能力和限制是制定知情規(guī)則和政策的第一步,這些規(guī)則和政策可以有效地防止有害的人工智能使用,無論是故意的還是意外的。
Coscientist基本架構(gòu)
研究人員提出了一個基于多LLM的智能代理(以下簡稱為 Coscientist),它能夠自主設(shè)計、規(guī)劃和執(zhí)行復(fù)雜的科學實驗。Coscientist 可以使用工具瀏覽互聯(lián)網(wǎng)和相關(guān)文檔,使用機器人實驗應(yīng)用編程接口(API),并利用其他 LLM 完成各種任務(wù)。
研究人員展示了 Coscientist 在以下六項任務(wù)中的多功能性和性能:
(1)使用公開數(shù)據(jù)規(guī)劃已知化合物的化學合成;
(2)高效搜索和瀏覽大量硬件文檔;
(3)使用文檔在云實驗室中執(zhí)行高級命令;
(4)使用底層指令精確控制液體處理儀器;
(5)處理需要同時使用多個硬件模塊和整合不同數(shù)據(jù)源的復(fù)雜科學任務(wù);
(6)解決需要分析以前收集的實驗數(shù)據(jù)的優(yōu)化問題。
科學家 「通過與多個模塊的交互(網(wǎng)絡(luò)和文檔搜索、代碼執(zhí)行)和實驗」,獲取解決復(fù)雜問題所需的知識。
主模塊(規(guī)劃者)的目標是根據(jù)用戶輸入,通過調(diào)用下面定義的命令進行規(guī)劃。
規(guī)劃器是一個GPT-4聊天實例,扮演助手的角色。用戶的初始輸入和命令輸出被視為給規(guī)劃器的用戶信息。規(guī)劃器的系統(tǒng)提示(定義 LLM 目標的靜態(tài)輸入)以模塊化方式設(shè)計,描述為定義操作空間的四個命令:「GOOGLE」、「PYTHON」、「DOCUMENTATION 」和 「EXPERIMENT」。
規(guī)劃器根據(jù)需要調(diào)用這些命令來收集知識。GOOGLE命令負責使用網(wǎng)絡(luò)搜索模塊搜索互聯(lián)網(wǎng),該模塊本身也是一個 LLM。
PYTHON命令允許規(guī)劃者使用 「代碼執(zhí)行 」模塊進行計算,為實驗做準備。
EXPERIMENT命令通過DOCUMENTATION模塊描述的API實現(xiàn) 「自動化」。
與GOOGLE命令一樣,DOCUMENTATION命令也是從源頭向主模塊提供信息,這里指的是有關(guān)所需API的文檔。
研究人員演示了與Opentrons Python API 和翡翠云實驗室(ECL)符號實驗室語言(SLL)的兼容性。這些模塊共同組成了Coscientist,它可以接收來自用戶的簡單純文本輸入提示(例如,「執(zhí)行多個鈴木反應(yīng)」)。上圖完整地展示了這一架構(gòu)。
此外,有些命令還可以使用子反應(yīng)。
GOOGLE命令能夠?qū)⑻崾巨D(zhuǎn)化為適當?shù)木W(wǎng)絡(luò)搜索查詢,在谷歌搜索API中運行這些查詢,瀏覽網(wǎng)頁并將答案反饋給規(guī)劃器。
同樣,DOCUMENTATION命令可檢索和匯總必要的文檔(例如,機器人液體處理器或云實驗室),以便規(guī)劃器調(diào)用 EXPERIMENT命令。
PYTHON命令使用一個隔離的Docker容器執(zhí)行代碼(不依賴于任何語言模型),以保護用戶的機器免受規(guī)劃器要求的任何意外操作的影響。
重要的是,規(guī)劃器背后的語言模型可以在軟件出錯時修復(fù)代碼。這同樣適用于自動化模塊的EXPERIMENT 命令,該命令可在相應(yīng)硬件上執(zhí)行生成的代碼,或為手動實驗提供合成程序。
AI讓每個人都能成為科學家
自然界的大小和復(fù)雜性幾乎是無限的,無數(shù)新的科學發(fā)現(xiàn)有待人類突破。
想象一下,新的超導材料可以顯著提高能源效率,或者化合物可以治愈原本無法治愈的疾病,延長人類的壽命。
然而,獲得取得這些突破所需的教育和培訓是一段漫長而艱巨的旅程,成為一名科學家實在是太難了。
但是Gomes和他的團隊設(shè)想,像Coscientist這樣的人工智能輔助系統(tǒng)是一種解決方案,可以為全世界大量提供「AI科學家」來滿足科研的人力需求。
人類科學家也需要休息,睡眠。而人類引導的人工智能可以全天候地「科研」。
「自主運行的AI系統(tǒng)可以發(fā)現(xiàn)新現(xiàn)象、新反應(yīng)、新想法」。
科學上有一個反復(fù)嘗試、失敗、學習和改進的過程,人工智能可以大大加快這一過程。
「這可以顯著降低幾乎任何領(lǐng)域的準入門檻」Gomes說。例如,如果一位未受過「鈀催化偶聯(lián)反應(yīng)」訓練的生物學家想以一種新的方式探索反應(yīng)的用途,他們可以請Coscientist幫助他們計劃實驗。