MIT打造實(shí)驗(yàn)科學(xué)家的大模型助手,語(yǔ)音聊天就能開展實(shí)驗(yàn)
目前,人工智能以及自主實(shí)驗(yàn)室主要由 Python 等語(yǔ)言編寫,然而,并非所有實(shí)驗(yàn)科學(xué)工作者都擅長(zhǎng)使用這類編程語(yǔ)言,因而其在真實(shí)世界實(shí)驗(yàn)中的影響力還是比較有限。
最近,基于 OpenAI 發(fā)布的 ChatGPT API 函數(shù)調(diào)用功能,打造一個(gè)曾經(jīng)只能在鋼鐵俠電影中看到的賈維斯智能助手已成為了可能。
近日,來自 MIT 李巨教授團(tuán)隊(duì)開發(fā)了一個(gè)專為實(shí)驗(yàn)科學(xué)家量身打造的人工智能助手 CRESt(Copilot for Real-world Experimental Scientist),后端是用 ChatGPT 作為核心串聯(lián)起來的,其具有以下特點(diǎn):(1)可以調(diào)用真實(shí)世界的機(jī)械臂進(jìn)行自動(dòng)化實(shí)驗(yàn),(2)自主查找本地或網(wǎng)上專業(yè)的材料數(shù)據(jù)庫(kù),(3)提供優(yōu)化材料配方的主動(dòng)學(xué)習(xí)算法。
CRESt 前端已經(jīng)實(shí)現(xiàn)了 voice-in voice-out、AI 生成語(yǔ)音,以及多平臺(tái)無(wú)縫切換。有了 CRESt 之后,即使沒有任何代碼經(jīng)驗(yàn),科研工作者也能通過與其口頭對(duì)話來利用自動(dòng)化實(shí)驗(yàn)平臺(tái)幫自己做實(shí)驗(yàn)。
圖片
論文地址:https://doi.org/10.26434/chemrxiv-2023-tnz1x
接下來,我們看看 CRESt 效果具體如何?前面我們已經(jīng)強(qiáng)調(diào)了,你可以與 CRESt 進(jìn)行對(duì)話,從而開始任務(wù)。下面我們大概展示一下具體的任務(wù)流程,了解更詳細(xì)信息,可以查看視頻。
首先告訴 CRESt,任務(wù)要開始了。CRESt 會(huì)詢問今天要進(jìn)行的項(xiàng)目名稱。
如果你一時(shí)忘記了有哪些項(xiàng)目,不用擔(dān)心,你可以咨詢 CRESt。CRESt 會(huì)清楚的列舉你正在進(jìn)行的項(xiàng)目名稱以及簡(jiǎn)短的項(xiàng)目描述。
圖片
在匯報(bào)完項(xiàng)目列表后,CRESt 會(huì)詢問這次進(jìn)行哪個(gè)項(xiàng)目。得到用戶回復(fù)后,CRESt 還會(huì)詢問實(shí)驗(yàn)細(xì)節(jié),例如如何決定下一批實(shí)驗(yàn)的配方,是采用手動(dòng)選擇,還是采用主動(dòng)學(xué)習(xí)?
圖片
進(jìn)行完這一步后,你突然又想了解存儲(chǔ)在數(shù)據(jù)庫(kù)中的一些內(nèi)容,這時(shí)你可以要求 CRESt 讀取數(shù)據(jù)庫(kù)內(nèi)容,幫你解答疑問:
圖片
根據(jù)抽取的數(shù)據(jù)庫(kù)內(nèi)容,假如你想修改實(shí)驗(yàn)的某些部分,可以告訴 CRESt,CRESt 根據(jù)指示進(jìn)行修改。接下來,CRESt 會(huì)提醒你需要檢查設(shè)備:
圖片
CRESt 還會(huì)詢問你是否需要在實(shí)驗(yàn)開始和結(jié)束時(shí)發(fā)送電子郵件,并確定按照以上修改方法,實(shí)驗(yàn)是否開始,在得到明確的回復(fù)后,CRESt 啟動(dòng)實(shí)驗(yàn)。這時(shí)你也不用隨時(shí)盯著實(shí)驗(yàn),你可以去吃飯或者干其他事情,其他交給 CRESt 就可以了:
圖片
實(shí)驗(yàn)過程中的樣品制備,所有這些都是 CRESt 自己操控的:
圖片
試驗(yàn)之后,你可以要求 CRESt 發(fā)送實(shí)驗(yàn)錄像到手機(jī)上,之后你會(huì)收到實(shí)驗(yàn)錄像郵件:
圖片
CRESt 發(fā)送的實(shí)驗(yàn)錄像

項(xiàng)目介紹
CRESt “操作系統(tǒng)” 主要由四部分組成:用戶界面,ChatGPT 后端,主動(dòng)學(xué)習(xí)和末端執(zhí)行器。
用戶界面基于 chatgpt-voice,一個(gè)支持語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音交互的 Github 項(xiàng)目。其便捷的網(wǎng)絡(luò)框架使得用戶可以在離開實(shí)驗(yàn)室后,在手機(jī)上無(wú)縫地繼續(xù)對(duì)話 —— 因?yàn)楹蠖耸仟?dú)立運(yùn)行的,即使前端改變也不會(huì)受到影響。
此外,作者還將實(shí)時(shí)生成逼真人聲的 ElevenLabs AI 語(yǔ)音集成到前端中。從前端收集到的文本消息隨后將被傳輸?shù)浇⒃?CallingGPT 基礎(chǔ)之上的 ChatGPT 后端。CallingGPT 是另一個(gè) Github 項(xiàng)目,其能將 Google docstring 樣式記錄的 Python 函數(shù)轉(zhuǎn)換成 ChatGPT API 可以識(shí)別的 JSON 格式,以供在 ChatGPT 認(rèn)為需要時(shí)調(diào)用。此外,它在 ChatGPT 和本地 Python 函數(shù)庫(kù)之間形成一個(gè)閉合的反饋回路:ChatGPT 所建議調(diào)用的函數(shù)將立即在本地執(zhí)行,并且其返回值將發(fā)送回 ChatGPT。
除此之外,作者還在 CRESt 中嵌入了主動(dòng)學(xué)習(xí)算法。得益于在小數(shù)據(jù)集上不錯(cuò)的性能,主動(dòng)學(xué)習(xí)被認(rèn)為是最適合實(shí)驗(yàn)科學(xué)的機(jī)器學(xué)習(xí)算法之一。在涉及真實(shí)物理世界實(shí)驗(yàn)的機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)采集往往是最大的挑戰(zhàn)。與虛擬世界不同,真實(shí)物理世界中的每一個(gè)數(shù)據(jù)點(diǎn)可能都需要花費(fèi)大量的時(shí)間和金錢。一般來說,一個(gè) 1000 個(gè)點(diǎn)的數(shù)據(jù)集就已經(jīng)是相當(dāng)不錯(cuò)的了。在這樣的條件下,如何對(duì)設(shè)計(jì)空間進(jìn)行高效取樣變得至關(guān)重要。主動(dòng)學(xué)習(xí)的主要功能是交互式地建議在下一批實(shí)驗(yàn)中測(cè)試的參數(shù)組合,比如在視頻中展示的合金配方推薦。
在 CRESt 中內(nèi)嵌的是由 Meta 團(tuán)隊(duì)開發(fā)的基于 BoTorch 的 Ax 平臺(tái)。Ax 有著優(yōu)秀的 SQL 存儲(chǔ)功能:即使 GPT 后端重置,也可以通過調(diào)取數(shù)據(jù)庫(kù)中存儲(chǔ)的記錄來繼續(xù)之前的主動(dòng)學(xué)習(xí)。
末端執(zhí)行器是一系列通過 HTTP 請(qǐng)求調(diào)用的子程序。其中一些可能涉及信息檢索任務(wù)(本地或公共數(shù)據(jù)庫(kù)查詢,如 Materials Project ),而其他一些可能會(huì)對(duì)物理世界產(chǎn)生真實(shí)的影響,就像在視頻中展示的那樣(液體處理機(jī)器人、激光切割機(jī)、泵、氣閥、機(jī)械臂等),主要是用于做實(shí)驗(yàn)的一些自動(dòng)化的硬件。這些設(shè)備的自動(dòng)化主要由 PyAutoGUI 實(shí)現(xiàn),一個(gè)可以模擬人類鼠標(biāo)和鍵盤動(dòng)作的 Python 庫(kù)。 然而,作者預(yù)期這個(gè)冗余步驟最終將失去其必要性,因?yàn)樵诓痪玫膶泶蠖鄶?shù)實(shí)驗(yàn)室設(shè)備都應(yīng)該會(huì)在人類交互界面之外提供一個(gè)專用的 AI 通信接口。
展望
大語(yǔ)言模型可以為科學(xué)和工程領(lǐng)域帶來什么?這是作者團(tuán)隊(duì)自 ChatGPT 問世以來一直在思考的問題。毫無(wú)疑問,大語(yǔ)言模型已經(jīng)展示了其作為文獻(xiàn)整理員的超凡潛力,我們需要做的只是在預(yù)訓(xùn)練過程中向其提供更多的文獻(xiàn)全文。除此之外還有哪些可能性呢?除了我們以 CRESt 形式開發(fā)的實(shí)驗(yàn)員助手的角色,我們?cè)O(shè)想大語(yǔ)言模型至少還會(huì)在以下三個(gè)維度發(fā)揮作用:
儀器技術(shù)指導(dǎo)員。目前,研究人員必須理解他們所使用技術(shù)的理論基礎(chǔ),以及個(gè)別儀器的具體操作(有時(shí)是基于經(jīng)驗(yàn)的 “技巧”、“手藝”),而這些操作可能會(huì)因制造商而異。后者往往意味著耗費(fèi)巨大的時(shí)間成本,例如面向一個(gè)公共儀器的一系列培訓(xùn)課程,或者閱讀一個(gè)組內(nèi)儀器的 200 頁(yè)說明書,以及上百小時(shí)的實(shí)操練習(xí)。但深入思考一下,這些步驟真的是必要的嗎?我們預(yù)見,在不久的將來,研究人員只需要清楚地用自然語(yǔ)言表達(dá)他們的需求,大語(yǔ)言模型就能夠?qū)⑦@些需求翻譯成最佳的參數(shù)設(shè)置(其實(shí)這就是現(xiàn)在一些儀器專家正在做的事情,了解客戶的需求,并轉(zhuǎn)化成儀器參數(shù)設(shè)定 / 操作)。必要時(shí),大語(yǔ)言模型也可以將說明書中的對(duì)應(yīng)部分提供給用戶以便用戶了解詳情。從技術(shù)上來說,儀器制造商只需要適當(dāng)?shù)匚⒄{(diào)一個(gè)大語(yǔ)言基礎(chǔ)模型,讓其學(xué)習(xí)公司內(nèi)高級(jí)技術(shù)員所掌握的儀器操作經(jīng)驗(yàn)即可,這件事從今天就可以著手進(jìn)行。
流水線診斷師。結(jié)合了多傳感器的機(jī)器人或無(wú)人機(jī)后,大語(yǔ)言模型可以幫助確定實(shí)驗(yàn)可重復(fù)性不佳的根本原因。在未來,最理想的實(shí)驗(yàn)范式是記錄每個(gè)樣品整個(gè)生命周期中的所有元數(shù)據(jù)。當(dāng)出現(xiàn)無(wú)法解釋的現(xiàn)象時(shí),所有相關(guān)的日志數(shù)據(jù)都將被輸入到多模態(tài)大語(yǔ)言模型進(jìn)行分析。利用其優(yōu)秀的假說生成能力,大語(yǔ)言模型可以提出一系列潛在的原因,以供人類專家進(jìn)一步調(diào)查他們認(rèn)為最有可能的幾個(gè)假說。這種方法也可以應(yīng)用于工業(yè)流水線 —— 如果注意到生產(chǎn)產(chǎn)量 / 良品率大幅下降,大語(yǔ)言模型可以通過對(duì)比流水線歷史記錄來識(shí)別 "罪魁禍?zhǔn)?。只有需要復(fù)雜的現(xiàn)實(shí)世界操作時(shí),人類工程師才需要介入,除此以外大語(yǔ)言模型可以直接對(duì)大概率出了問題的子環(huán)節(jié)進(jìn)行參數(shù)微調(diào)。實(shí)現(xiàn)這個(gè)角色的前提條件是大語(yǔ)言模型可以處理大量的圖像(視頻),且其性能取決于多模態(tài)信息(樣品元數(shù)據(jù),視覺信息,聲音信息等)的對(duì)齊程度。
機(jī)理猜想者。我們預(yù)期大語(yǔ)言模型十分擅長(zhǎng)將已建立的科學(xué)原理用于解釋新的實(shí)驗(yàn)現(xiàn)象。科學(xué)機(jī)理探索階段的很大一部分工作都是模式匹配型工作(例如,從光譜中提取微小的特征并與標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行比較),這些都在大語(yǔ)言模型的能力范圍內(nèi)。在不久的將來,這個(gè)工作流將會(huì)變的非常簡(jiǎn)單直接,我們只需要問大語(yǔ)言模型:我們制備并測(cè)試了一個(gè)樣品,它的成分是 xxx,處理工藝和參數(shù)是 xxx,其性能是 xxx。這是所有的表征結(jié)果(掃描電子顯微鏡,X 射線衍射等),請(qǐng)給出 10 個(gè)理由詳細(xì)表述為什么這個(gè)樣品的性能這么好。人類研究者可以從大語(yǔ)言模型生成的一系列敘述中篩選出最合理的解釋,并以此為基礎(chǔ)完善整個(gè)機(jī)理解釋。然而,這個(gè)任務(wù)是所有我們預(yù)想的大語(yǔ)言模型的角色中最具有挑戰(zhàn)性的,其實(shí)現(xiàn)的前提條件包括(i)圖像輸入和與科學(xué)術(shù)語(yǔ)的對(duì)齊,(ii)從專業(yè)物理科學(xué)數(shù)據(jù)庫(kù)中檢索特定信息的能力,(iii)大語(yǔ)言模型在科學(xué)期刊正文和附錄的預(yù)訓(xùn)練,(iv)大語(yǔ)言模型有能力調(diào)用一系列前沿的子領(lǐng)域的機(jī)器學(xué)習(xí)模型或是仿真模型。
總結(jié)
CRESt 只是大語(yǔ)言模型協(xié)助科學(xué)家的一個(gè)起點(diǎn),我們相信大語(yǔ)言模型的真正潛力在于其假說生成能力。人類擁有相對(duì)有限的知識(shí)庫(kù),但出色的因果推理能力使得我們能夠給出雖然數(shù)量不多但一針見血的假說。相比之下,人工智能有著廣泛的知識(shí)庫(kù)以及從大數(shù)據(jù)中提取統(tǒng)計(jì)信息的能力,因此它們可以在短時(shí)間內(nèi)生成大量的,沒那么精準(zhǔn)的假說。因此,這不是一個(gè)人工智能與人類競(jìng)爭(zhēng)的故事,而是人工智能補(bǔ)足人類短板的故事。在 “AI suggests, humans select” 的合作模式下,雙方都能發(fā)揮出各自的優(yōu)勢(shì),“各盡其才”。




























