谷歌云與 Ginkgo Bioworks 合作推出新型蛋白質(zhì)大語言模型和應(yīng)用程序接口
谷歌云加大與 Ginkgo Bioworks 的合作,兩家公司日前推出了兩項(xiàng)新產(chǎn)品。
第一項(xiàng)是推出一個(gè)蛋白質(zhì)大語言模型,使業(yè)界的組織和公司能夠利用 Ginkgo 的專有見解和數(shù)據(jù)加快藥物發(fā)現(xiàn)過程。第二項(xiàng)是生物技術(shù)公司 Ginkgo 將推出一個(gè)模型應(yīng)用程序接口(API),幫助機(jī)器學(xué)習(xí)工程師和科學(xué)家獲取生物學(xué)人工智能模型。
谷歌云戰(zhàn)略產(chǎn)業(yè)副總裁 Chris Sakalosky 和 Ginkgo 人工智能總經(jīng)理 Ankit Gupta在接受記者采訪時(shí)討論了這一激動人心的更新。Gupta 表示,生物學(xué)在很大程度上已經(jīng)從一門純物理學(xué)科轉(zhuǎn)變?yōu)橐婚T計(jì)算學(xué)科。那些能夠理解、利用并從大量數(shù)據(jù)中提取有意義見解的方法和手段的人將最終取得成功。這正是 Ginkgo 生態(tài)系統(tǒng)的強(qiáng)大之處,因?yàn)?Ginkgo 生態(tài)系統(tǒng)提供了簡化工程所需的計(jì)算工具。Sakalosky 分享了他第一次與 Ginkgo 生物工程公司創(chuàng)始人 Jason Kelly見面時(shí)的見解,并討論了 DNA本質(zhì)上可以被視為一種語言和代碼。如果創(chuàng)新者可以訓(xùn)練人工智能理解對話、口語和計(jì)算機(jī)代碼,那么人工智能就沒有理由不能以同樣的方式理解和處理 DNA。這正是這個(gè)蓬勃發(fā)展領(lǐng)域的關(guān)鍵所在。
新的蛋白質(zhì)大語言模型背后的前景令人振奮,因?yàn)樵撃P褪窃诠雀柙芕ertex人工智能平臺上構(gòu)建的,其訓(xùn)練基于 Ginkgo 的專有數(shù)據(jù)模型。該模型將使研究人員和企業(yè)能夠快速理解并利用自己的數(shù)據(jù),進(jìn)而為藥物發(fā)現(xiàn)帶來巨大的好處。此外,Ginkgo 公司提供的新應(yīng)用程序接口可以訪問在蛋白質(zhì)和 DNA 數(shù)據(jù)基礎(chǔ)上訓(xùn)練的復(fù)雜模型。第一個(gè)模型是 ginkgo-AA-0-650m,是“一個(gè)基于超過20億個(gè)Ginkgo專有蛋白質(zhì)序列訓(xùn)練的大模型”。
為什么這些都很重要?
生物學(xué)、藥物研發(fā)、人工智能和先進(jìn)工程學(xué)之間的融合從未像現(xiàn)在這樣緊密,原因是這些垂直領(lǐng)域之間存在大量相互促進(jìn)的機(jī)會。這就是為什么各家公司都在迅速增加在這一領(lǐng)域的投資,競爭也非常激烈。以 Meta 的 ESM 宏基因組圖譜為例,該項(xiàng)目旨在“將數(shù)據(jù)集中的每個(gè)蛋白質(zhì)表示為一個(gè)單獨(dú)的點(diǎn),并在放大或懸停時(shí)顯示實(shí)際的蛋白質(zhì)結(jié)構(gòu)”。盡管該項(xiàng)目據(jù)報(bào)已經(jīng)暫停,但截至2023年3月,該模型的可用蛋白質(zhì)結(jié)構(gòu)已接近7.72億個(gè)。同樣,Alphabet 旗下的 Isomorphic Labs 與 Google DeepMind合作,開發(fā)了業(yè)界領(lǐng)先的蛋白質(zhì)模型 AlphaFold。其最新版本 AlphaFold 3 聲稱“與現(xiàn)有預(yù)測方法相比至少提高了50%”。
一項(xiàng)發(fā)表在《生物信息學(xué)前沿》期刊的研究強(qiáng)調(diào)了在蛋白質(zhì)生物學(xué)和工程學(xué)中使用大語言模型的巨大潛力:“建模能力在不斷增強(qiáng),預(yù)計(jì)將解決醫(yī)學(xué)和分子生物學(xué)中的一系列復(fù)雜問題……通過利用嵌入在深度神經(jīng)模型參數(shù)中的‘聯(lián)結(jié)知識’?!?/p>
盡管在這個(gè)領(lǐng)域還有大量工作要做,各項(xiàng)工作才剛剛開始,但這項(xiàng)技術(shù)為生物科學(xué)與人工智能的結(jié)合提供了一個(gè)令人期待的前景。