偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="un1x1"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

打破AlphaFold大模型局限，世界最大蛋白質相互作用數(shù)據(jù)集AlphaSeq橫空出世

作者：新智元 2024-08-26 12:43:46

雖然AlphaFold等系列的大模型已經在蛋白質預測方面取得了前所未有的突破，但依舊無法勝任蛋白質-蛋白質相互作用（PPI）這種復雜的任務。初創(chuàng)公司A-Alpha Bio的PPI數(shù)據(jù)集AlphaSeq，有望補足這方面的技術短板。

隨著最近AlphaFold 3和ESM 3的相繼推出，我們看到了深度學習在生物學領域的無限潛力。

然而，Dyno Therapeutics的高級機器學習工程師Abihishaike Mahajan在上個月發(fā)布的一篇博文中指出了潛在的增長危機。

圖片

他認為，AlphaFold系列所取得的成果，即將一個強大的深度學習模型應用于一個已經存在大量數(shù)據(jù)的領域，從而引發(fā)一場徹底的革命——這是極難復制的。

原因還是數(shù)據(jù)。我們幾乎用盡了所有預先存在的數(shù)據(jù)，未經訓練的蛋白質結構和序列正在枯竭，RNA和DNA也是如此。

要想進一步訓練模型，發(fā)掘更多來源和模態(tài)的數(shù)據(jù)是必不可少的。Mahajan指出，理想情況下，這樣的數(shù)據(jù)應該滿足3個條件：

- 具有復雜的潛在分布

- 與重要的生理現(xiàn)象高度相關

- 適合大規(guī)模收集

在生物學領域，有很多數(shù)據(jù)可以滿足前兩個要求，比如蛋白形式測序、空間轉錄組學、體內測量和蛋白質-蛋白質相互作用等，但這類數(shù)據(jù)似乎很難大量采集、生成，形成規(guī)?；臄?shù)據(jù)集。

可喜的是，初創(chuàng)公司A-Alpha Bio最近做出了這方面的突破。

他們最近發(fā)布的AlphaSeq數(shù)據(jù)庫專注于蛋白質-蛋白質相互作用（protein-protein interaction, PPI），包含了超過7.5億條測量結果，構成了世界上最大的PPI數(shù)據(jù)集。

在AlphaSeq數(shù)據(jù)的基礎上，訓練出的AlphaBind模型可以準確預測有不同結合特性（親和力、特異性、交叉反應性、表位等）的蛋白質序列，從而輔助蛋白質設計或發(fā)現(xiàn)全新的蛋白質。

圖片

此外，作為實驗平臺，AlphaSeq還能夠同時定量測量數(shù)百萬個PPI的結合親和力，并快速得出結果，完美滿足了規(guī)?；瘮U展的需求。

根據(jù)CTO Randolph Lopez的說法，他們目前每月執(zhí)行約30次AlphaSeq檢測，每次可以得到100k~5M個交叉點。這意味著，AlphaSeq數(shù)據(jù)庫還在以每月3M~50M的速度快速擴展。

A-Alpha Bio這家初創(chuàng)公司也是大有來頭。不僅有計算生物學領域的大牛David Baker作為科學顧問，聯(lián)合創(chuàng)始人之一David Younger也是Baker實驗室的校友。

圖片

David Baker是華盛頓大學教授、蛋白質研究所所長。他領導團隊從頭開發(fā)的Rosetta算法奠定了用深度學習方法預測蛋白質結構的基礎，揭開了AlphaFold和ESMFold的帷幕。

A-Alpha Bio成立于2017年，根據(jù)CrunchBase的數(shù)據(jù)，他們已經融資64.1M美元，旨在通過合成生物學和機器學習技術來測量、發(fā)現(xiàn)、預測和設計蛋白質-蛋白質相互作用，從而加速藥物開發(fā)的進程。

補足AlphaFold

提到蛋白質相關的預測，你估計會疑惑：AlphaFold還不夠強大嗎，為什么還需要開發(fā)新的數(shù)據(jù)和模型？

很遺憾，AlphaFold的確不夠強大，因為要了解蛋白質的相互作用（PPI）是一個相當復雜且困難的任務。

比如，要預測含有13個氨基酸的多肽與受體的結合效果，需要十多個不同的種子反復運行AlphaFold，以及MSA子采樣和其他一系列「技巧」，模型才能給出「某種程度上」正確的結構。

這個任務之所以如此復雜，主要源于PPI的復雜性。即使規(guī)定了蛋白質間作用力的空間，可能的結構數(shù)量也會隨氨基酸數(shù)量呈指數(shù)級增長。

圖片

其中，分子構象的靈活性會導致不可預測的結合模式，并且潛在的相互作用表面的組合數(shù)量也會爆炸。

如果有足夠的訓練數(shù)據(jù)，模型也許能逐漸增強預測能力，應對問題的復雜性。

然而，傳統(tǒng)的PPI數(shù)據(jù)規(guī)模相當有限，比如今年1月剛剛發(fā)布的PDBbind+數(shù)據(jù)集，總共只包含3176個蛋白質-蛋白質復合物，遠遠無法滿足生產級的蛋白質設計需求。

圖片

AlphaSeq所用的方法，起源于Baker實驗室在2017年發(fā)表的一篇論文，描述了A-Alpha Bio對PPI數(shù)據(jù)進行大規(guī)模收集和表征的基本方法。

圖片

論文地址：https://www.pnas.org/doi/10.1073/pnas.1705867114#sec-1

酵母細胞立大功

出乎意料的是，AlphaSeq的原理是利用了酵母細胞的配對過程。

酵母細胞由兩種類型的配子：MATa和MATα，它們在自然界中能夠尋找到彼此并融合成為二倍體細胞。

這個過程就是由MATa細胞上的Aga2蛋白和MATα細胞上的Sag1蛋白所介導的。當這些蛋白質相互作用時，它們會導致細胞粘在一起，促進配對并形成二倍體細胞。

AlphaSeq正是利用了這個自然過程。研究人員對酵母細胞進行基因改造，讓相關的蛋白質暴露在細胞表面，MATa細胞搭載一組蛋白質，而MATα細胞搭載另一組蛋白質。

將改造過的細胞進行混合時，它們配對的可能性就取決于表面蛋白質相互作用的強度。

那么如何快速測量數(shù)千萬個蛋白質對之間的相互作用呢？答案是DNA編碼庫（DNA-encoded library）。

酵母細胞表面的每種蛋白質都與一個獨特的「DNA條形碼」相關聯(lián)。當兩個酵母細胞配對時，這些條形碼會在生成的二倍體細胞中聚集在一起。

通過一些基因工程的操作，這些DNA條形碼最終會位于同一條染色體上的相鄰位置。

在此基礎上，我們就可以提取細胞DNA進行測序，兩個DNA條形碼相鄰的頻率就與兩種蛋白質相互作用的強度直接相關。

圖片

值得注意的是，將整個平臺都建立在酵母細胞上，可能存在根本限制。雖然酵母細胞表達的蛋白質和人體內的蛋白質之間具有高度可翻譯性，但兩者的翻譯后修飾依舊存在差異。

翻譯后修飾的差別可能會影響蛋白質的折疊，從而影響結合。

目前我們尚不清楚A-Alpha Bio如何將收集的數(shù)據(jù)從酵母遷移到人類細胞，但他們已經對一些蛋白質的可翻譯性進行了驗證。這種方法至少總體上是可行且有效的。

應用前景

遺憾的是，A-Alpha Bio目前還沒有發(fā)布AlphaSeq的最新論文，關于AlphaBind模型的信息也十分有限。

但根據(jù)Mahajan文章的分析，該公司一系列產品有相當?shù)膽们熬啊?/span>

對疾病治療領域而言，可以幫助設計免疫細胞因子等藥物；與大型制藥公司合作，也可以幫助「分子膠」的開發(fā)。

使用AlphaSeq平臺進行細胞因子親和力調整來生成靶向免疫腫瘤治療藥物

參考資料：

https://www.owlposting.com/p/creating-the-largest-protein-protein

https://www.owlposting.com/p/wet-lab-innovations-will-lead-the

https://www.pnas.org/doi/10.1073/pnas.1705867114

責任編輯：武曉燕來源：新智元

AlphaFold 模型蛋白質

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營