ENCODE變廢為寶 大數(shù)據(jù)成就基因工程
1972年,日本遺傳學家大野乾給不能編碼蛋白質(zhì)的DNA片段起名為“垃圾DNA”。然而在2012年9月5日的這篇“80%的基因組是有功能”的報道中說明,這些大野乾稱為“垃圾”的DNA實際上是一個龐大的控制面板,能調(diào)控數(shù)以萬計基因的活性,并決定了一些基因的特質(zhì)。如果沒有這些開關(guān)的調(diào)控,基因?qū)⒉荒苷9ぷ鳎@些區(qū)域也許會導致人類患上疾病。這個發(fā)現(xiàn)震驚了整個科學界!
但是對于計算機領域的我們來說,神奇的不僅是ENCODE項目的成果,還有那些提供支持的基礎設施。新聞稿還報道了ENCODE產(chǎn)生了15TB以上的原始數(shù)據(jù),數(shù)據(jù)分析更是耗費了300年以上的執(zhí)行時間!對于那些以大數(shù)據(jù)謀生的公司來說這也許算不了什么 — Facebook公布日處理數(shù)據(jù)超過500TB。但是別忘了,ENCODE的數(shù)據(jù)是在科學界中共享和存取的!
當我們試圖去建立節(jié)約和有組織的大數(shù)據(jù)時,ENCODE項目還是值得我們借鑒的。它不只是提出了一些新的遺傳物質(zhì)真理 — 還是一個全球性的合作,需要32個實驗室,收集和完成多于147個組織樣本上超出1600多個實驗產(chǎn)生的數(shù)據(jù),然后進一步的使用這些數(shù)據(jù)收獲更多的發(fā)現(xiàn)。
在近期一份來自ENCODE的報告中。UCSC Genome Browser項目主任ENCODE Data Coordination Center主事Jim Kent公布了一些難題。這些挑戰(zhàn)來自確定實驗是獨立的、有價值的及它仍然能夠產(chǎn)生精確的數(shù)據(jù)。
Kent及他的生物分子科學與工程數(shù)據(jù)協(xié)調(diào)小組(位于加州大學圣克魯茲分校中心),就項目規(guī)模提出了許多挑戰(zhàn)。首先,他們必須協(xié)調(diào)一部分來自世界各地制造數(shù)據(jù)的科學家。Kent還說,我們有5個數(shù)據(jù)收割者周游于各個實驗室之間,在高峰期通常1周4次的電話會議還要輔以1年兩次的大型會議,還有數(shù)不清的電子郵件和網(wǎng)絡電話。
數(shù)據(jù)及活動進程/QA的管理的難題更是如影隨形?;驍?shù)據(jù)管理Appistry公司的副總裁Sultan M.Meghji說,大部分的人都致力于數(shù)據(jù)的管理,好讓它能一直保持最新。
該項目還使用了龐大的數(shù)據(jù)集。研究人員同樣對結(jié)果分析工具進行了開發(fā)。其中包括為了追蹤遺傳分析細節(jié)而設計的數(shù)據(jù)庫HaploReg和RegulomeDB。還有一個預配置的虛擬機提供托管和對項目所產(chǎn)生數(shù)據(jù)進行分析。當然數(shù)據(jù)會對研究者開放,該項目的參與者還鼓勵有興趣人士積極的學習如何使用數(shù)據(jù)并為他們提供了一個門戶網(wǎng)站。
隨著信息科技的發(fā)展,世界范圍的互通性得到顯著性的提高,以往以實驗室為單位的科技研究將漸漸的被有組織的多實驗室研究所替代。而隨著云計算的發(fā)展、大數(shù)據(jù)的完善及新技術(shù)的問世,這些現(xiàn)有的難題必將被逐一解決!