全球10大終極數(shù)據(jù)庫(kù)(下篇)
之前已經(jīng)為大家介紹了全球5大***數(shù)據(jù)庫(kù),即全球10大***數(shù)據(jù)庫(kù)(上篇)下文中將繼續(xù)為大家介紹另外5種數(shù)據(jù)庫(kù)。
6. Sprint 斯普林特
Sprint是全球***的通信公司之一,向5300萬(wàn)客戶提供服務(wù)。在和Nextel合并之前,提供本地和長(zhǎng)途通信服務(wù)。(Sprint Nextel公司現(xiàn)已是全美第3大通信公司,僅次于Verizon和AT&T。)
像Sprint這樣的大型通信公司,均有龐大的數(shù)據(jù)庫(kù),以追蹤客戶呼叫請(qǐng)求。Sprint的數(shù)據(jù)庫(kù)每天要處理多達(dá)3.65億次呼叫記錄。其數(shù)據(jù)庫(kù)已擴(kuò)展到2.85萬(wàn)億行。在頂峰期間,每秒有7萬(wàn)次呼叫詳細(xì)記錄新增到數(shù)據(jù)庫(kù)中。
Sprint數(shù)據(jù)庫(kù)概括:
1. 數(shù)據(jù)庫(kù)有2.85萬(wàn)億行;
2. 每日平均處理3.65億個(gè)呼叫詳細(xì)記錄;
3. 頂峰期間,每秒插入7萬(wàn)次呼叫詳細(xì)記錄。
7. Google
盡管目前外界沒(méi)有太多關(guān)于Google的數(shù)據(jù)庫(kù)真實(shí)大小的信息(Google一直能嚴(yán)守信息,這讓諾克斯堡軍事基地情何以堪。),但我們已知道Google所收集信息的數(shù)量和種類。
編者注:文中提到的諾克斯堡軍事基地,是美國(guó)國(guó)庫(kù)黃金儲(chǔ)備地之一(還有一個(gè)是西點(diǎn),至于紐約聯(lián)邦儲(chǔ)備銀行的地下金庫(kù),主要是存放外國(guó)的黃金。 )。該基地許多地方可以隨便開(kāi)車進(jìn)入,惟獨(dú)金庫(kù)用鐵絲網(wǎng)攔住,外人不得入內(nèi)。故原文作者這樣說(shuō)。
Google平均每天處理9100萬(wàn)次查詢(Google的處理海量請(qǐng)求的能力是基于其龐大且強(qiáng)大的數(shù)據(jù)中心),這將近占整個(gè)互聯(lián)網(wǎng)每日查詢總量的50%。Google把用戶的每一次搜索保存在數(shù)據(jù)庫(kù)中。所以,Google平均一年要保存33萬(wàn)億條查詢記錄。根據(jù)Google數(shù)據(jù)的結(jié)構(gòu)類型,一年的查詢總量將折合成數(shù)百TB。
除了查詢記錄,Google還收集用戶的個(gè)人信息。(怎么收集?)Google把用戶的查詢請(qǐng)求和用戶電腦上Cookie保留的信息整合到一起,創(chuàng)建虛擬的個(gè)人信息。
尤為重要的是,除了搜索,Google帝國(guó)的疆土還在不斷擴(kuò)大,現(xiàn)有疆土已有數(shù)字媒體(Google視頻和YouTube)、廣告(Google Ads)和郵箱等。歸根結(jié)底,Google的疆土越大,其數(shù)據(jù)庫(kù)處理的信息量就越大。就互聯(lián)網(wǎng)范圍內(nèi)的數(shù)據(jù)庫(kù)而言,Google是No 1。
Google數(shù)據(jù)庫(kù)概括:
1. 平均每天9100萬(wàn)查詢請(qǐng)求;
2. 查詢數(shù)量占所有互聯(lián)網(wǎng)查詢量的50%;
3. 不計(jì)其數(shù)的用戶虛擬資料。
#p#
8. AT&T 美國(guó)電話電報(bào)公司
和Sprint一樣,美國(guó)的老牌通信公司AT&T的數(shù)據(jù)庫(kù)也能進(jìn)入排名。從結(jié)構(gòu)上來(lái)說(shuō),AT&T的***數(shù)據(jù)庫(kù)是百里挑一的,因?yàn)樗?個(gè) 重要“頭銜”,總量***的獨(dú)立數(shù)據(jù)庫(kù)(312TB)和行數(shù)第二大的獨(dú)立數(shù)據(jù)庫(kù)(1.9萬(wàn)億行,這個(gè)數(shù)據(jù)庫(kù)是處理呼叫記錄的)。
1.9萬(wàn)億條呼叫記錄,包括了主叫和被叫號(hào)碼、呼叫時(shí)間和通話時(shí)長(zhǎng)以及其他各種賬單目錄信息。AT&T的工作做得非常細(xì)致,他們業(yè)保存了10年前的呼叫信息。要知道,10年前可沒(méi)有保存數(shù)百TB級(jí)數(shù)據(jù)的技術(shù)。(或者說(shuō)技術(shù)還不成熟。)
AT&T數(shù)據(jù)庫(kù)概括:
1. 信息量為323TB;
2. 1.9萬(wàn)億的通話記錄。
9. 美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(簡(jiǎn)稱NERSC)
第二大的數(shù)據(jù)庫(kù)應(yīng)屬加州奧克蘭的NERSC。NERSC由“勞倫斯伯克利能源實(shí)驗(yàn)室”和“美國(guó)能源部”共同運(yùn)作。它數(shù)據(jù)庫(kù)保存的信息包括了原子能研究、高 能物理實(shí)驗(yàn)和早期宇宙模擬等數(shù)據(jù)。如果想看宇宙過(guò)去的模樣,啟動(dòng)NERSC的超級(jí)計(jì)算機(jī)就可以觀看“大爆炸”時(shí)期的宇宙形態(tài)。
編者注:NERSC有超級(jí)計(jì)算機(jī)群,其中***的名為“富蘭克林”。2009年11月,全球超超級(jí)計(jì)算機(jī)Top500排行榜中,“富蘭克林”位列15。
NERSC數(shù)據(jù)庫(kù)由2000多名計(jì)算機(jī)科學(xué)家操作和維護(hù),其數(shù)據(jù)量高達(dá)2.8PB。(注:1 PB = 1024 TB;1 TB = 1024 GB;)
NERSC數(shù)據(jù)庫(kù)概括:
1. 信息量高達(dá)2.8PB;
2. 由2000多名計(jì)算機(jī)科學(xué)家共同運(yùn)作;
10. 世界氣候數(shù)據(jù)中心(WDCC)
如果你有一臺(tái)價(jià)值3500萬(wàn)歐元的超級(jí)計(jì)算機(jī),你會(huì)把它用來(lái)做什么?炒股?搭建自己的“因特網(wǎng)”?WDCC就有一臺(tái)這樣的機(jī)器,又逢全球變暖,正好用它來(lái)做氣候研究。WDCC由馬克思·普朗克氣象研究院和德國(guó)氣候計(jì)算機(jī)中心共同運(yùn)作,其數(shù)據(jù)庫(kù)是全球***的。
WDCC有220TB的網(wǎng)絡(luò)數(shù)據(jù),包括氣候研究、預(yù)測(cè)氣候變化和110TB(24500張DVD)的氣候模擬數(shù)據(jù)。尤為重要的是,它還有保存在磁帶上的6PB的其他信息。你會(huì)問(wèn),這6PB的數(shù)據(jù)有多大呢?這個(gè)數(shù)據(jù)是全美所有學(xué)術(shù)研究圖書(shū)館內(nèi)容總和的3倍。
WDCC數(shù)據(jù)庫(kù)概括:
1. 220TB的網(wǎng)絡(luò)數(shù)據(jù):
2. 6PB的其他數(shù)據(jù)。
編者后話
對(duì)于這份原文作者整理的這份列表,相信有朋友會(huì)有疑惑,這能稱上是“全球10大***數(shù)據(jù)庫(kù)”么?我也有此疑問(wèn),但我對(duì)Google、AT&T、 NERSC和WDCC可以進(jìn)入排名沒(méi)有疑問(wèn)。我想,既然美國(guó)的第三通信公司Sprint能進(jìn)入,那國(guó)內(nèi)的同行企業(yè)的數(shù)據(jù)庫(kù)為什么沒(méi)能上榜呢?按道理來(lái)說(shuō), 有著龐大人口/用戶基數(shù)的,應(yīng)該能入圍的?;蛟S有這種可能:雖然美國(guó)通信企業(yè)的用戶數(shù)量沒(méi)法和國(guó)內(nèi)的同行比,但他們保存的通話記錄比國(guó)內(nèi)更長(zhǎng),故數(shù)據(jù)庫(kù)更 龐大。
其實(shí)本文恰當(dāng)?shù)臉?biāo)題應(yīng)該是“全美10大***數(shù)據(jù)庫(kù)”。并且原文作者還把Facebook漏掉了。Facebook這么龐大的活躍用戶群(用戶總量已超過(guò)5億),看下面3個(gè)數(shù)據(jù):(數(shù)據(jù)來(lái)源參考)
1. 每月處理超過(guò)250億條的信息內(nèi)容(包括用戶狀態(tài)更新,評(píng)論等);
2. Facebook圖片總量已有200億張(其實(shí)共有800百?gòu)?,因?yàn)槊繌垐D片按4種分辨率保存);
3. 每個(gè)月有超過(guò)30億的圖片上傳到Facebook。
主要看***條數(shù)據(jù)(圖片不會(huì)保存在數(shù)據(jù)庫(kù)中的),每月有250億條,F(xiàn)acebook已運(yùn)作這么多年了,數(shù)據(jù)庫(kù)中應(yīng)該存有5000億條信息(保守?cái)?shù)字),假設(shè)平均每條信息10B,則共約為50TB。
總而言之,如果要算數(shù)據(jù)庫(kù)總量大小,F(xiàn)acebook能進(jìn)入這個(gè)列表。如果你還有其他觀點(diǎn),不妨在評(píng)論中和大家一起分享。
【編輯推薦】