Facebook的“大數(shù)據(jù)”到底有多大
據(jù)說(shuō)這是一個(gè)“大數(shù)據(jù)”的時(shí)代,到底有多大呢?
Facebook最近在總部的一次會(huì)議中披露的一組數(shù)據(jù)可以給大家一個(gè)初步的印象,來(lái)一起看看每天Facebook上都得處理多少數(shù)據(jù)吧:
25億 Facebook上分享的內(nèi)容條數(shù)
27億 “贊”的數(shù)量,
3億 上傳照片數(shù)
500+TB 新產(chǎn)生的數(shù)據(jù)
105TB 每半小時(shí)通過(guò)Hive掃描的數(shù)據(jù)
100+PB(1PB=1024TB) 單個(gè)HDFS(分布式文件系統(tǒng))集群中的磁盤(pán)容量
FB的工程總監(jiān)Parikh解釋了這些數(shù)據(jù)對(duì)于Facebook的意義:“大數(shù)據(jù)的意義在于真正對(duì)你的生意有內(nèi)在的洞見(jiàn)。如果你不能好好利用自己收集到的數(shù)據(jù),那你只是空有一堆數(shù)據(jù)而已,不叫大數(shù)據(jù)。”
目前Facebook有著世界***的分布式文件系統(tǒng),單個(gè)集群中的數(shù)據(jù)存儲(chǔ)量就超過(guò)100PB。在Facebook內(nèi)部,從一開(kāi)始就沒(méi)有在不同的部門(mén)之間(比如廣告部和用戶支持部)設(shè)立障礙或者分割數(shù)據(jù)。這樣一來(lái)產(chǎn)品開(kāi)發(fā)者就可以跨部門(mén)獲得數(shù)據(jù),實(shí)時(shí)知曉最近的改動(dòng)是否增加了用戶瀏覽時(shí)間或者促成了更多的廣告點(diǎn)擊。
作為普通用戶,大家也許會(huì)對(duì)如此海量的數(shù)據(jù)心存不安,擔(dān)心自己的數(shù)據(jù)被隨意瀏覽。對(duì)此Facebook表示有各種防范措施來(lái)防止此類事情的發(fā)生,比如所有的數(shù)據(jù)讀取記錄都會(huì)被存檔,哪些人看過(guò)哪些數(shù)據(jù)都是記錄在案的;如果有員工越線,會(huì)被直接開(kāi)除。Parikh著重強(qiáng)調(diào):“在這件事上我們的政策是零容忍。”