區(qū)塊鏈和大數(shù)據(jù)的共同關(guān)鍵詞:分布式

大數(shù)據(jù)和區(qū)塊鏈具有一個(gè)共同的關(guān)鍵詞:分布式。
分布式的思想讓大數(shù)據(jù)技術(shù)實(shí)現(xiàn)了分布式計(jì)算和分布式協(xié)同工作,技術(shù)手段也從權(quán)威壟斷轉(zhuǎn)向了去中心化。
而區(qū)塊鏈技術(shù)作為分布式數(shù)據(jù)庫(kù)的典型代表,也具有分布式的特點(diǎn)。
兩者在這一點(diǎn)上的統(tǒng)一帶來(lái)了融合發(fā)展的可能。
1.分布式:讓大數(shù)據(jù)和區(qū)塊鏈從技術(shù)權(quán)威向去中心化轉(zhuǎn)變
從歷史上的發(fā)展來(lái)看,IT技術(shù)發(fā)展呈現(xiàn)出一種集中與分布交替的螺旋式上升的形態(tài)

IT技術(shù)呈現(xiàn)螺旋化上升
在計(jì)算機(jī)誕生初期,技術(shù)是集中化的,這是因?yàn)榧夹g(shù)的限制導(dǎo)致了使用模式只能是一對(duì)一的。
為了增加計(jì)算機(jī)的利用率,行業(yè)公司很快開始部署新的設(shè)計(jì)。
IBM公司引入了虛擬化的設(shè)計(jì)思想,將一臺(tái)大型機(jī)在為多個(gè)客戶服務(wù)時(shí)分割出多個(gè)虛擬的小型主機(jī),這是一種十分復(fù)雜的集中式計(jì)算。
等進(jìn)入到小型機(jī)和PC時(shí)代,雖然使用模式回歸了一對(duì)一的模式,但是計(jì)算機(jī)設(shè)備已經(jīng)分散到了各個(gè)地方。
等進(jìn)入成熟的互聯(lián)網(wǎng)時(shí)代,客戶端和服務(wù)器已經(jīng)運(yùn)用了分布式計(jì)算的模式,只不過(guò)各個(gè)服務(wù)器之間還是分散的,沒(méi)有連成網(wǎng)絡(luò)。
進(jìn)入云計(jì)算時(shí)代,計(jì)算能力又被統(tǒng)一管控起來(lái)。
雖然客戶端和服務(wù)器依舊以分布式計(jì)算為技術(shù)基礎(chǔ),但服務(wù)器之間已經(jīng)形成了分布式協(xié)同工作模式。
因?yàn)閰f(xié)同的特點(diǎn),整體上這應(yīng)該是一種集中式的計(jì)算服務(wù)。
到了以云計(jì)算為基礎(chǔ)設(shè)施的大數(shù)據(jù)時(shí)代,IT技術(shù)中仍舊蘊(yùn)含著分布式的核心思想。
以現(xiàn)在最常用的分布式計(jì)算技術(shù)的代表MapReduce來(lái)說(shuō),大數(shù)據(jù)需要MapReduce將任務(wù)分解后進(jìn)行分布式計(jì)算,然后將結(jié)果合并。
分布式的技術(shù)形成了一種去中心化的系統(tǒng),其中的每個(gè)組成部分都是同等重要的。
具有這個(gè)特點(diǎn)的區(qū)塊鏈技術(shù)在這一點(diǎn)上也顯得十分突出。從本質(zhì)上看,區(qū)塊鏈?zhǔn)且环N去中心化的分布式賬本。
區(qū)塊鏈通過(guò)時(shí)間順序?qū)⒊掷m(xù)增長(zhǎng)的數(shù)據(jù)整理成鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),系統(tǒng)中所有節(jié)點(diǎn)共同參與數(shù)據(jù)的記錄。在“分布式”這一理念上,大數(shù)據(jù)和區(qū)塊鏈技術(shù)取得了一致。
而分布式概念的出現(xiàn),代表了一種從技術(shù)權(quán)威壟斷到去中心化的轉(zhuǎn)變。
在IT方面中的技術(shù)壟斷更加指向具有壟斷性質(zhì)的大型互聯(lián)網(wǎng)公司,假如某家公司掌握了所有互聯(lián)網(wǎng)社交軟件的技術(shù),那么它就可以將整個(gè)社會(huì)輿論控制在手中。
普通民眾因?yàn)橐褂迷摴咎峁┑纳缃卉浖?,根本無(wú)法順利發(fā)出對(duì)該公司的質(zhì)疑。
一家公司獨(dú)大,甚至掌控了社會(huì)輿論,普通民眾失去了發(fā)聲、監(jiān)管的權(quán)利,這顯然是十分不利于社會(huì)安定的事情,也違背了互聯(lián)網(wǎng)“網(wǎng)絡(luò)自由”的初衷,各國(guó)政府也在反互聯(lián)網(wǎng)技術(shù)壟斷上做出了各種努力。
而當(dāng)“分布式”的概念出現(xiàn)后,從根本上打破了技術(shù)權(quán)威壟斷的情況,形成了“無(wú)中心”的新技術(shù)。
在分布式的系統(tǒng)中,所有參與者享有同等的權(quán)利。大數(shù)據(jù)的各個(gè)協(xié)同工作組件缺一不可,互相協(xié)調(diào)才能完成工作;
區(qū)塊鏈的各個(gè)節(jié)點(diǎn)共同監(jiān)督數(shù)據(jù),每個(gè)節(jié)點(diǎn)都有質(zhì)疑和被質(zhì)疑的過(guò)程。
分布式的核心思想讓區(qū)塊鏈和大數(shù)據(jù)都具有了從技術(shù)權(quán)威到去中心化的特點(diǎn)。
區(qū)塊鏈和大數(shù)據(jù)在分布式上的共同點(diǎn)有兩個(gè)具體的領(lǐng)域:分布式存儲(chǔ)和分布式計(jì)算。
2.分布式存儲(chǔ):HDFS VS區(qū)塊
分布式存儲(chǔ)是相對(duì)集中式存儲(chǔ)而言的。
在傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)中,數(shù)據(jù)被集中放置在一個(gè)特定的數(shù)據(jù)庫(kù)中,就好比用一個(gè)籃子裝所有的雞蛋;
而分布式的存儲(chǔ)則利用了多個(gè)數(shù)據(jù)庫(kù),共同存儲(chǔ)數(shù)據(jù),“雞蛋”被分散在了各個(gè)容器中。
在存儲(chǔ)數(shù)據(jù)上,區(qū)塊鏈和大數(shù)據(jù)都采用了分布式存儲(chǔ)的技術(shù)。
區(qū)塊鏈存儲(chǔ)數(shù)據(jù)的基本單元是區(qū)塊,而大數(shù)據(jù)則是Hadoop分布式文件系統(tǒng)(HDFS)。
如果把區(qū)塊鏈看作賬本,區(qū)塊鏈中的區(qū)塊就是賬本中的賬頁(yè)。
在比特幣的區(qū)塊鏈中,每一個(gè)區(qū)塊都記錄了一段時(shí)間內(nèi)比特幣的交易數(shù)據(jù)。
在中本聰創(chuàng)立比特幣時(shí),構(gòu)建了第一個(gè)區(qū)塊——?jiǎng)?chuàng)世區(qū)塊。
對(duì)于區(qū)塊鏈來(lái)說(shuō),計(jì)算機(jī)進(jìn)入?yún)^(qū)塊鏈中成為一個(gè)“區(qū)塊”是沒(méi)有什么特殊要求的,只要計(jì)算能力夠強(qiáng),就可以成為一個(gè)新的區(qū)塊。
也就是說(shuō),這些區(qū)塊的計(jì)算機(jī)設(shè)備可以出現(xiàn)在地球的各個(gè)角落。
那么這些原本分散的設(shè)備是怎么組合在一起形成“區(qū)塊鏈”的呢?
在區(qū)塊鏈的區(qū)塊中,除了“創(chuàng)世區(qū)塊”只有一個(gè)ID識(shí)別號(hào)之外,后續(xù)建立的區(qū)塊都包含兩個(gè)ID識(shí)別號(hào),一個(gè)是屬于自己的,一個(gè)是屬于前一個(gè)區(qū)塊的。
通過(guò)ID號(hào)碼之間的指向,區(qū)塊就按照時(shí)間順序連成了區(qū)塊鏈。
由于需要應(yīng)對(duì)海量且在持續(xù)快速增長(zhǎng)的數(shù)據(jù),大數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)方面則更加注重性價(jià)比,實(shí)現(xiàn)存儲(chǔ)容量彈性擴(kuò)張。
HDFS是大數(shù)據(jù)應(yīng)用程序中主要使用的分布式存儲(chǔ)技術(shù),能夠滿足商用硬件的高性價(jià)比的要求,因此在眾多分布式技術(shù)中脫穎而出。

HDFS的特點(diǎn)
1).低成本
HDFS的分布式存儲(chǔ)服務(wù)是依靠數(shù)百個(gè)甚至數(shù)千個(gè)服務(wù)器共同工作實(shí)現(xiàn)的,這樣一來(lái),在服務(wù)器出現(xiàn)故障時(shí)就只需要單獨(dú)維修這一臺(tái)機(jī)器就可以了。
如果是集中式的大型服務(wù)器,遇到故障的維修成本將要高許多。HDFS系統(tǒng)通過(guò)這種方式實(shí)現(xiàn)了低成本的目標(biāo)。
2).高容錯(cuò)
由于HDFS是眾多服務(wù)器協(xié)同工作,共同實(shí)現(xiàn)分布存儲(chǔ),HDFS給每個(gè)數(shù)據(jù)文件都準(zhǔn)備了兩個(gè)冗余備份,保證每個(gè)數(shù)據(jù)文件被存儲(chǔ)三次。
這樣即使某臺(tái)服務(wù)器出現(xiàn)故障,HDFS也可以在備份數(shù)據(jù)的幫助下繼續(xù)進(jìn)行工作。
所以HDFS允許機(jī)器發(fā)生故障,具有高容錯(cuò)的特點(diǎn)。
3).高吞吐
HDFS的訪問(wèn)模型是“一次寫入多次讀寫”式的,只能夠在結(jié)尾追加描述數(shù)據(jù)的變動(dòng)而不允許直接修改文件。
這樣就簡(jiǎn)化了保證數(shù)據(jù)一致性的流程,實(shí)現(xiàn)了高吞吐的數(shù)據(jù)訪問(wèn)。
雖然區(qū)塊鏈和大數(shù)據(jù)在存儲(chǔ)數(shù)據(jù)的實(shí)現(xiàn)技術(shù)上采用了不同的方式,但不能否認(rèn)它們都是基于“分布式”的思想出發(fā)的:通過(guò)利用多個(gè)計(jì)算機(jī),實(shí)現(xiàn)數(shù)據(jù)的分布式存儲(chǔ)。
這樣的存儲(chǔ)方式讓大數(shù)據(jù)技術(shù)有能力應(yīng)對(duì)龐大的數(shù)據(jù)量,也讓區(qū)塊鏈實(shí)現(xiàn)了去中心化的共治。
3.分布式計(jì)算:MapReduce VS共識(shí)機(jī)制
分布式計(jì)算是一種新的計(jì)算方式,是指兩個(gè)或多個(gè)軟件之間互相共享信息,合作計(jì)算。
分布式計(jì)算方式不要求這些軟件在一臺(tái)計(jì)算機(jī)上運(yùn)行,可以在多臺(tái)計(jì)算機(jī)上通過(guò)網(wǎng)絡(luò)連接共同運(yùn)算。
簡(jiǎn)單點(diǎn)來(lái)說(shuō),分布式計(jì)算就是將大量的數(shù)據(jù)分割成多個(gè)較小的單元,分派給多臺(tái)計(jì)算機(jī)分工計(jì)算,最后將所有結(jié)果進(jìn)行匯總。
這種計(jì)算方式是云計(jì)算的技術(shù)基礎(chǔ),對(duì)數(shù)據(jù)海量的大數(shù)據(jù)計(jì)算來(lái)說(shuō)意義重大,因?yàn)閯?chuàng)造一個(gè)算力足以應(yīng)對(duì)PB級(jí)別的計(jì)算機(jī)幾乎是不可能的。
分布式計(jì)算的理論在很早以前就已經(jīng)有科研人員在研究,但實(shí)踐方案并不多,也沒(méi)有得到廣泛應(yīng)用。
直到谷歌公布了MapReduce之后,分布式計(jì)算的應(yīng)用才開始得到廣泛關(guān)注。
在大數(shù)據(jù)領(lǐng)域,分布式計(jì)算的成功案例就有MapReduce。
MapReduce是云計(jì)算的核心技術(shù),適用于大規(guī)模數(shù)據(jù)集(大于1 TB)的并行運(yùn)算,在大數(shù)據(jù)的分布式運(yùn)算中具有良好的表現(xiàn)。
同時(shí)MapReduce也是一種簡(jiǎn)化的分布式編程技術(shù),能夠有效提高復(fù)雜問(wèn)題的并行處理效率。
而在區(qū)塊鏈中,分布式計(jì)算的思想體現(xiàn)在“共識(shí)機(jī)制”中。
區(qū)塊鏈的共識(shí)機(jī)制是區(qū)塊之間達(dá)成共識(shí)、寫入數(shù)據(jù)的手段,也是防止數(shù)據(jù)篡改的手段。
區(qū)塊鏈的共識(shí)機(jī)制有多種,比特幣區(qū)塊鏈采用的是“工作量證明”,意味著只有算力超過(guò)了51%的記賬區(qū)塊的計(jì)算機(jī)才有寫入下一筆數(shù)據(jù)的權(quán)利,這也大大降低了篡改交易記錄的可能。
分布式計(jì)算的核心在于不同計(jì)算機(jī)通過(guò)信息交換能夠最終達(dá)成一致的結(jié)論,區(qū)塊鏈的共識(shí)機(jī)制也剛好體現(xiàn)了這一點(diǎn)。
除了比特幣區(qū)塊鏈采用的“工作量證明”機(jī)制,“唐盛鏈”采用的GEAR協(xié)議也是共識(shí)機(jī)制的一種。
GEAR協(xié)議是由唐盛(北京)物聯(lián)技術(shù)有限公司自主研發(fā)的共識(shí)協(xié)議,由輪轉(zhuǎn)記賬、集體評(píng)估和齒輪共識(shí)路由三個(gè)子協(xié)議組成。
該協(xié)議充分考慮了區(qū)塊鏈上的數(shù)據(jù)結(jié)構(gòu)特點(diǎn)和點(diǎn)對(duì)點(diǎn)溝通的信息交流模式,在實(shí)現(xiàn)數(shù)據(jù)同步共識(shí)時(shí)支持多種場(chǎng)景靈活運(yùn)用。
把大數(shù)據(jù)和區(qū)塊鏈兩者的分布式計(jì)算應(yīng)用結(jié)合起來(lái)看,會(huì)發(fā)現(xiàn)核心特點(diǎn)就在于數(shù)據(jù)的同步共享和負(fù)載平衡。
通過(guò)分布式計(jì)算,數(shù)據(jù)資源在所有的計(jì)算機(jī)上都有備份,方便實(shí)現(xiàn)稀有資源的共享;
也可以降低計(jì)算機(jī)的運(yùn)行負(fù)載,減小計(jì)算機(jī)崩潰的可能;
同時(shí)還能夠通過(guò)調(diào)配,把程序放在最合適的計(jì)算機(jī)上執(zhí)行。
斯坦福大學(xué)化學(xué)系的戈?duì)柟贰だ聿榈隆で袪柭淌谠f(shuō):“分布式計(jì)算將加快整個(gè)人類的科學(xué)進(jìn)程?!?/p>
隨著現(xiàn)代科技的進(jìn)步,每個(gè)學(xué)科的科學(xué)研究都需要進(jìn)行大量的計(jì)算:數(shù)學(xué)家希望得出圓周率的更精確值,生物學(xué)家希望計(jì)算機(jī)模擬出蛋白質(zhì)的折疊過(guò)程,天文學(xué)家希望計(jì)算機(jī)分析天體軌跡……
人類未來(lái)社會(huì)的發(fā)展離不開各種數(shù)據(jù)的計(jì)算,而分布式計(jì)算成功在大數(shù)據(jù)領(lǐng)域和區(qū)塊鏈領(lǐng)域得到實(shí)踐應(yīng)用將會(huì)對(duì)各界產(chǎn)生積極的影響。
無(wú)論是MapReduce還是共識(shí)機(jī)制,都充分展現(xiàn)了分布式計(jì)算的獨(dú)特優(yōu)點(diǎn):便宜且高效。
區(qū)塊鏈和大數(shù)據(jù)具有一個(gè)共同的關(guān)鍵詞,那就是“分布式”。
兩者在存儲(chǔ)和計(jì)算運(yùn)行的手段上雖然各有千秋,卻都體現(xiàn)了分布式的思想。
通過(guò)分布式存儲(chǔ)數(shù)據(jù),區(qū)塊鏈和大數(shù)據(jù)實(shí)現(xiàn)了降低成本和提高系統(tǒng)穩(wěn)定性的目標(biāo);
通過(guò)分布式計(jì)算,區(qū)塊鏈和大數(shù)據(jù)實(shí)現(xiàn)了數(shù)據(jù)共享和并行運(yùn)算以解放計(jì)算機(jī)壓力的目標(biāo)。
因?yàn)閰^(qū)塊鏈和大數(shù)據(jù)在分布式思想上具有很多的共同點(diǎn),兩者的共同發(fā)展也就有了基礎(chǔ),這也是區(qū)塊鏈能夠在大數(shù)據(jù)領(lǐng)域得到大規(guī)模應(yīng)用的前提條件。















 
 
 





 
 
 
 