解讀微軟大數(shù)據(jù)
原創(chuàng)作者:馬沛
“微軟針對(duì)關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)和數(shù)據(jù)流的管理,第一步是打造一個(gè)平臺(tái),在這個(gè)平臺(tái)下,各種類(lèi)型的數(shù)據(jù)都可以進(jìn)來(lái)集中整合。第二步是提供一個(gè)工具,讓所有的數(shù)據(jù)可以進(jìn)行清理和分析。”
【51CTO獨(dú)家報(bào)道】“安裝在Windows server和System Center的大數(shù)據(jù)平臺(tái)叫Microsoft HDInsight Server,安裝在Windows Azure上的叫Microsoft HDInsight Service”這個(gè)定義來(lái)自MSDN的一篇博客,也許看上去有些抽象,TechEd 2012技術(shù)大會(huì)現(xiàn)場(chǎng),微軟亞太研發(fā)集團(tuán)首席技術(shù)官孫博凱的演講中,為大家Demo演示了HDInsight的應(yīng)用場(chǎng)景。
Excel的用戶就可以O(shè)DBC讀取Hadoop資料
孫博凱在接受51CTO記者專(zhuān)訪時(shí)特別談到:“微軟針對(duì)關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)和數(shù)據(jù)流的管理,第一步是打造一個(gè)平臺(tái),在這個(gè)平臺(tái)下,各種類(lèi)型的數(shù)據(jù)都可以進(jìn)來(lái)集中整合。第二步是提供一個(gè)工具,讓所有的數(shù)據(jù)可以進(jìn)行清理和分析。我們相信所有的洞察力都來(lái)自數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)度。”在大數(shù)據(jù)領(lǐng)域目前常用的案例,關(guān)于美國(guó)油價(jià)波動(dòng)對(duì)汽車(chē)銷(xiāo)售的影響,也正是利用了這兩個(gè)數(shù)據(jù)的關(guān)聯(lián)產(chǎn)生的市場(chǎng)洞察。
技術(shù)之外,微軟的重要優(yōu)勢(shì)便是幫助消費(fèi)者通過(guò)他們最熟悉的工具來(lái)開(kāi)展應(yīng)用。在Demo中可以看到,不論是Hadoop on Windows Server或Hadoop on Windows Azure都可以讓用戶通過(guò)Excel讀取Hadoop平臺(tái)的數(shù)據(jù)。并在Excel環(huán)境下,整合分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。孫博凱表示,目前相關(guān)的應(yīng)用可以支持Excel、PowerPivot for Excel以及Power View等工具。
在一些資料中了解到,用戶完成安裝Hive ODBC驅(qū)動(dòng)程序,就可以通過(guò)Excel看到新增功能Hive Query,通過(guò)輸入要分析的Hadoop平臺(tái)數(shù)據(jù)源路徑,就可以在Excel環(huán)境中,以O(shè)DBC模式,讀取Hadoop平臺(tái)的數(shù)據(jù),分析結(jié)果以數(shù)據(jù)表Table或Cube形式,儲(chǔ)存在Excel或SQL Server中。微軟曾多次提出對(duì)Hadoop平臺(tái)的兼容與重視,這一演示也在TechEd 2012上也成為焦點(diǎn),因?yàn)槲④浽僖淮螌⒋髷?shù)據(jù)的應(yīng)用直接推送到了用戶的面前。
與Apache Hadoop的深入合作
微軟的搜索技術(shù)Bing原本就有MapReduce分布式計(jì)算的概念。不過(guò),微軟也選擇了支持越來(lái)越多的企業(yè)開(kāi)始使用的Apache Hadoop,并作為非結(jié)構(gòu)化數(shù)據(jù)處理架構(gòu)的核心。讓企業(yè)可以在Windows環(huán)境中處理Hadoop平臺(tái)的非結(jié)構(gòu)化數(shù)據(jù)。
“目前我們主要以Windows Server以及Windows Azure兩大平臺(tái)作為基礎(chǔ),同時(shí)和Hortonworks Platform有很好的合作”,孫博凱特別向記者提到:“Hadoop、HDInsight這樣的技術(shù),要采用更加開(kāi)放的方式與合作伙伴共同推進(jìn)?,F(xiàn)在包括PHP、MySQL、Wordpress都可以在Windows Azure上運(yùn)行,越來(lái)越多的開(kāi)源技術(shù)也將出現(xiàn)在微軟的平臺(tái)上”。在現(xiàn)場(chǎng)的技術(shù)演示中,微軟還特別針對(duì)Windows Azure上的Mobile Services和Media Services,演示了Streaming to iOS的過(guò)程。
In-Memory與一體機(jī)共同布局大數(shù)據(jù)
內(nèi)存計(jì)算和一體機(jī)是大數(shù)據(jù)的熱點(diǎn),今年11月SQL Server用戶組主辦的PASS年度峰會(huì)上,微軟副總裁Ted Kummert提出了In-memory Computing是微軟數(shù)據(jù)平臺(tái)交付戰(zhàn)略的核心元素之一,能夠讓用戶分析各種類(lèi)型的數(shù)據(jù),同時(shí)加速數(shù)據(jù)訪問(wèn)時(shí)間。能夠?qū)?shù)據(jù)直接寫(xiě)入RAM進(jìn)行操作,從而消除性能瓶頸。
在Ted Kummert的博客中了解到,微軟從2010年開(kāi)始,就已經(jīng)在SQL Server中提供In-Memory技術(shù),這個(gè)項(xiàng)目的代碼為“Hekaton”,將作為SQL server的重要升級(jí)模塊來(lái)提供,不過(guò)目前只是作為預(yù)覽版在一小部分用戶中使用。“Hekaton”將會(huì)完善微軟的In-Memomory數(shù)據(jù)組合,同時(shí)跨越數(shù)據(jù)分析與業(yè)務(wù)交易場(chǎng)景。將會(huì)有突破性的性能提高,而且是內(nèi)置在SQL Server中的,因此企業(yè)不需要額外購(gòu)買(mǎi)專(zhuān)用的硬件或軟件,并且能夠輕松的移植現(xiàn)有應(yīng)用,就能夠讓這些應(yīng)用獲得性能的突破性提升。
“歐洲某一在線博彩網(wǎng)站,當(dāng)一場(chǎng)球賽上演的時(shí)候,可以有上億球迷在線觀看,需要在網(wǎng)上進(jìn)行高復(fù)雜性一系列實(shí)時(shí)操作,他們都想進(jìn)入這個(gè)交易平臺(tái)。這對(duì)于網(wǎng)站的提供者來(lái)說(shuō)是一個(gè)很大的技術(shù)挑戰(zhàn)”,孫博凱用一個(gè)客戶的實(shí)例展現(xiàn)了內(nèi)存計(jì)算技術(shù)的突破性提升,他談到:“我們通過(guò)內(nèi)存計(jì)算技術(shù),使整個(gè)在線交易效率提高了15~20倍。Hekaton是一個(gè)拉丁語(yǔ)的名字,是百倍的意思。我們?cè)O(shè)計(jì)這個(gè)技術(shù)最開(kāi)始的時(shí)候,就希望達(dá)到百倍的效率,雖然現(xiàn)在還沒(méi)有達(dá)到,不過(guò)我們會(huì)不斷提升In-Memory的技術(shù),希望有更好的突破。”
Ted Kummert在PASS年度峰會(huì)上也提到了微軟并行數(shù)據(jù)倉(cāng)庫(kù)一體機(jī)PDW。是針對(duì)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、高度可擴(kuò)展而設(shè)計(jì)的軟硬一體機(jī)設(shè)備,采用“大規(guī)模并行處理”(MPP)體系結(jié)構(gòu)。在數(shù)據(jù)處理方面基于SQL Server 2012的并行數(shù)據(jù)倉(cāng)庫(kù)提供了全新的PolyBase數(shù)據(jù)處理技術(shù),xVelocity 列存儲(chǔ)技術(shù),滿足實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的需求,高密度 Direct Attached Storage,存儲(chǔ)容量提升7倍,橫向擴(kuò)展可以實(shí)現(xiàn)從幾個(gè)TB到6PB的線性擴(kuò)展。
關(guān)于數(shù)據(jù)的技術(shù)從未像現(xiàn)在這樣令人著迷,是大數(shù)據(jù)貫穿了應(yīng)用、數(shù)據(jù)中心和云,最終化為一種能力。這種能力為是生活,工作與思維帶來(lái)變革,我們解讀大數(shù)據(jù),也在解讀世界。
編輯推薦:
責(zé)任編輯:馬沛
來(lái)源:
51CTO.com





























