大數(shù)據(jù)挖掘云服務
在大數(shù)據(jù)領(lǐng)域存在諸多挑戰(zhàn),比如成本和技術(shù),另外服務模式也為企業(yè)應用大數(shù)據(jù)造成了很大的挑戰(zhàn)。企業(yè)內(nèi)部數(shù)據(jù)集中以后,如何向用戶、企業(yè)的前端和后端提供服務呢?日前中國通信學會大數(shù)據(jù)專家委員會在京成立,該組織是由中國通信學會牽頭組建,我國首個專門研究大數(shù)據(jù)應用和發(fā)展的學術(shù)咨詢組織。此次會議上,TechTarget中國有幸聽到中國科學院計算技術(shù)研究所何清研究員、博士生導師的演講。何清表示大數(shù)據(jù)為企業(yè)帶來了創(chuàng)新機會,也帶來了挑戰(zhàn),而關(guān)于數(shù)據(jù)挖掘云服務更是并不簡單。
大數(shù)據(jù)演化
根據(jù)Cisco的預測,2013年互聯(lián)網(wǎng)的數(shù)據(jù)就要達到667EB,而在2015年,在智利的巡天望遠鏡那里也會產(chǎn)品類似的數(shù)據(jù),到2013年我們生成1.8ZB這樣規(guī)模的數(shù)據(jù)只需要10分鐘。何清表示:“大數(shù)據(jù)規(guī)模的增長實際上給我們的技術(shù)創(chuàng)新,給我們的市場競爭以及生產(chǎn)活動實際上帶來了一個全新的前沿的領(lǐng)域。現(xiàn)在經(jīng)濟活動的增長根本就離不開數(shù)據(jù),我們的創(chuàng)新活動,我們的經(jīng)濟活動,一刻也離不開數(shù)據(jù),離開了數(shù)據(jù)不可能產(chǎn)生創(chuàng)新。大數(shù)據(jù)是一個技術(shù)問題,但是實際上帶來了更多的商業(yè)機會。”
大數(shù)據(jù)規(guī)模從定義來看是一個不斷演化的指標,現(xiàn)在指單一數(shù)據(jù)集從數(shù)10TB到10幾個PB的數(shù)據(jù)規(guī)模。大數(shù)據(jù)有什么樣的特征呢?何清解釋道,現(xiàn)在有三維表述、四維表述,甚至有五維的表述,對于數(shù)據(jù)挖掘來說,實際上我們所關(guān)注的是大數(shù)據(jù)里面的這種特征,稠密與稀疏是共存的。表現(xiàn)在數(shù)據(jù)在局部可能分布極其稠密,但全局來看,我們所收集來的數(shù)據(jù)又是極其稀疏的。冗余和缺失是并存的,數(shù)據(jù)是存在大量的冗余的,但是局部的數(shù)據(jù)又是缺失的。再有一個特征就是靜態(tài)和動態(tài)互現(xiàn),就是多元數(shù)據(jù)的事態(tài)持續(xù)動態(tài)演進。
在大數(shù)據(jù)上最重要的技術(shù)問題是如何理解這么多的數(shù)據(jù)?如何理解這些大數(shù)據(jù)?大數(shù)據(jù)所帶來的技術(shù)上的挑戰(zhàn)包括描述與存儲的挑戰(zhàn),另外一個挑戰(zhàn)就是面臨著挖掘與預測的挑戰(zhàn)。大數(shù)據(jù)挖掘增加樣本十分容易。但是,數(shù)據(jù)挖掘算法要降低復雜度非常難。#p#
數(shù)據(jù)挖掘發(fā)展歷程
何清認為數(shù)據(jù)挖掘的發(fā)展是以數(shù)據(jù)存儲和管理技術(shù)的發(fā)展為基礎(chǔ)的,每當數(shù)據(jù)存儲與管理技術(shù)向前發(fā)展一步,相應的數(shù)據(jù)挖掘技術(shù)、系統(tǒng)和平臺也就會得到相應的升級。最初的傳統(tǒng)式、卡片式的數(shù)據(jù)存儲是不可能實現(xiàn)大數(shù)據(jù)挖掘的,也不可能用于大數(shù)據(jù)存儲?,F(xiàn)在,HBASE和HDFS這兩種方式為大數(shù)據(jù)的存儲提供了基礎(chǔ)。在這個基礎(chǔ)上,為大數(shù)據(jù)的挖掘奠定了基礎(chǔ)。關(guān)于大數(shù)據(jù)管理方面有很多具體的要求,最主要的是大數(shù)據(jù)的容量問題、數(shù)據(jù)存儲與管理。大數(shù)據(jù)管理格式多樣,速度規(guī)模復雜性超出傳統(tǒng)的數(shù)據(jù)管理技術(shù)的要求。這時候,甚至也需要內(nèi)存的數(shù)據(jù)管理。
在大數(shù)據(jù)管理基礎(chǔ)上進行數(shù)據(jù)挖掘,需要使用MapReduce技術(shù)。何清表示:“未來我們的數(shù)據(jù)挖掘不可能在單一的數(shù)據(jù)倉庫上來做,可能要按需整合多個原信息的邏輯數(shù)據(jù)倉庫,代替單一數(shù)據(jù)倉庫的模式。數(shù)據(jù)挖掘技術(shù)的發(fā)展從第一代的獨立算法,獨立的系統(tǒng)單個機器向量數(shù)據(jù),現(xiàn)在實際上已經(jīng)發(fā)展成了基于云計算的并行數(shù)據(jù)挖掘與服務。在這個時候,同一個算法分布在多個節(jié)點上并行運行,多個算法之間也可以并行來執(zhí)行。計算資源按照虛擬化技術(shù)是按需分配的,其數(shù)據(jù)管理已經(jīng)是NoSQL的這些方式,HDFS、HBASE等等。”
大數(shù)據(jù)挖掘算法需要什么樣的算法呢?根據(jù)何清所述,包含了傳統(tǒng)的關(guān)聯(lián)分析、矩陣分析、異常分析、演變分析等等。大數(shù)據(jù)管理主要取決于數(shù)據(jù)的容量,但是大數(shù)據(jù)挖掘受到算法的復雜度、并行度以及數(shù)據(jù)存儲速度的制約。大數(shù)據(jù)挖掘我們要求能夠處理高維、多模態(tài)、多類的大數(shù)據(jù)。
大數(shù)據(jù)挖掘云服務
目前大數(shù)據(jù)挖掘面臨諸多方面的挑戰(zhàn)。在算法上要結(jié)合不同的分布式計算環(huán)境;系統(tǒng)性能方面要考慮減少同步與分布的開銷;而從實現(xiàn)方式來看,并行數(shù)據(jù)挖掘各節(jié)點間是采用高速網(wǎng)絡(luò)來連接的,而分布式一般是廣域網(wǎng)。何清解釋道,大數(shù)據(jù)挖掘要尋求的是具有分布式和并行兩種特征兼具的計算環(huán)境,而云計算就提供了這種方式。云計算模式提供的首先是存儲,比如說以Hadoop為例,它實際上是在大型集群上,能夠可靠的存儲大數(shù)據(jù)的數(shù)億級的文件系統(tǒng),容錯性比較好。由于采用了虛擬化技術(shù),因此簡化了要把計算資源的分配交給編程者的方法
數(shù)據(jù)挖掘云服務也存在諸多要求。服務要保證可用性、可靠性還有高性能。在這是隱私是安全的,不允許未授權(quán)的訪問,也不允許其他人能夠?qū)λ诰虻臄?shù)據(jù)能夠理解。“除了挖掘者本人以外,或者是本公司以外,其他的即使看到數(shù)據(jù),也對他的數(shù)據(jù)不可理解,要做到這樣。我們實現(xiàn)的途徑按行業(yè)來做這個數(shù)據(jù)挖掘,云服務的平臺。專業(yè)的數(shù)據(jù)挖掘人士就是提供數(shù)據(jù)挖掘算法服務,大眾和各種組織就成為服務的受益方。我們在這個實現(xiàn)過程當中,肯定離不開虛擬化的技術(shù),我們要做到可信和安全,”何清如是說道。
何清為我們介紹了PDMiner體系結(jié)構(gòu),這是一個集成各種并行算法的數(shù)據(jù)挖掘工具平臺,其中的并行計算模式不僅包括算法之間的并行,而且包括算法內(nèi)部的并行、接口系統(tǒng)和工作流子系統(tǒng)。這個系統(tǒng)做到了并行,而且提供了一系列靈活的算法組件。相對來說,它的容錯性、開放性、可控、可移動都是很好的。在這個基礎(chǔ)之上開發(fā)了COMS,實際上是數(shù)據(jù)挖掘后臺,開發(fā)出前臺的云服務界面。用戶通過互聯(lián)網(wǎng)就可以去定制數(shù)據(jù)挖掘任務,可以上載和加密數(shù)據(jù),來做到數(shù)據(jù)挖掘。
最后,何清說道:“我們大數(shù)據(jù)挖掘要注意兩點,首先是要選擇復雜度低的算法,就是說N方的是很難想像的處理大數(shù)據(jù)的。我們盡量要把全局最優(yōu)的問題轉(zhuǎn)化為局部最優(yōu)的問題,盡量的使用低階的多項式復雜度算法。我們要使用高效并行的策略,盡量避免使用全局信息。”
專家簡介:何清,中國科學院計算技術(shù)研究所研究員,博士生導師,2008年底開發(fā)完成了我國最早的基于云計算的并行數(shù)據(jù)挖掘平臺,用于TB級實際數(shù)據(jù)的挖掘,實現(xiàn)了高性能、低成本的數(shù)據(jù)挖掘,先后主持完成多個有關(guān)數(shù)據(jù)挖掘的國家自然科學基金項目和863項目,提出了一系列有效的數(shù)據(jù)挖掘算法,組織開發(fā)的多個數(shù)據(jù)挖掘軟件獲得了軟件著作權(quán),并實際應用到電信、國家電網(wǎng)、信息安全、環(huán)保等多個行業(yè),為企業(yè)帶來了可觀的經(jīng)濟效益和社會效益。
























