李松林:大數(shù)據(jù)實時處理技術(shù)以及其應(yīng)用
原創(chuàng)2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術(shù)峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問題,探索大數(shù)據(jù)基礎(chǔ)的解決方案,激發(fā)數(shù)據(jù)挖掘帶來的競爭力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數(shù)據(jù)的盛宴,更多內(nèi)容請點擊專題:2013大數(shù)據(jù)全球技術(shù)峰會。
李松林 京東商城商業(yè)智能和搜索部架構(gòu)師
京東如今擁有整個電子商務(wù)完整的產(chǎn)業(yè)鏈,京東面臨的大數(shù)據(jù)問題是:
1. 數(shù)據(jù)的來源更加豐富;
2. 數(shù)據(jù)間的關(guān)聯(lián)性更加復(fù)雜;
3. 數(shù)據(jù)的價值——包括時效性和新商業(yè)模式。
Hadoop大數(shù)據(jù)的處理更加容易,這體現(xiàn)在ETL/企業(yè)數(shù)據(jù)倉庫;數(shù)據(jù)挖掘/建模;搜索和推薦;日志存儲等等。實際上,MapReduce批處理存在著缺陷,延遲較長,無法滿足用戶的實時需求,調(diào)度開銷較大。
大數(shù)據(jù)包括三部分:
大數(shù)據(jù)實時處理需要思考的問題是:模型——海量數(shù)據(jù)、多個數(shù)據(jù)源整合、預(yù)定義好的數(shù)據(jù)模型、數(shù)據(jù)任務(wù)依賴關(guān)系簡單、推和拉的問題;性能——高并發(fā)需求、大容量需求、高速度需求、批處理預(yù)算、硬件支持、容錯、水平擴展;服務(wù)——關(guān)聯(lián)獲取價值,緯度按需定制、互聯(lián)分析,報表等完成價值交付等。
大數(shù)據(jù)實時處理架構(gòu)
大數(shù)據(jù)實時分析
大數(shù)據(jù)實時處理技術(shù)的優(yōu)勢在于:服務(wù)和應(yīng)用;價值展現(xiàn)——分析可視化,數(shù)據(jù)可視化,數(shù)據(jù)反哺,計算即服務(wù);仔細(xì)思考其價值。
大數(shù)據(jù)應(yīng)用的問題主要來自于對系統(tǒng)的壓力,如何解決呢?前端和后端的解耦、壓縮、排隊、后端更強勁這三方面重點。
結(jié)尾:以上是51CTO.com記者從一線為您帶來的精彩報道。后續(xù)我們還有更加精彩的獨家報道,敬請關(guān)注。