WOT2015謝佳標:基于R語言的大數(shù)據(jù)處理及建模技術(shù)
原創(chuàng)正如馬云所說:“大家還沒搞清PC時代的時候,移動互聯(lián)網(wǎng)來了,還沒搞清移動互聯(lián)網(wǎng)的時候,大數(shù)據(jù)時代來了。”在信息時代,海量數(shù)據(jù)迎來了大爆發(fā),也給大數(shù)據(jù)技術(shù)平臺帶來了用武之地。在深圳的【W(wǎng)OT2015"互聯(lián)網(wǎng)+"時代大數(shù)據(jù)技術(shù)峰會】現(xiàn)場,51CTO記者采訪了WOT特邀講師、樂逗游戲高級數(shù)據(jù)分析師謝佳標,從R語言和大數(shù)據(jù)建模等方面對大數(shù)據(jù)做深刻解讀。
謝佳標,樂逗游戲高級數(shù)據(jù)分析師。主要利用R語言進行大數(shù)據(jù)的挖掘及可視化工作。第七屆、第八屆中國R語言大會的演講嘉賓。有超過八年的數(shù)據(jù)挖掘建模經(jīng)驗,從事過咨詢、電商、電力、游戲等行業(yè),了解不同領(lǐng)域的數(shù)據(jù)特點。有豐富的利用R語言進行大數(shù)據(jù)挖掘的實戰(zhàn)經(jīng)驗。
謝佳標告訴筆者,游戲公司獲得的數(shù)據(jù)量是相對較大的,數(shù)據(jù)維度比較多,數(shù)據(jù)源頭也難以把握,所以獲取到的數(shù)據(jù)是沒法直接用的,需要對數(shù)據(jù)做預處理。包括幾個部分:一是數(shù)據(jù)的缺失處理,如果有哪些字段缺失,需要通過機器學習的技術(shù)進行填補,有的樣本沒法通過預處理的話,會直接刪除掉。預處理后,需要讀數(shù)據(jù)進行轉(zhuǎn)換,有的需要增加一個新的維度來達到數(shù)據(jù)分析的要求。
那么為什么用R語言進行處理呢?謝佳標表示,R語言是開源的,內(nèi)建了很多特有的函數(shù)建模,并擁有眾多的拓展包。另外由于開源,我們可以看到函數(shù)背后的邏輯是怎樣的,每一個步驟是怎樣轉(zhuǎn)換和處理的。除此之外,在靈活性方面,R近幾年發(fā)展很快,很多新的模型、算法和研究等都納入進去,比如深度學習、社交網(wǎng)絡(luò)和一些較新的算法等。
在這個大數(shù)據(jù)技術(shù)爆發(fā)的時代,對于數(shù)據(jù)分析師的需求也迎來了大增長,數(shù)據(jù)分析師的職業(yè)前景也十分廣闊。謝佳標告訴筆者他從事數(shù)據(jù)相關(guān)工作已經(jīng)有八九年,在這個領(lǐng)域總是有很多新東西要研究,能給人帶來很大的成就感和愉悅感。
在他看來,要成為一個優(yōu)秀的數(shù)據(jù)分析師,首先要有態(tài)度,要保持一個認真的態(tài)度來對待。其次,要熟悉統(tǒng)計學知識,有很強的統(tǒng)計學知識或者數(shù)學邏輯的話,分析數(shù)據(jù)會更清晰有條理。***,應該選擇適合自己的工具來實現(xiàn)數(shù)據(jù)分析。
筆者讓謝佳標為有志于從事R相關(guān)工作的人推薦文檔或者書籍。謝佳標表示學習R***的方法是看官網(wǎng),因為官網(wǎng)有很多完善的幫助文檔。然后可以看一些入門書籍,比如《R語言實踐》《R語言編程藝術(shù)》都是比較好的入門書籍。
戳下方圖片,更有料!
(WOT2015大數(shù)據(jù)技術(shù)峰會總結(jié)專題)
【責任編輯:李英杰 TEL:(010)68476606】