解析:躋身數(shù)據(jù)科學領域的五條職業(yè)規(guī)劃道路
本文為你提供如何切實參與到數(shù)據(jù)科學和/或大數(shù)據(jù)職業(yè)道路的建議。
最近有許多人聯(lián)系我(大部分都是通過領英)尋求著手數(shù)據(jù)科學和/或大數(shù)據(jù)的建議。這些人普遍對切入這個“領域”感興趣,并且需要些關于如何切入方面的指導。
然而,我懷著極大的尊重來說這個話,這些請求的中心含義體現(xiàn)出請求者對自己所要求的事情其實并不理解。是的,不論在學習什么,每個人都需要從某個地方開始。我不會再一個個去回答這些相似的問題,這篇文章會列出和數(shù)據(jù)科學和/或大數(shù)據(jù)職業(yè)道路相關的一些基本的概念,并且,很希望提供一點如何切實參與到這個復雜領域的建議。
預備閱讀
第一篇文章概覽數(shù)據(jù)科學中一些最主要的概念,而第二篇文章則是今年早些時候對這些概念的更新。第三篇文章更深入地解析了數(shù)據(jù)科學和大數(shù)據(jù)之中的概念。最后一篇文章對比了一些其他術語,對“數(shù)據(jù)科學”這個術語的復雜性和微妙性進行了簡短的探討。
我將眾多的職業(yè)可能性拆分成五條能夠輕松掌控的道路。雖然可能有很多人強烈反對這種角色劃分并且因此感到恐慌,但它確實對技能和職業(yè)責任進行了高度的分類。因此,我相信接下來的內容能有效地幫助新來者在這個專業(yè)領域中所存在的令人混淆和迷惑的無數(shù)機會之中確認方向。
數(shù)據(jù)管理專員
這本質上是一個IT職業(yè),類似于數(shù)據(jù)庫管理員。數(shù)據(jù)管理專員被認為和管理數(shù)據(jù)以及支持數(shù)據(jù)管理的設施有關。這個職位和數(shù)據(jù)分析只有很少關聯(lián),也類似Python和R語言的使用也不是很必要。可能會用到SQL語言,以及和Hadoop相關的查詢語言,比如Hive和Pig。
關鍵技術以及需要關注的技能:
延伸閱讀:
數(shù)據(jù)工程師
這是一條非分析大數(shù)據(jù)職業(yè)道路。記得在剛剛的職業(yè)道路之中提到的數(shù)據(jù)設施嗎?是的,它們需要被設計和執(zhí)行,數(shù)據(jù)工程師就承擔了這部分工作。如果說數(shù)據(jù)管理專員是汽車修理師,那么數(shù)據(jù)工程師就是汽車工程師。不過不要搞錯了,這兩個角色都對你的汽車的行駛和持續(xù)工作至關重要,對你從A點駕駛到B點同樣重要。
說句實話,數(shù)據(jù)工程師和數(shù)據(jù)管理專員所需要的技術和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會重復之前一種職業(yè)中所提到的那些信息(所有這些信息對數(shù)據(jù)工程師都很重要),但我會專門給數(shù)據(jù)工程師補充延伸閱讀的清單。
延伸閱讀:
商業(yè)分析師
在本文里,商業(yè)分析師指的是與數(shù)據(jù)分析和數(shù)據(jù)呈現(xiàn)緊密相關的角色。包括報告,儀表板和任何被稱為“商業(yè)智能”的東西。 這種角色通常要求與關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫以及大數(shù)據(jù)框架的交互(或查詢)。
雖然前兩種角色與設計基礎設施來管理數(shù)據(jù)以及實際管理數(shù)據(jù)有關,但商業(yè)分析師主要關注從那些或多或少存在的數(shù)據(jù)中提取信息。 這與以下兩個角色(機器學習研究者/從業(yè)者和以數(shù)據(jù)為導向的專業(yè)人員)形成對比,兩者都側重于從數(shù)據(jù)或數(shù)據(jù)以外已知的一些表面信息中獲得洞察力。 因此,商業(yè)分析師需要在所呈現(xiàn)的這些角色中具有獨特的技能。
關鍵技術以及需要關注的技能:
延伸閱讀:
機器學習研究員/從業(yè)者
機器學習研究人員和從業(yè)者指的是那些制作和使用預測和相關工具進行數(shù)據(jù)利用的人。 機器學習算法允許以較高的速度應用統(tǒng)計分析,并且那些操作這些算法的人不滿足于讓數(shù)據(jù)以其當前形式呈現(xiàn)出來。 數(shù)據(jù)詢問是機器學習愛好者的工作方式,但是具有足夠的統(tǒng)計理解才能知道何時推進的足夠遠,以及什么時候提供的答案不可信。
統(tǒng)計和編程是機器學習研究者和實踐者最大的財富。
關鍵技術以及需要關注的技能:
延伸閱讀:
數(shù)據(jù)導向專業(yè)人員
對于可以被稱為“真正的”數(shù)據(jù)科學家,這是我可以想出的最好的描述。你知道,獨角獸。除了,沒有獨角獸,說不同的話的人都是在撒謊。
數(shù)據(jù)管理專業(yè)人員和數(shù)據(jù)工程師關注數(shù)據(jù)的基礎設施。商業(yè)分析人員關注從數(shù)據(jù)中提取事實。機器學習研究者和從業(yè)者關注推進和使用相關工具,以利用數(shù)據(jù)來進行預測和相關分析。這兩種角色都是基于算法(開發(fā)或利用或兩者兼具)。數(shù)據(jù)導向的專業(yè)人員主要關注數(shù)據(jù)本身以及它可以告訴的事實,并不涉及執(zhí)行任務時所需要的技術或工具。
面向數(shù)據(jù)的專業(yè)人員可能使用上面任何角色中列出的任何技術,這取決于他們的具體職責。這是與“數(shù)據(jù)科學”有關的最大的問題之一;該術語并沒有什么具體的實際意義,但在整體上又包括了一切。這個角色是就像是數(shù)據(jù)世界的萬金油:(可能)知道如何讓一個Hadoop生態(tài)系統(tǒng)建立和運行;如何對存儲在其中的數(shù)據(jù)執(zhí)行查詢;如何抽取數(shù)據(jù),并且載入到非關系型數(shù)據(jù)庫;如何獲取非關系型數(shù)據(jù)并將其提取到平面文件( flat file);如何在R或Python語言中辨別這個數(shù)據(jù);如何在進行初步探索性描述分析后設計特征;如何選擇適當?shù)臋C器學習算法來對數(shù)據(jù)進行預測分析;如何統(tǒng)計分析所述預測任務的結果;如何將結果可視化,以方便非技術人員使用;如何用剛剛描述的數(shù)據(jù)處理流水線的最終結果告訴管理人員一個令人信服的事實。
這只是數(shù)據(jù)科學家可能擁有的一些技能。然而,無論如何,這個角色的重點是數(shù)據(jù),以及從數(shù)據(jù)中可以得到什么。同時,在這一個角色中,專業(yè)知識占很大的分量,這顯然不是這里可以教授的。
關鍵技術以及需要關注的技能:
延伸閱讀:
作為一篇介紹性文章,我有意地忽略了物聯(lián)網(wǎng)。原因有以下兩個:第一,我不想為試圖吸取所有這些新信息的人增加困惑;第二,物聯(lián)網(wǎng)只是一個特殊的數(shù)據(jù)情況??赡苓M行一些改進,這些角色都可以適用于物聯(lián)網(wǎng)數(shù)據(jù)。但本質來講還是一樣的。
我希望這個介紹能夠對那些想要從事“數(shù)據(jù)科學”或“大數(shù)據(jù)”行業(yè)但不知從哪里或者怎樣開始的人們有所幫助。 請記住,對于文章中所提到的任何角色。這里的介紹都不能包羅萬象。 但是,對于對數(shù)據(jù)專業(yè)了解不多的人來講,這是一個很好的起點。
如果你對這個話題的不同看法感興趣,可以讀一讀Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?
作者介紹:
盧苗苗:北京語言大學英語專業(yè)在讀。一個帶有理科思維的文科生。 愛思考善分析,腦洞大想法多,喜歡在復雜事物中發(fā)現(xiàn)潛在聯(lián)系。既喜歡仰望星空,也喜歡腳踏實地。作為數(shù)據(jù)派的活躍分子,希望能同各位大們好好學習。
梁傅淇:軟件工程本科在讀,主修大數(shù)據(jù)分析,喜好搜索、收集各類信息。希望能在THU數(shù)據(jù)派平臺認識更多對數(shù)據(jù)分析感興趣的朋友,一起研究如何從數(shù)據(jù)挖掘出有用的模型和信息。