真的缺數(shù)據(jù)科學(xué)家嗎? 如今到底有多少數(shù)據(jù)科學(xué)家?
2011年,麥肯錫發(fā)布的《大數(shù)據(jù)》報告稱,“僅美國就面臨著14萬至19萬名具有分析專長的人才短缺,以及150萬名具備理解并基于大數(shù)據(jù)分析做出決策能力的管理人員和分析師的短缺”。
2014年,我們調(diào)查了數(shù)據(jù)科學(xué)家的數(shù)量,當(dāng)時的估計為50名至10萬名,且當(dāng)時并沒有看到數(shù)據(jù)科學(xué)家大量短缺的證據(jù)。2014年,我們在indeed.com網(wǎng)站上僅發(fā)現(xiàn)了約1000個“數(shù)據(jù)科學(xué)家”的招聘廣告。
2016年,我們研究了德勤的一項研究。德勤在研究中預(yù)測:到2018年,企業(yè)將需要100萬名數(shù)據(jù)科學(xué)家。
現(xiàn)在已經(jīng)是2018年了,所以我們可以檢驗上述預(yù)測的準確程度,并且嘗試回答以下三個問題:
- 現(xiàn)在是否存在數(shù)據(jù)科學(xué)家的短缺?
- 現(xiàn)階段有多少“數(shù)據(jù)科學(xué)家”?無論是名義上的還是實際職能上的。
- 數(shù)據(jù)科學(xué)家的未來前景如何?
1 數(shù)據(jù)科學(xué)家短缺嗎?
第一個問題的答案似乎是肯定的。
LinkedIn公司在2018年8月發(fā)布的美國勞動力報告中提到:“對數(shù)據(jù)科學(xué)家的需求空前高漲……具有數(shù)據(jù)科學(xué)技能的人才短缺問題幾乎存在于美國的所有大城市。在全美國范圍內(nèi),共缺少151717名具有數(shù)據(jù)科學(xué)技能的人,其中紐約市(34032人)、舊金山灣區(qū)(31798人)和洛杉磯(12251人)的人才短缺尤為嚴重。”
值得注意的是,LinkedIn報告中的人才短缺是指具有“數(shù)據(jù)科學(xué)技能”的人,而不一定是擁有“數(shù)據(jù)科學(xué)家”頭銜的人。
我們可以通過兩個熱門的求職網(wǎng)站——indeed和Glassdoor——來估計對“數(shù)據(jù)科學(xué)家”的需求。
在indeed.com網(wǎng)站上搜索美國的“data scientist”(加引號),只能找到約4800個工作崗位。
(注意:在indeed網(wǎng)站上進行搜索時使用引號十分重要。搜索沒有加引號的data scientist可以找到約3萬個工作崗位,但我們不確定這些工作崗位中有多少是針對其他領(lǐng)域的科學(xué)家的。)
美國是數(shù)據(jù)科學(xué)家最大的市場,卻非唯一的市場。通過在indeed的區(qū)域性站點(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上進行搜索,我們可以發(fā)現(xiàn)其他國家對數(shù)據(jù)科學(xué)家也有強烈的需求:
在Glassdoor網(wǎng)站上輸入“Data Scientist”進行搜索,可發(fā)現(xiàn)美國大約有2.6萬個工作崗位(刪除引號也會得到同樣的結(jié)果)。
2 現(xiàn)階段有多少“數(shù)據(jù)科學(xué)家”?
谷歌搜索將數(shù)據(jù)科學(xué)家定義為:“受雇用于分析和解釋復(fù)雜的數(shù)字數(shù)據(jù)(如網(wǎng)站的使用統(tǒng)計數(shù)據(jù))的人,從而協(xié)助企業(yè)做出決策。”
由于數(shù)據(jù)科學(xué)是集統(tǒng)計學(xué)、計算機科學(xué)、機器學(xué)習(xí)和商業(yè)于一體的交叉學(xué)科,因此在業(yè)界和學(xué)術(shù)界有許多人雖從事這項工作卻沒有正式的數(shù)據(jù)科學(xué)家頭銜。因而我們可以通過調(diào)查流行的數(shù)據(jù)科學(xué)平臺來估計當(dāng)前數(shù)據(jù)科學(xué)家的數(shù)量。
Kaggle(現(xiàn)在是Google的一部分)是一個數(shù)據(jù)科學(xué)和數(shù)據(jù)分析的競賽平臺,它聲稱是世界上最大的活躍數(shù)據(jù)科學(xué)家社區(qū)。雖然并非所有數(shù)據(jù)科學(xué)家都參加過Kaggle比賽或擁有Kaggle賬戶,且并非Kaggle上的所有人員都從事數(shù)據(jù)科學(xué)工作,但我們可以合理地假設(shè)數(shù)據(jù)科學(xué)家群體與Kaggle人員群體存在大量重疊。 2017年6月,Kaggle的社區(qū)成員數(shù)量突破了100萬。2018年9月19日的Kaggle電子郵件稱,他們的社區(qū)成員數(shù)量在2018年8月超過了200萬。由于并非所有Kaggle成員都是活躍的,所以Kaggle的社區(qū)成員總數(shù)可能是全球從事數(shù)據(jù)科學(xué)的人的數(shù)量最大值。
KDnuggets網(wǎng)站現(xiàn)在每個月有超過50萬名獨立訪客,由于網(wǎng)站專注于幫助數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師更好地完成他們的工作,因而我們可以合理地認為網(wǎng)站的大多數(shù)訪客都在數(shù)據(jù)科學(xué)或機器學(xué)習(xí)領(lǐng)域工作,無論他們的實際頭銜是什么。但由于部分訪客可能是無意中隨機訪問了KDnuggets,因而我們可以了解網(wǎng)站的訂閱者或粉絲——這個更活躍的子集。
KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和電子郵件上擁有約24萬名訂閱者或粉絲。雖然不同平臺的人會有一些重疊,但對于全球眾多的數(shù)據(jù)科學(xué)家來說,大約20萬的人數(shù)預(yù)估似乎是合理的最小值。
在LinkedIn上,有許多致力于數(shù)據(jù)科學(xué)的組織。盡管這些組織的參與度一直在下降,但我們可以粗略地估計他們的成員數(shù)量。以下是三個最大的數(shù)據(jù)科學(xué)組織的預(yù)估成員數(shù)量:
這些組織成員的頭銜有著巨大的多樣性,這些頭銜包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、統(tǒng)計學(xué)家、生物信息學(xué)家、神經(jīng)科學(xué)家、市場營銷主管、計算機科學(xué)家等等……可以肯定地說,任何從事著傳統(tǒng)數(shù)據(jù)科學(xué)家所從事的工作的人都可被認為屬于這一類別。隨著越來越多的人需要通過分析數(shù)據(jù)來獲得見解或做出關(guān)鍵決策,傳統(tǒng)上職位和職責(zé)不同的人們都熱衷于學(xué)習(xí)數(shù)據(jù)分析這一新技術(shù),以適應(yīng)自己的領(lǐng)域。這雖然并不能使他們從根本上成為數(shù)據(jù)科學(xué)家,但他們確實擁有該領(lǐng)域的知識和才能。
我們還可以從數(shù)據(jù)科學(xué)家的LinkedIn個人資料中獲取一些有用信息,這些資料顯示有超過10萬人擁有數(shù)據(jù)科學(xué)家頭銜。

圖1:LinkedIn數(shù)據(jù)科學(xué)家簡介(按行業(yè)和地點分類)
在LinkedIn上搜索“數(shù)據(jù)科學(xué)家”(加引號很重要),我們發(fā)現(xiàn)超過10萬人擁有該頭銜。 因此,如果全球有20萬到100萬人在做一些與數(shù)據(jù)科學(xué)相關(guān)的工作,那么他們中的大多數(shù)人都沒有數(shù)據(jù)科學(xué)家的頭銜。
我們還可以通過查看與數(shù)據(jù)科學(xué)最相關(guān)的語言和平臺(R、Python、機器學(xué)習(xí)庫、Spark和Jupyter)相關(guān)的活動來估算大型數(shù)據(jù)分析/可視化/統(tǒng)計社區(qū)的規(guī)模。
Apache Spark Meetups上現(xiàn)有22.5萬名成員,而且每個月都在增長。 Intel Capital估計全球有100萬R程序員。 根據(jù)python.org網(wǎng)站上的公開數(shù)據(jù),現(xiàn)在已有約275萬次的下載量。 Jupyter項目目前擁有約300萬用戶。 這些數(shù)字可以為我們提供全球數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家數(shù)量的粗略上限。
3 數(shù)據(jù)科學(xué)家的未來前景
數(shù)據(jù)科學(xué)家近期的前景看起來很光明。
2017年的LinkedIn新興就業(yè)報告稱,2017年的機器學(xué)習(xí)工程師比5年前增加了9.8倍。 在LinkedIn報告上,機器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家和大數(shù)據(jù)工程師躋身新興崗位之列。 自2012年以來,數(shù)據(jù)科學(xué)家增加了650%以上。

圖2:LinkedIn十大新興職位及其增長情況(2012年至2017年)。
根據(jù)美國勞工統(tǒng)計局的數(shù)據(jù),未來十年的就業(yè)增長預(yù)計將超過前十年的增長,到2026年數(shù)據(jù)科學(xué)或數(shù)據(jù)分析領(lǐng)域?qū)?chuàng)造1150萬個就業(yè)崗位。

IBM最近宣稱,到2020年,數(shù)據(jù)科學(xué)和分析職位的數(shù)量預(yù)計將增加近36.4萬個,達到約272萬個。 因而無論目前數(shù)據(jù)專業(yè)人員的真實數(shù)量是多少,他們的數(shù)量在不久的將來很可能會繼續(xù)增長。
然而,從長遠來看,自動化將取代業(yè)內(nèi)的許多工作,數(shù)據(jù)科學(xué)家的工作也不例外。 如今,DataRobot和H2O等公司已經(jīng)為數(shù)據(jù)科學(xué)問題提供了自動化的解決方案。
2015年KDnuggets民意調(diào)查中的受訪者認為,大多數(shù)專家級的預(yù)測分析或數(shù)據(jù)科學(xué)任務(wù)將在2025年實現(xiàn)自動化。為了保住工作崗位,數(shù)據(jù)科學(xué)家應(yīng)該專注于培養(yǎng)更難自動化的技能,如業(yè)務(wù)理解、解釋和講故事的能力。






