數(shù)據(jù)科學(xué)領(lǐng)域的核心技能和新興技能分別有哪些?
近年來隨著大數(shù)據(jù)的迅速發(fā)展,各種各樣的數(shù)據(jù)分析技能也逐漸大熱,為了找到數(shù)據(jù)科學(xué)領(lǐng)域目前最常用的技能和未來最流行的應(yīng)用趨勢,我們進行了一項調(diào)查。
我們確定了數(shù)據(jù)科學(xué)技能的兩個主要類別:一個是大多數(shù)受訪者擁有的13種核心技能,另一個是大多數(shù)還沒用但想要應(yīng)用的熱門新興技能。
本次調(diào)查主要有以下兩個問題:
- 您目前擁有哪些技能(可以在工作或研究中使用的水平)?
- 您想增加或提高哪些技能?
本次調(diào)查獲得了1500以上的票數(shù),樣本足夠大,可以做出有意義的推斷。
下面的圖1中,X軸顯示已經(jīng)具有的技能 ,即第一個民意調(diào)查問題的答案,Y軸顯示想要的技能 ,即第二個民意調(diào)查問題的答案。每個圓圈的大小與擁有該技能的選民比例成正比,而顏色則取決于想要/擁有的比例(紅色高,數(shù)值大于1;藍色低,數(shù)值小于1)。
注:其他大數(shù)據(jù)工具適用 于Hadoop或Spark以外的大數(shù)據(jù)工具。
注意此圖中的兩個主要類別。
圖表右側(cè)藍色虛線框中的第1類包括超過40%的選民所擁有的技能,其需要/擁有的比率小于1。我們稱其為核心數(shù)據(jù)科學(xué)技能,具體內(nèi)容參考表1。
其中,最需要增加或改進的技能是機器學(xué)習(xí)(41%)和Python(37%)。增長最少的技能是Excel,只有7%的人希望增加或提高其Excel技能。
第二個集群是圖1左側(cè)用紅色邊框標記的部分,包括當前不那么受歡迎的技能(擁有比率<30%),但是卻在增長,想要/擁有的比率超過1,參見表2。
有趣的是,盡管有觀點認為Hadoop在下降,但在這次調(diào)查中,有更多的人希望學(xué)習(xí)Hadoop,而不是已經(jīng)流行的技能,因此它可能會越來越流行。
我們沒有把Julia放2在熱門/新興技能中,盡管它的想要/擁有比率為3.4,因為只有2%的選民選擇它,它還沒有得到足夠的支持。
剩下的技能如XGBoost、軟件工程、Java、MATLAB、SAS的擁有比率為10%-30%,但想要/擁有比率沒有增長,小于1。
下面是關(guān)于本次調(diào)查的更多細節(jié)。圖2將所有技能按擁有百分比遞減排列。
圖3顯示了受訪者希望添加或改進的技能以及他們所擁有的技能。
我們看到,當前數(shù)據(jù)科學(xué)家最想要添加的技能是深度學(xué)習(xí)、Tensorflow、機器學(xué)習(xí)和Python。
本次調(diào)查的受訪者的就業(yè)類型分布如下:
- 工業(yè)/個體經(jīng)營:64.4%
- 政府/非營利組織:7.2%
- 學(xué)術(shù)界/大學(xué):7.0%
- 學(xué)生:14.3%
- 其他/NA:7.1%
- 區(qū)域分布為:
- 美國/加拿大:37.9%
- 歐洲:28.3%
- 亞洲:19.3%
- 拉丁美洲:6.1%
- 非洲/中東:4.8%
- 其他:3.5%