因職業(yè)角色而異的十大數據科學技能
數據科學的實踐需要三個一般領域的技能:商業(yè)洞察、計算機技術/編程和統(tǒng)計學/數學。與詢問對象有關,具體的重要技能集合總是在變化。Dave Holts描述了得到數據科學家工作所需要的技能,Ferris Jumah通過檢查帶有“數據科學家”稱號的LinkedIn個人資料識別10項技能,BurtchWorks提供了他們的在數據科學領域中獲得成功至關 重要的技能列表,RJMetrics也使用LinkedIn數據找出了20個重要的數據科學技能。這些列表、重要技能反映了數據專業(yè)人員在他們社交媒體資 料上列出的頻率,或者只是簡單地代表了作者認為最好的技能集合。
數據科學技能和熟練程度

在正在進行的數據科學家研究中,我們要求數據專業(yè)人員指出他們在25項不同數據科學技能上的熟練程度。上表中列出了這25項技能,反映了通常與數據科學家相關的技能集合。事實上,這些技能是前述研究中所包含的。
我用“中等”熟練水平作為數據專業(yè)人員擁有該技能的標準。“中等”說明一個數據專業(yè)人員能夠按照要求完成任務,并且通常不需要他人的幫助。

重要數據科學技能
我以擁有該技能的數據專業(yè)人員百分比對這25項技能排序。
該列表在上圖顯示。圖中前十項技能(從左到右)是所有數據專業(yè)人員中最常見的。數據科學十大技能是:
- 統(tǒng)計 – 溝通(87%)
 - 技術 – 處理結構化數據(75%)
 - 數學&建模 – 數學(71%)
 - 商業(yè) – 項目管理(71%)
 - 統(tǒng)計 – 數據挖掘和可視化工具(71%)
 - 統(tǒng)計 – 科學/科學方法(65%)
 - 統(tǒng)計 – 數據管理(65%)
 - 商業(yè) – 產品設計和開發(fā)(59%)
 - 統(tǒng)計 – 統(tǒng)計學和統(tǒng)計建模(59%)
 - 商業(yè) – 商業(yè)開發(fā)(53%)
 
許多重要的數據科學技能屬于統(tǒng)計領域:所有的五項統(tǒng)計相關技能出現在前10名中,包括溝通、數據挖掘和可視化工具、科學/科學方法、以及統(tǒng)計學和統(tǒng)計建模。另外,商業(yè)洞察力相關的三項技能出現在前10,包括項目管理、產品設計以及開發(fā)。沒有編程技能出現在前10中。
因職業(yè)角色而異的十大數據科學技能
下面,我們按不同的職業(yè)角色看看他們的十大技能。這種描述也出現在上一部分的圖2中(后面的表呈現了細節(jié))。對于每個職業(yè)角色,我指出了該角色的數 據專業(yè)人士擁有每項技能的頻率??梢钥吹皆趫D2中,一些重要數據科學技能在不同角色中是通用的。這包括溝通、管理結構化數據、數學、項目管理、數據挖掘和 可視化工具、數據管理、以及產品設計和開發(fā)。然而,除了這些相似之處還有相當大的差異,讓我們看看每個職業(yè)角色。
商業(yè)經理:那些認為自己是商業(yè)經理(尤其是領導者、商務人士和企業(yè)家)的數據專業(yè)人士中的十大數據科學技能:
- 統(tǒng)計 – 溝通(91%)
 - 商業(yè) – 項目管理(86%)
 - 商業(yè) – 商業(yè)開發(fā)(77%)
 - 技術 – 處理結構化數據(74%)
 - 商業(yè) – 預算(71%)
 - 商業(yè) – 產品設計和開發(fā)(70%)
 - 數學&建模 – 數學(65%)
 - 統(tǒng)計 – 數據管理(64%)
 - 統(tǒng)計- -數據挖掘和可視化工具(64%)
 - 商業(yè) – 管理和兼容性(61%)
 
只與商業(yè)經理相關的重要技能毫無疑問的是商業(yè)領域的。這些技能包括商業(yè)開發(fā)、預算、以及管理和兼容性。
開發(fā)工作者:那些認為自己是開發(fā)工作者(尤其是開發(fā)者和工程師)的數據專業(yè)人士中的十大數據科學技能:
- 技術 – 管理結構化數據(91%)
 - 統(tǒng)計 – 溝通(85%)
 - 統(tǒng)計 – 數據挖掘和可視化工具(76%)
 - 商業(yè) – 產品設計(75%)
 - 數學&建模 – 數學(75%)
 - 統(tǒng)計 – 數據管理(75%)
 - 商業(yè) – 項目管理(74%)
 - 編程 – 數據庫管理(73%)
 - 編程 – 后端編程(70%)
 - 編程 – 系統(tǒng)管理(65%)
 
只與開發(fā)者相關的技能是技術和編程的那些。這些重要的技能包括后端編程、系統(tǒng)管理以及數據庫管理。雖然這些數據數據專業(yè)人員具備這些技能,但是他們 中只有少數人擁有那些在大數據世界中很重要的,更加技術化、更加依賴編程的技能。例如,少于一半人掌握云管理(42%),大數據和分布式數據(48%)和 NLP以及文本挖掘(42%)。這些結果都與RJ Metrics的數據科學研究一致。我懷疑這些百分比會隨著更多數據科學項目的畢業(yè)生開始就業(yè)而上升。
創(chuàng)意工作者:那些認為自己是創(chuàng)意工作者(尤其是萬事通、藝術家和黑客)的數據專業(yè)人士中的十大數據科學技能:
- 統(tǒng)計 – 溝通(87%)
 - 技術 – 處理結構化數據(79%)
 - 商業(yè) – 項目管理(77%)
 - 統(tǒng)計 – 數據挖掘和可視化工具(77%)
 - 數學&建模 – 數學(75%)
 - 商業(yè) – 產品設計和開發(fā)(68%)
 - 統(tǒng)計 – 科學/科學方法(68%)
 - 統(tǒng)計 – 數據管理(67%)
 - 統(tǒng)計 – 統(tǒng)計學和統(tǒng)計建模(63%)
 - 商業(yè) – 商業(yè)開發(fā)(58%)
 
創(chuàng)意工作者并沒有只對他們重要的技能。事實上,他們的重要數據科學技能列表與那些研究者緊密匹配,十項中有八項一致。
研究工作者:那些認為自己是研究工作者(尤其是研究員、科學家和統(tǒng)計學家)的數據專業(yè)人士中的十大數據科學技能:
- 統(tǒng)計 – 溝通(90%)
 - 統(tǒng)計 – 數據挖掘和可視化工具(81%)
 - 數學&建模 – 數學(80%)
 - 統(tǒng)計 – 科學/科學方法(78%)
 - 統(tǒng)計 – 統(tǒng)計學和統(tǒng)計建模(75%)
 - 技術 – 處理結構化數據(73%)
 - 統(tǒng)計 – 數據管理(69%)
 - 商業(yè) – 項目管理(68%)
 - 技術 – 機器學習(58%)
 - 數學 – 最優(yōu)化(56%)
 
研究工作者的重要數據科學技能主要在統(tǒng)計領域。另外,只在研究工作者上體現的重要數據科學技能是高度定量性質,包括機器學習和最優(yōu)化。
總結和結論

按職業(yè)角色的重要數據科學技能
重要數據科學技能列表取決于你正在考慮成為的數據科學家類型。雖然一些技能看起來在不同專業(yè)人士間通用(尤其是溝通,處理結構化數據,數學,項目管 理,數據挖掘和可視化工具,數據管理,以及產品設計和開發(fā)),但是其他數據科學技能對特定領域也有獨特之處。開發(fā)工作者的重要技能包含編程技能;研究工作 者則包含數學相關的技能,當然商業(yè)經理的重要技能包含商業(yè)相關的節(jié)能。
這些結果對數據專業(yè)人員感興趣的領域和他們的招聘者及組織都有影響。數據專業(yè)人員可以使用結果來了解不同類型工作需要具備的技能種類。如果你有較強的統(tǒng)計能力,你可能會尋找一個有較強研究成分的工作。了解你的技能并找那些對應的工作。
招聘人員需要了解不同類型的數據科學角色,以更好的招募與空缺職位的角色需求最匹配的專業(yè)人員。避免關注應聘者的職位,而是確定他們的技能符合要求。組織可以確保數據科學團隊包含不同類型的數據科學家,讓每個人解決最合適的問題,以此來優(yōu)化他們的數據科學團隊。















 
 
 





 
 
 
 