數(shù)據(jù)科學(xué)大佬的簡歷上都有哪些技能?
如果你是一個數(shù)據(jù)科學(xué)的求職者,那么你一定想知道在你的簡歷上應(yīng)該寫些什么技能會有更大的概率接到面試。如果你想進入這個領(lǐng)域,你可能已經(jīng)多次想要知道哪些技術(shù)可以成為一個有吸引力的候選人。
本篇將告訴你答案。
Python現(xiàn)在是數(shù)據(jù)科學(xué)的***語言
有很多人爭論:Python和R,哪個是數(shù)據(jù)科學(xué)的***語言。 市場需求報告告訴我們Python是現(xiàn)代的***。同樣值得注意的是,R比SAS更少提及。因此,如果您正在考慮進入數(shù)據(jù)科學(xué),可以將你的學(xué)習(xí)重點放在Python上。而SQL作為數(shù)據(jù)庫語言,是數(shù)據(jù)科學(xué)家第二重要的語言。 由于數(shù)據(jù)科學(xué)家職業(yè)的廣泛性,其他語言也扮演著重要角色。
總的來說,數(shù)據(jù)科學(xué)家的主要語言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。
機器學(xué)習(xí)工程師所需的語言更加多樣化
作為熱門語言,Python成為機器學(xué)習(xí)工程師的***語言并不令人驚訝。此外,由于需要從頭開始實現(xiàn)算法并在大數(shù)據(jù)環(huán)境中部署ML模型,因此C ++和Scala等相關(guān)語言也很重要。 總的來說,與其他兩個角色相比,語言的需求似乎更加分散。
總的來說,機器學(xué)習(xí)工程師的主要語言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。
成為一名數(shù)據(jù)工程師,SQL是必須的技能
數(shù)據(jù)工程師常常處理數(shù)據(jù)庫,而SQL是數(shù)據(jù)庫的語言,所以SQL是數(shù)據(jù)工程師必備的語言。Python雖然很重要,但對于數(shù)據(jù)工程師而言,Scala和Java更為重要,因為這些語言可以幫助他們處理更大的數(shù)據(jù)。
總的來說,數(shù)據(jù)工程師的主要語言是:SQL,Scala,Java,Python和Lua。
Scala是數(shù)據(jù)科學(xué)中第二大進口語言
當(dāng)我們對比不同的角色時,驚奇的發(fā)現(xiàn),Scala不是第二個就是第三個。 所以我們可以說數(shù)據(jù)科學(xué)中的前三種語言是Python,SQL和Scala。 如果你正在考慮學(xué)習(xí)一門新語言,也可以考慮使用Scala。
Spark是除數(shù)據(jù)工程師之外的***大數(shù)據(jù)技能
僅對于數(shù)據(jù)工程師而言,Hadoop比Spark更多,但總的來說,Spark絕對是首先應(yīng)該學(xué)習(xí)的大數(shù)據(jù)框架。Cassandra對工程師而言比科學(xué)家更重要,而Storm似乎只與數(shù)據(jù)工程師有關(guān)。
總的來說,數(shù)據(jù)科學(xué)的大數(shù)據(jù)技術(shù)是:Spark,Hadoop,Kafka,Hive。
TensorFlow是深度學(xué)習(xí)的王者
數(shù)據(jù)工程師的職位描述中幾乎沒有提到深度學(xué)習(xí)框架,因此該角色幾乎是不需要DL框架的。而更多使用DL框架的是機器學(xué)習(xí)工程師,這表明了機器學(xué)習(xí)工程師更多地是處理機器學(xué)習(xí)建模,而不僅僅是部署模型。另外,TensorFlow在深度學(xué)習(xí)的領(lǐng)域中是占據(jù)著主導(dǎo)地位的。盡管Keras作為高級深度學(xué)習(xí)框架在數(shù)據(jù)科學(xué)家中也是非常受歡迎的,但它幾乎與機器學(xué)習(xí)工程師沒什么關(guān)系,這也表明ML從業(yè)者們大多都使用較低級別的框架,比如TensorFlow。
總的來說,數(shù)據(jù)科學(xué)中最重要的幾個深度學(xué)習(xí)框架是:TensorFlow,Torch,Caffee,MXNet。
AWS是云計算平臺的主導(dǎo)
計算機視覺是機器學(xué)習(xí)中大部分需求的來源
對于一般數(shù)據(jù)科學(xué)家而言,自然語言處理是***的ML應(yīng)用領(lǐng)域,其次是計算機視覺,語音識別,欺詐檢測和推薦系統(tǒng)。但對于機器學(xué)習(xí)工程師而言,***的需求卻來自計算機視覺,而自然語言處理則一直是第二。另一方面,不論是計算機視覺還是自然語言處理,與數(shù)據(jù)工程師都沒什么關(guān)系。
如果你想成為一個數(shù)據(jù)科學(xué)家,可以選擇各種類型的項目,根據(jù)你想要進入的領(lǐng)域展示專業(yè)知識,但對于機器學(xué)習(xí)工程師而言,計算機視覺則是***選擇。
Tableau是必會的可視化工具
可視化工具主要是數(shù)據(jù)科學(xué)家所需要的,很少會有人提到數(shù)據(jù)工程師和機器學(xué)習(xí)工程師。 盡管如此,Tableau可是說是所有角色的***。但對于數(shù)據(jù)科學(xué)家而言,Shiny,Matplotlib,ggplot和Seaborn也同樣得重要。
每個人都必須會Git,而Docker僅適用于工程師
下面,我們將使用詞云來探索上面提到的每個角色最常用的一些關(guān)鍵詞,然后結(jié)合相應(yīng)的技能為所有數(shù)據(jù)科學(xué)角色構(gòu)建理想的描述。
數(shù)據(jù)科學(xué)家:更關(guān)注機器學(xué)習(xí)
數(shù)據(jù)科學(xué)家一直被視為需要統(tǒng)計,分析,機器學(xué)習(xí)和商業(yè)知識的全方位專業(yè)。然而,現(xiàn)在從詞云比重看來,數(shù)據(jù)科學(xué)家們更多地關(guān)注機器學(xué)習(xí)而不是其他的一些東西。
機器學(xué)習(xí)工程師:研究,系統(tǒng)設(shè)計和構(gòu)建的
與數(shù)據(jù)科學(xué)家相比,機器學(xué)習(xí)工程師會有一個更集中的組合,包括研究,設(shè)計和工程。顯然,解決方案,產(chǎn)品,軟件和系統(tǒng)是主要的主題。當(dāng)然,伴隨著這些,有研究,算法,ai,深度學(xué)習(xí)和計算機視覺。從詞云看出,商業(yè),管理,客戶等術(shù)語也很重要,這可以在項目的進一步迭代中進一步研究。
數(shù)據(jù)工程師才是真正的專家
與機器學(xué)習(xí)工程師相比,數(shù)據(jù)工程師擁有更加專注的產(chǎn)品組合。顯然,重點是通過設(shè)計和開發(fā)pipelines來支持產(chǎn)品,系統(tǒng)和解決方案。 對于數(shù)據(jù)工程師來說,比較高的要求包括了專業(yè)技能,數(shù)據(jù)庫,測試,環(huán)境和質(zhì)量。機器學(xué)習(xí)也同樣很重要,因為pipelines主要用于支持機器學(xué)習(xí)模型部署數(shù)據(jù)需求。
這就是數(shù)據(jù)科學(xué)技能分析的全部了。希望本篇可以幫助你了解招聘者更注重什么技能,最重要的是可以幫助你做出有關(guān)如何定制簡歷和學(xué)習(xí)哪些技術(shù)的決策。