干貨 :5種項(xiàng)目助你找到數(shù)據(jù)科學(xué)工作
或許您已經(jīng)在網(wǎng)上看了許多的MOOC,閱讀了很多工具書,但是您有可能仍然擔(dān)心找不到工作或根本沒有找到工作。在數(shù)據(jù)科學(xué)領(lǐng)域找到合適的工作的確有一定難度。***的向HR展現(xiàn)您能力的方式就是準(zhǔn)備一個(gè)文件夾。在文件夾中放入以下五種您做過的數(shù)據(jù)科學(xué)項(xiàng)目。
1、數(shù)據(jù)清洗
通常來講,數(shù)據(jù)科學(xué)家在一個(gè)新的項(xiàng)目中預(yù)計(jì)會(huì)花80%的時(shí)間來清洗數(shù)據(jù)。這對(duì)于團(tuán)隊(duì)來說是一個(gè)長(zhǎng)而痛苦的過程。如果您能展示您在清洗數(shù)據(jù)上具有豐富的經(jīng)驗(yàn),您就會(huì)變得很有價(jià)值。您可以找一些雜亂無章的數(shù)據(jù)集練習(xí)清理數(shù)據(jù)來增加您的經(jīng)驗(yàn)。
如果您用的是Python,Pandas是一個(gè)很好用的包;如果您用的是R,dplyr包將會(huì)是一個(gè)不錯(cuò)的選擇。確保您展示出以下的技能:
- 標(biāo)注重點(diǎn)數(shù)據(jù)
- 連接多個(gè)數(shù)據(jù)集
- 檢測(cè)缺失數(shù)據(jù)
- 檢測(cè)異常值
- 填充缺失數(shù)據(jù)
- 確認(rèn)數(shù)據(jù)質(zhì)量
2、探索性數(shù)據(jù)分析
另一項(xiàng)有關(guān)數(shù)據(jù)科學(xué)的重要內(nèi)容是探索性數(shù)據(jù)分析(EDA)。這是提出問題的過程,需要您用可視化技術(shù)來研究這個(gè)數(shù)據(jù)集。EDA使得分析師能夠從數(shù)據(jù)中得出一些能驅(qū)動(dòng)商業(yè)決策的結(jié)論。或許您能從客戶的數(shù)據(jù)、銷售的趨勢(shì)、季節(jié)的影像中得到有趣的結(jié)論。甚至有時(shí)候您能有一些和您最初設(shè)想完全不同的發(fā)現(xiàn)。
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對(duì)于R用戶,ggplot2包將很有用。EDA項(xiàng)目應(yīng)該顯示以下技能:
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對(duì)于R用戶,ggplot2包將很有用。EDA項(xiàng)目應(yīng)該顯示以下技能:
- 能夠?yàn)檎{(diào)查制定相關(guān)問題
- 識(shí)別趨勢(shì)
- 識(shí)別變量之間的相關(guān)關(guān)系
- 使用可視化技術(shù)(散點(diǎn)圖,直方圖,箱線圖等)有效地傳達(dá)結(jié)果
3、交互式數(shù)據(jù)可視化
交互式數(shù)據(jù)可視化包括儀表板等工具。這些工具對(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及更多面向業(yè)務(wù)的最終用戶都很有用。儀表板允許數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行協(xié)作,并一起繪制見解。更重要的是,它們?yōu)槊嫦驑I(yè)務(wù)的客戶提供了一種交互式工具。這些人專注于戰(zhàn)略目標(biāo)而非技術(shù)細(xì)節(jié)。通常,數(shù)據(jù)科學(xué)項(xiàng)目的可交付成果將以儀表板的形式出現(xiàn)。

對(duì)于Python用戶,Bokeh和Plotly庫非常適合創(chuàng)建儀表板。對(duì)于R用戶,請(qǐng)務(wù)必查看RStudio的Shiny軟件包。您的儀表板項(xiàng)目應(yīng)突出顯示以下重要技能:
- 包括與客戶需求相關(guān)的指標(biāo)
- 創(chuàng)建有用的功能
- 邏輯布局(“F模式”便于掃描)
- 創(chuàng)建***刷新率
- 生成報(bào)告或其他自動(dòng)操作
4、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)項(xiàng)目是數(shù)據(jù)科學(xué)組合的另一個(gè)重要部分。在您開始構(gòu)建一些深度學(xué)習(xí)項(xiàng)目之前,請(qǐng)退后一步。我們說的并不是建立復(fù)雜的機(jī)器學(xué)習(xí)模型,而是堅(jiān)持基礎(chǔ)。線性回歸和邏輯回歸是很好的開始。這些模型更易于解釋和與上層管理層溝通。我還建議關(guān)注一個(gè)對(duì)業(yè)務(wù)有影響的項(xiàng)目,例如預(yù)測(cè)客戶流失,欺詐檢測(cè)或貸款違約。這比預(yù)測(cè)花型更貼近于工作實(shí)際。

如果您是Python用戶,請(qǐng)使用Scikit-learn庫。對(duì)于R用戶,請(qǐng)使用Caret包。您的機(jī)器學(xué)習(xí)項(xiàng)目應(yīng)該傳達(dá)以下技能:
- 您選擇使用特定機(jī)器學(xué)習(xí)模型的原因
- 將數(shù)據(jù)拆分為訓(xùn)練/測(cè)試集(k倍交叉驗(yàn)證)以避免過擬合
- 選擇正確的評(píng)估指標(biāo)(AUC,adj-R ^ 2,混淆矩陣等)
- 特征值的選擇
- 超參數(shù)調(diào)整
5、溝通能力
溝通是數(shù)據(jù)科學(xué)的一個(gè)重要方面。能否有效地傳達(dá)結(jié)果是優(yōu)秀數(shù)據(jù)科學(xué)家與優(yōu)秀科學(xué)家之間的區(qū)別。無論您的模型多么花哨,如果您無法向隊(duì)友或客戶解釋,您將無法獲得他們的支持?;脽羝凸P記本電腦都是很好的溝通工具。嘗試將您的一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目放入幻燈片格式中。您還可以將Jupyter Notebook或RMarkdown文件用于需要溝通的項(xiàng)目。

確保了解您的目標(biāo)受眾是誰。向高管們展示您的項(xiàng)目和向機(jī)器學(xué)習(xí)專家展示是非常不同的。一定要掌握這些技能:
- 了解您的目標(biāo)受眾
- 使用相關(guān)的可視化技術(shù)
- 請(qǐng)勿過多地提供幻燈片
- 確保您的演示文稿流暢
- 將結(jié)果與業(yè)務(wù)影響相結(jié)合(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄您的項(xiàng)目。然后,您可以使用Github Pages將這些文件免費(fèi)轉(zhuǎn)換為靜態(tài)網(wǎng)站。這是向潛在雇主展示您的項(xiàng)目的好方法。