機(jī)器學(xué)習(xí)工程師與數(shù)據(jù)科學(xué)家的大斗法
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
隨著人工智能的發(fā)展,市場(chǎng)上出現(xiàn)了一些新的工作崗位。但對(duì)于這些新興領(lǐng)域的新興職業(yè),我們很多人難以分辨其間的不同之處,尤其是機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的作用有何區(qū)別,這很令人困惑。
閱讀了不同的文章、博客并觀看了一些視頻之后,筆者想通過(guò)對(duì)比二者之間的差異來(lái)更清晰地介紹它們。
先類比一下。作家和教授之間有什么區(qū)別?可以說(shuō)這兩者都知道一種語(yǔ)言的“規(guī)則和語(yǔ)法”,其中一個(gè)是講故事的人,另一個(gè)是“規(guī)則”的嚴(yán)格實(shí)踐者。
數(shù)據(jù)科學(xué)家對(duì)原始數(shù)據(jù)進(jìn)行處理分析,連接點(diǎn)并使用其他可視化工具講述故事。他們通常具有較廣泛的技能,深入了解的知識(shí)不超過(guò)一兩個(gè)。他們更多偏向是在創(chuàng)意方面,像一個(gè)藝術(shù)家。
機(jī)器學(xué)習(xí)工程師則將數(shù)據(jù)視為必須接收并能以某種適當(dāng)?shù)男问礁咝л敵龅臇|西。他們的技能需要與實(shí)施細(xì)節(jié)相關(guān)的高效。
兩者之間可能有很多重疊之處,但數(shù)據(jù)科學(xué)家可以是機(jī)器學(xué)習(xí)工程師,反之則不然。也許隨著他們獲得更多經(jīng)驗(yàn),機(jī)器學(xué)習(xí)工程師就是數(shù)據(jù)科學(xué)家,這樣的說(shuō)法會(huì)實(shí)現(xiàn)。

機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)的維恩圖
就洞察力或?qū)W習(xí)等方面而言,數(shù)據(jù)科學(xué)需要具有一定商業(yè)頭腦的人才,而機(jī)器學(xué)習(xí)則需要關(guān)于系統(tǒng)預(yù)測(cè)的人才。例如:
- 數(shù)據(jù)科學(xué):“在城鎮(zhèn)的這一部分,每2英里約有一個(gè)加油站”
- 機(jī)器學(xué)習(xí):“自從看到加油站以來(lái),我們走了兩英里,所以現(xiàn)在就要開(kāi)始尋找另一個(gè)加油站”
接著再來(lái)看看Netflix的例子。
我們都知道Netflix會(huì)根據(jù)之前的選擇來(lái)智能地推薦電影。該推薦系統(tǒng)可與機(jī)器學(xué)習(xí)算法配合使用,從而使用推薦系統(tǒng)提供合適的電影選擇。
當(dāng)談?wù)揘etflix中的數(shù)據(jù)科學(xué)時(shí),我們所要研究的模式包括在特定時(shí)間觀看的評(píng)論者數(shù)量、其年齡和性別組成以及許多其他情況。這些決策用于改善業(yè)務(wù)前景。當(dāng)企業(yè)需要借助數(shù)據(jù)來(lái)回答問(wèn)題或解決問(wèn)題時(shí),數(shù)據(jù)科學(xué)家的工作就是從原始數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中提供有用的見(jiàn)解。
數(shù)據(jù)科學(xué)家需要的技能:
- 統(tǒng)計(jì)
- 數(shù)據(jù)挖掘和清理
- 數(shù)據(jù)可視化
- 非結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)
- 編程語(yǔ)言,例如R和Python
- 了解SQL數(shù)據(jù)庫(kù)
- 使用Hadoop、Hive和Pig等大數(shù)據(jù)工具
機(jī)器學(xué)習(xí)工程師需要的技能:
- 計(jì)算機(jī)科學(xué)基礎(chǔ)
- 統(tǒng)計(jì)建模
- 數(shù)據(jù)評(píng)估和建模
- 了解和應(yīng)用算法
- 自然語(yǔ)言處理
- 數(shù)據(jù)架構(gòu)設(shè)計(jì)
- 文本表示技術(shù)
綜上可見(jiàn),數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師的工作還是有很大區(qū)別的,不要混淆它們。確定好自己所具有的技能條件和個(gè)人興趣更適合哪個(gè)職位,并有意識(shí)地培養(yǎng)自己某個(gè)方向的技能,為未來(lái)做好準(zhǔn)備。