譯者 | 趙青窕
審校 | 梁策 孫淑娟
開始學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),我以為找到一個(gè)對口工作就萬事大吉了。然而,工作了幾年之后,我開始意識到當(dāng)初的想法實(shí)在是大錯(cuò)特錯(cuò)。
我認(rèn)識不少數(shù)據(jù)科學(xué)家在入職后的幾個(gè)月內(nèi)就離職了,而我本人,因?yàn)檎J(rèn)為領(lǐng)導(dǎo)分配的任務(wù)與自己辛苦所學(xué)的技能毫無關(guān)系,在數(shù)據(jù)科學(xué)崗實(shí)習(xí)了一周后也遞上了辭呈。
在同我一樣在職業(yè)生涯早期就離職的業(yè)界人士交談后,我意識到數(shù)據(jù)科學(xué)領(lǐng)域員工流失率如此之高有以下兩個(gè)主因:
1. 個(gè)人期望與公司崗位期望不符
想象一下,你花了數(shù)千小時(shí)學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)和不同機(jī)器學(xué)習(xí)算法,然后申請了幾十個(gè)不同的數(shù)據(jù)科學(xué)崗位,接著經(jīng)歷了大量的面試,最終被一家中型公司錄用。
當(dāng)你滿心歡喜地以為自己終于可以開始研究現(xiàn)實(shí)中的機(jī)器學(xué)習(xí)問題,想著多年所學(xué)終于可以付諸實(shí)踐,結(jié)果上班第一天就發(fā)現(xiàn)公司的系統(tǒng)中有大量未經(jīng)處理的非結(jié)構(gòu)化數(shù)據(jù)。
在領(lǐng)導(dǎo)心里,你就是“搞數(shù)據(jù)”的人,所以每天收集的大量數(shù)據(jù)你都要負(fù)責(zé)分析,以此來幫助他們提高業(yè)績。
最后你發(fā)現(xiàn),自己的工作完全不像期望的那樣可以構(gòu)建負(fù)責(zé)的算法和模型,而是將所有時(shí)間都花在“復(fù)習(xí)”SQL 和數(shù)據(jù)準(zhǔn)備工作上,以把數(shù)據(jù)從系統(tǒng)中提取為不同的格式,并將這些數(shù)據(jù)呈現(xiàn)給領(lǐng)導(dǎo),讓他們可以使用這些數(shù)據(jù)來做出相應(yīng)的業(yè)務(wù)決策。
盡管崗位叫作“數(shù)據(jù)科學(xué)家”,但你卻沒有扮演自己想象中的角色。你不甘心只做公司里管數(shù)據(jù)的人,而是希望從事一個(gè)可以讓自己辛苦習(xí)得的技能有用武之地的項(xiàng)目。
最終,你只剩下兩個(gè)選擇?——?要么在公司待幾年并繼續(xù)執(zhí)行不喜歡的任務(wù),要么離職去找一個(gè)更符合個(gè)人發(fā)展目標(biāo)的公司。
可能你并沒有碰到這樣的情況,但從我周圍的數(shù)據(jù)科學(xué)家那里了解到,這幾乎是他們最多的抱怨之一。 他們中的許多人對自己的工作范圍都有著不同的期望,但最終每天都是執(zhí)行數(shù)據(jù)報(bào)告和分析的任務(wù)。
在這樣的公司待了一段時(shí)間后,因?yàn)槎嗄晡磸氖抡嬲臋C(jī)器學(xué)習(xí)項(xiàng)目,許多數(shù)據(jù)科學(xué)家最終喪失了之前掌握的機(jī)器學(xué)習(xí)技能。
在尋找另一份工作時(shí),他們也無法申請中級或高級數(shù)據(jù)科學(xué)職位,因?yàn)樽约阂呀?jīng)不再具有所需的專業(yè)知識。這些人通常不得不轉(zhuǎn)換職業(yè)發(fā)展方向,繼續(xù)從事著數(shù)據(jù)或報(bào)告的分析工作。
2. 無法增加商業(yè)價(jià)值
大多數(shù)數(shù)據(jù)科學(xué)家不滿的另一個(gè)常見原因是無法通過他們的機(jī)器學(xué)習(xí)模型增加商業(yè)價(jià)值。
在我看來,這個(gè)問題比上一個(gè)問題更普遍,?因?yàn)槟壳熬哂忻鞔_定義的工作范圍和合適的數(shù)據(jù)管道(Data Pipeline)的組織也面臨著這個(gè)問題。
以下是數(shù)據(jù)科學(xué)家未能構(gòu)建用來增加商業(yè)價(jià)值模型的幾個(gè)原因:
技術(shù)與商業(yè)之間存在鴻溝
利益相關(guān)者和高層管理人員也許不了解技術(shù),也不能意識到什么情況可以引入機(jī)器學(xué)習(xí)模型。 此外,這個(gè)領(lǐng)域炒作的太厲害,作為一名數(shù)據(jù)科學(xué)家,你可能會從領(lǐng)導(dǎo)那里聽到一些比較有野心的需求。
數(shù)據(jù)科學(xué)家們這種情況下就需要就一個(gè)項(xiàng)目能否成功,能否帶來期望結(jié)果向領(lǐng)導(dǎo)解釋,從而確保其預(yù)期能與潛在的結(jié)果保持一致,這樣以后大家對結(jié)果都不會太失望。
在從事任何機(jī)器學(xué)習(xí)項(xiàng)目之前,最好先分析其預(yù)估成本和效益情況,這樣公司就可以集體決定針對該項(xiàng)目來分配時(shí)間和資源是否值得。
沒有提出正確的問題
作為一名數(shù)據(jù)科學(xué)家,你需要知道自己構(gòu)建的模型是否會為業(yè)務(wù)增加價(jià)值。
我所見過的大多數(shù)數(shù)據(jù)科學(xué)家都會根據(jù)得到的指示快速地開始一個(gè)項(xiàng)目,可他們卻可能沒有提出正確的問題,也不會試圖去理解經(jīng)理的思路。
當(dāng)你僅僅是根據(jù)別人的安排而工作,那么你也不會清晰了解對自己可能會帶來什么價(jià)值,假如這時(shí)有人問你的工作價(jià)值何在,可能你也很難答出。
如果你一開始就不知道自己的產(chǎn)品為什么要做,你又怎能讓別人相信你的產(chǎn)品是可行的呢?
缺乏相應(yīng)的知識
要正確提出問題,需要先了解業(yè)務(wù)運(yùn)作模式。
你的模型構(gòu)建應(yīng)該針對特定領(lǐng)域,同時(shí)還需要了解它對最終用戶可能產(chǎn)生的影響。
例如,如果你正在為一家服裝公司構(gòu)建模型,就必須要知道季節(jié)性等因素會影響你給客戶的建議。
我從事市場營銷工作,大部分專業(yè)知識都是通過直接與業(yè)務(wù)團(tuán)隊(duì)合作獲得,此外還有一些來自在線課程,而當(dāng)中很多是基于我與人們的日?;?dòng)以及對其行為方式的理解。
根據(jù)個(gè)人工作領(lǐng)域差異,花些時(shí)間來獲取特定行業(yè)知識是很明智的做法。這些知識在數(shù)據(jù)科學(xué)工作流程中的每一步都可能會用到,包括預(yù)處理、特征選擇、特征權(quán)重,以及在模型部署之后的微調(diào)等等。
那要怎樣才能成為一個(gè)對工作有熱情的數(shù)據(jù)科學(xué)家呢?
首先,選擇一家可以讓自己發(fā)揮所長的公司很重要,避開那些在職位描述中列出了很多工具的公司。在申請崗位之前,可以在招聘平臺上查一查,看看他們之前是否招聘過數(shù)據(jù)科學(xué)人員。
如果沒有,那我建議你遠(yuǎn)離這類公司,因?yàn)檫@意味著所有與數(shù)據(jù)相關(guān)的工作都可能由你來做。
如果有,可以查查他們數(shù)據(jù)科學(xué)家的個(gè)人資料,看看他們?yōu)閷υ撀毼坏拿枋鍪欠穹夏愕钠谕?/p>
其次,在面試中不要只是單方面被問,你需要盡可能多地向面試官詢問有關(guān)工作范圍和工作內(nèi)容的問題。如果它與期望不符,最好繼續(xù)找找其他機(jī)會。
最后,花些時(shí)間來獲取從事領(lǐng)域的專業(yè)知識。利用這些知識向經(jīng)理提出正確的問題,并確保他們的期望與潛在的項(xiàng)目成果保持一致。
譯者介紹
趙青窕,51CTO社區(qū)編輯,從事多年驅(qū)動(dòng)開發(fā)。研究興趣包含安全OS和網(wǎng)絡(luò)安全領(lǐng)域,發(fā)表過網(wǎng)絡(luò)相關(guān)專利。
原文標(biāo)題:??Why Are So Many Data Scientists Quitting Their Jobs???,作者:Natassha Selvaraj