高端大氣的“數(shù)據(jù)科學(xué)家”,竟然成了離職率最高的職位之一
每一份工作都很有趣。但是做到優(yōu)秀卻很難,因?yàn)檫@不僅關(guān)于技術(shù)本身,也關(guān)乎職場(chǎng)的復(fù)雜性。本文作者Jonny Brooks-Bartlett在“Here’s why so many data scientists are leaving their jobs”一文中講述了數(shù)據(jù)科學(xué)家遭遇挫敗的4大原因。
是的,我就是一名數(shù)據(jù)科學(xué)家。但是,你讀的這個(gè)標(biāo)題也沒錯(cuò)??傂枰腥藖碚f出這些話。我們已經(jīng)讀到過許多關(guān)于數(shù)據(jù)科學(xué)的故事,比如“這是21世紀(jì)最迷人的工作”以及“作為數(shù)據(jù)科學(xué)家你能賺到一大筆錢”之類,這讓這份工作看起來簡(jiǎn)直***。由于這個(gè)領(lǐng)域里有眾多高技能人才,他們會(huì)努力解決那些復(fù)雜的問題(是得,這對(duì)于“極客”來說是一件積極的事情),所以沒有任何道理不熱愛這份工作。
但是事實(shí)上,正如英國《金融時(shí)報(bào)》的這篇文章中所指出的那樣,數(shù)據(jù)科學(xué)家每周通常會(huì)“花費(fèi)1-2個(gè)小時(shí)尋找新工作”。此外,這篇文章還指出,“在開發(fā)者中說自己正在找一份新工作的比例在機(jī)器學(xué)習(xí)專家中名列前茅,為14.3%。數(shù)據(jù)科學(xué)家緊隨其后,為13.2%”。以上數(shù)據(jù)是基于Stack Overflow對(duì)于64000位開發(fā)人員的調(diào)查所得出。
我同樣也身處在這個(gè)崗位上,而且最近剛換了一份工作。
為什么有如此之多的數(shù)據(jù)科學(xué)家在尋找新工作?
在回答這個(gè)問題之前,我需要說明一點(diǎn),我仍然是一名數(shù)據(jù)科學(xué)家??傮w而言,我熱愛這個(gè)職業(yè),而且也不想阻止別人成為數(shù)據(jù)科學(xué)家,因?yàn)樗錆M著趣味、刺激和回報(bào)。但是這篇文章的目的是作為消極指導(dǎo)者而做出,為的是揭露這份職業(yè)的消極一面。
在我看來,數(shù)據(jù)科學(xué)家對(duì)自己工作的不滿意之處體現(xiàn)在下面四個(gè)方面。
1. 期望值與現(xiàn)實(shí)不符
大數(shù)據(jù)如同青少年的性行為:每個(gè)人都在談?wù)撍?,沒有人真正知道如何去做,每個(gè)人都以為別人都這么做,所以每個(gè)人都聲稱自己正在做……—丹·艾瑞里
這個(gè)比喻很恰當(dāng)。許多我所認(rèn)識(shí)的初級(jí)數(shù)據(jù)科學(xué)家(包括我在內(nèi))之所以進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域是因?yàn)樗軌蛴眯碌臋C(jī)器學(xué)習(xí)算法解決復(fù)雜問題,從而對(duì)商業(yè)產(chǎn)生巨大影響。這會(huì)讓我們覺得自己所從事的工作比我們之前做的任何事情都要重要。然而,事實(shí)往往并非如此。
在我看來,期望值與現(xiàn)實(shí)不符是許多數(shù)據(jù)科學(xué)家離開的根本原因。原因眾多但是我沒有辦法提供一個(gè)詳盡列表,而這篇文章所談及之處是我實(shí)際上遇到的某些情況。
每個(gè)公司的情況各有不同之處,因此我的意見不能代表所有公司的情況。但是有許多公司雇傭數(shù)據(jù)科學(xué)家,但是卻沒有能從人工智能技術(shù)中獲取價(jià)值的基礎(chǔ)設(shè)施。這就導(dǎo)致了人工智能的遇冷遭遇。與此同時(shí),這些公司在雇傭初級(jí)數(shù)據(jù)從業(yè)者之前沒有聘請(qǐng)資深或是有經(jīng)驗(yàn)的數(shù)據(jù)人員,這又為彼此的失望與不愉快埋下伏筆。數(shù)據(jù)科學(xué)家可能通過編寫機(jī)器學(xué)習(xí)算法來增加分析洞察,但是他們并不能這么做,因?yàn)樗麄兊?**份工作往往是整理數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)或是創(chuàng)建分析報(bào)告。公司只是需要一張他們每天可以在董事會(huì)會(huì)議上進(jìn)行展示的圖表。之后,公司并不能從促使其快速行動(dòng)中看到足夠的價(jià)值。而以上的一切導(dǎo)致數(shù)據(jù)科學(xué)家對(duì)于自己的角色感到不滿。
羅伯特·張?jiān)谒o初級(jí)數(shù)據(jù)科學(xué)家的建議的博客文章中給出了一個(gè)很有見地的引用:
對(duì)于我們的抱負(fù)與此刻身處關(guān)鍵路途的環(huán)境的一致性進(jìn)行評(píng)估非常重要。找到那些最適合你的關(guān)鍵路途的項(xiàng)目、團(tuán)隊(duì)與公司。
這就突出了雇主與數(shù)據(jù)科學(xué)家之間的雙向關(guān)系。如果公司并不處于正確位置上,或者是與數(shù)據(jù)科學(xué)家的目標(biāo)不一致,那么對(duì)于數(shù)據(jù)科學(xué)家來說找一份新工作只是時(shí)間問題。
胡書賓有一個(gè)關(guān)于分析團(tuán)隊(duì)如何按愿望創(chuàng)建的系列,我覺得說的很有見地。
另一個(gè)原因讓數(shù)據(jù)科學(xué)家感到失望的原因與我對(duì)學(xué)術(shù)界的幻滅有相似之處:我認(rèn)為自己有能力對(duì)人們產(chǎn)生影響,這種影響不僅僅局限在公司內(nèi)部。事實(shí)上,如果這家公司的核心業(yè)務(wù)并不在機(jī)器學(xué)習(xí)(我的上一任雇主是一家媒體出版公司),那么你所從事的數(shù)據(jù)行業(yè)只能帶來小幅增長獲益。這會(huì)產(chǎn)生一個(gè)非常重要的事情,或者是你會(huì)十分幸運(yùn)的撞上一個(gè)金礦項(xiàng)目,但是這并不常見。
2. 政治統(tǒng)治***原則
關(guān)于政治議題已經(jīng)有一篇精彩文章:數(shù)據(jù)科學(xué)中最困難的一件事:政治,我希望你能讀一讀。這篇文章的前幾句話基本上概括了我想說的。
當(dāng)我早上6點(diǎn)起床去學(xué)習(xí)支持向量機(jī)時(shí),我想:“這真的是太難了。但是,嘿,至少我會(huì)為未來的老板帶來價(jià)值。”如果我擁有DeLorean時(shí)光車,我就會(huì)回到過去,然后沖自己大喊“笨蛋”。
如果你真的認(rèn)為了解許多機(jī)器學(xué)習(xí)算法知識(shí)會(huì)讓你成為最有價(jià)值的數(shù)據(jù)科學(xué)家,那么看看上文中我提到的***點(diǎn):期望值與現(xiàn)實(shí)不符。
事實(shí)是,那些商業(yè)中最有影響力的人需要對(duì)你有一個(gè)良好的印象。這可能意味著你必須經(jīng)常做一些特別的工作,比如從數(shù)據(jù)庫中提取數(shù)據(jù),并在合適的時(shí)間給到合適的人,做一些簡(jiǎn)單的項(xiàng)目,以便讓正確的人對(duì)你有一個(gè)好印象。我的上一份工作必須做許多類似的事情。但是讓人沮喪的是,這是工作中必不可少的一部分。
3. 你對(duì)數(shù)據(jù)“全然”了解
而談到做正確的事取悅正確的人這件事,那些擁有巨大影響力的人往往不理解“數(shù)據(jù)科學(xué)家”的含義。這意味著你將是分析專家,同時(shí)也是做報(bào)告的人,更不要忘記你也將成為一個(gè)數(shù)據(jù)庫專家。
不僅僅是那些非技術(shù)高管對(duì)你所擁有的技能有太多假設(shè)。其他技術(shù)同事也會(huì)假定你了解所有關(guān)于數(shù)據(jù)的事情。你是了解Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP,任何關(guān)于機(jī)器學(xué)習(xí),以及你能想到的其他相關(guān)數(shù)據(jù)的事情。順便說一句,如果你看到一份工作明細(xì)上寫了所有上面提到的東西,請(qǐng)保持理智。這表明,這家公司對(duì)于自己的數(shù)據(jù)策略是什么一無所知,以及他們雇傭相關(guān)人員是因?yàn)樗麄円詾樽约汗蛡蛄艘粋€(gè)可以解決所有數(shù)據(jù)問題的數(shù)據(jù)工作者。
但是事情并不僅僅止于此。因?yàn)槟懔私馑械囊磺?,顯然你可以處理所有訪問的數(shù)據(jù),那么你就應(yīng)該能夠解決所有的問題。
試著告訴人們你真正知道的以及真正掌握的東西,但是做到這件事相當(dāng)有困難。這并不是因?yàn)槿藗儠?huì)認(rèn)為你的能力不行,而且作為一名沒有多少行業(yè)經(jīng)驗(yàn)的初級(jí)數(shù)據(jù)科學(xué)家來說,你會(huì)擔(dān)心人們對(duì)你的想法會(huì)變少。這真的是一個(gè)兩難困境。
4. 在一個(gè)孤立團(tuán)隊(duì)中工作
當(dāng)我們看到一款帶有智能功能且用戶界面設(shè)計(jì)的很巧妙的成功的數(shù)據(jù)產(chǎn)品時(shí),更重要的是需要認(rèn)識(shí)到一個(gè)有用的外接輸出產(chǎn)品至少能被用戶用來解決一個(gè)相關(guān)問題。如今,如果一個(gè)數(shù)據(jù)科學(xué)家只花時(shí)間學(xué)習(xí)了如何編寫和執(zhí)行機(jī)器學(xué)習(xí)算法,那么他們只能是一個(gè)能夠制造出有價(jià)值產(chǎn)品的一個(gè)項(xiàng)目的所屬團(tuán)隊(duì)的一顆小螺絲釘,盡管這是必要的。這意味著那些孤立工作的數(shù)據(jù)科學(xué)團(tuán)隊(duì)很難提供價(jià)值。
盡管如此,許多公司仍然成立數(shù)據(jù)科學(xué)團(tuán)隊(duì),他們提出自己的項(xiàng)目并編寫代碼來嘗試解決問題。在某些情況下,這就足夠了。比如,如果僅僅需要在每個(gè)季度完成一個(gè)靜態(tài)電子表格,并且能夠提供一些價(jià)值。但是另一方面,如果目標(biāo)是在定制網(wǎng)站建設(shè)產(chǎn)品中優(yōu)化所提供的智能建議,那么這將涉及到許多不同的技能,而這對(duì)于絕大多數(shù)數(shù)據(jù)科學(xué)家來說則不可能做到,只有真正的數(shù)據(jù)科學(xué)獨(dú)角獸才有能力解決這個(gè)問題。因此,如果一個(gè)項(xiàng)目由一個(gè)孤立的數(shù)據(jù)科學(xué)團(tuán)隊(duì)所執(zhí)行,那么結(jié)果很有可能是失敗的(或是會(huì)耗費(fèi)掉很長時(shí)間。)
因此,想要成為一個(gè)有用的數(shù)據(jù)科學(xué)家,僅僅在Kaggle競(jìng)賽中取得好成績并完成一些在線課程是不夠的。幸運(yùn)或不幸運(yùn)的是,它涉及到理解等級(jí)與政治如何在商業(yè)中運(yùn)作,以及你看待它的方式。尋找一個(gè)與你的關(guān)鍵路途一致的公司應(yīng)是你在尋找能滿足自己要求的數(shù)據(jù)科學(xué)工作時(shí)的一個(gè)關(guān)鍵目標(biāo)。但是,你仍然需要重新調(diào)整自己對(duì)于數(shù)據(jù)科學(xué)角色的期望。