數(shù)據(jù)科學(xué)初學(xué)者面臨的5個(gè)常見誤區(qū)
數(shù)據(jù)如今已經(jīng)體現(xiàn)出巨大的價(jià)值——企業(yè)通過數(shù)據(jù)分析來為包括市場支出、員工決策到產(chǎn)品開發(fā)等所有事情提供參考性建議,而這也意味著,數(shù)據(jù)科學(xué)家在工作中的價(jià)值正變得越來越突出。
隨著人工智能的發(fā)展,數(shù)據(jù)科學(xué)家開始越來越受歡迎。與此同時(shí),數(shù)據(jù)科學(xué)家確保自身能夠持續(xù)地提升自我價(jià)值,以及通曉如何利用數(shù)據(jù)科學(xué)最佳實(shí)踐是很重要的。這篇文章中列舉了五個(gè)數(shù)據(jù)科學(xué)家可能常犯的誤區(qū),并對如何防止這些失誤的出現(xiàn)給出了一定的建議。
誤區(qū)1:專注于電腦,而不是同事
在數(shù)據(jù)科學(xué)初學(xué)者之中有一個(gè)常見的誤解,即在實(shí)際工作中他們的工作主要是編寫技術(shù)代碼,而另有他人將向業(yè)務(wù)相關(guān)者展示他們的發(fā)現(xiàn)。但事實(shí)遠(yuǎn)非如此,數(shù)據(jù)科學(xué)家的工作是發(fā)現(xiàn)有助于業(yè)務(wù)增長的信息。
首先,數(shù)據(jù)科學(xué)家必須能夠與業(yè)務(wù)人員交流,共同探討他們發(fā)現(xiàn)的信息如何在更大程度上對業(yè)務(wù)產(chǎn)生影響;其次,他們必須知道到哪里尋找這些信息。第二部分是至關(guān)重要的:一個(gè)整天坐在辦公桌前的數(shù)據(jù)科學(xué)家,可能永遠(yuǎn)不會意識到銷售團(tuán)隊(duì)正面臨著客戶流失的問題,或者營銷團(tuán)隊(duì)正在為轉(zhuǎn)化率的事焦頭爛額。
業(yè)務(wù)運(yùn)營中總會存在各種各樣的問題,數(shù)據(jù)科學(xué)家可以幫助解決很多問題。不要只看數(shù)據(jù),離開你的辦公桌去了解公司的日常工作,這樣你就能知道如何提供更大的價(jià)值。
誤區(qū)2:忽略業(yè)務(wù)領(lǐng)域的大環(huán)境
除了定期與業(yè)務(wù)部門的同事溝通之外,花時(shí)間了解你所在行業(yè)的大環(huán)境也很重要。如果你正在為一家零售公司制定解決方案,花點(diǎn)時(shí)間開車去他們的實(shí)際地點(diǎn),觀察他們是如何運(yùn)作的——銷售人員在做什么、購物空間的設(shè)計(jì)、經(jīng)理的工作內(nèi)容,等等。
更全面地理解業(yè)務(wù)環(huán)境,對于提供業(yè)務(wù)洞察和數(shù)據(jù)科學(xué)最佳實(shí)踐至關(guān)重要。如果你不了解企業(yè)是如何運(yùn)作的,就不可能幫助它更好地運(yùn)作。數(shù)據(jù)科學(xué)家必須理解數(shù)據(jù)代表什么,否則,您將會遇到這樣的情況:根據(jù)您的模型,一切都應(yīng)該完美地工作——但是仍然存在一些現(xiàn)實(shí)問題,您只能通過觀察業(yè)務(wù)的實(shí)際情況來了解這些問題。
當(dāng)您對業(yè)務(wù)的大環(huán)境有了一定的了解之后,就可以找到失效的流程,查看數(shù)據(jù),并推測出了什么問題,在對您的假設(shè)進(jìn)行測試并確認(rèn)之后,做出相應(yīng)的改進(jìn)。
誤區(qū)3:只注重理論而忽視實(shí)踐
與許多領(lǐng)域一樣,數(shù)據(jù)科學(xué)往往是實(shí)踐重于理論。問題是,數(shù)據(jù)科學(xué)的實(shí)踐是學(xué)不到的,你必須在真實(shí)的環(huán)境中運(yùn)行。
在企業(yè)中,數(shù)據(jù)科學(xué)家必須經(jīng)受各種壓力,包括:
- 與其他部門和團(tuán)隊(duì)協(xié)調(diào)。有時(shí)可能會隨著內(nèi)部優(yōu)先級的變化而從一個(gè)項(xiàng)目跳到另一個(gè)項(xiàng)目,或者當(dāng)您的主要解決方案不能按照建議實(shí)現(xiàn)時(shí),需要尋找替代解決方案。
- 代碼集成的挑戰(zhàn)。有時(shí),您的代碼不能輕松地與現(xiàn)有代碼集成,這意味著您必須找到對應(yīng)解決方案。
- 預(yù)算限制。在實(shí)際工作中,每個(gè)項(xiàng)目都有預(yù)算限制。弄清楚如何在有限的預(yù)算下,獲得足夠好的(而不是完美的)解決方案,這是數(shù)據(jù)科學(xué)家有效工作的關(guān)鍵部分。
雖然關(guān)注最新的文章、博客和前沿技術(shù)也很重要,但在這份工作中,有些部分你只能邊做邊學(xué)。一個(gè)具備高工作效率的數(shù)據(jù)科學(xué)家,應(yīng)知道如何平衡他們的專業(yè)發(fā)展。
誤區(qū)4:從不問為什么
要成為更好的數(shù)據(jù)科學(xué)家,只需問一問為什么。這個(gè)問題有助于消除數(shù)據(jù)科學(xué)家和公司其他部門同事之間的溝通障礙。
想象一下,一家零售公司的營銷主管要求建立一個(gè)數(shù)據(jù)模型,該模型能夠顯示有多少消費(fèi)者產(chǎn)生購買行為的原因是與他們訪問網(wǎng)站的渠道相關(guān)的。在創(chuàng)建模型之前,你可以先問問為什么。是為了了解哪些客戶是最有價(jià)值的,這樣他們就能知道從哪里可以獲得更高的轉(zhuǎn)化率?是為了幫助銷售團(tuán)隊(duì)優(yōu)先考慮渠道嗎?他們有辦法衡量新老客戶嗎?他們會將產(chǎn)品收益作為考慮因素嗎?
為了建立一個(gè)真正有用的模型,你必須理解你的同事希望用它去解決的問題——當(dāng)你這樣做的時(shí)候,你可能比你最初預(yù)想的更容易解決它,這對每個(gè)人都有好處。
誤區(qū)5、假設(shè)您的數(shù)據(jù)是干凈的
在許多情況下,數(shù)據(jù)科學(xué)家80%的工作是清理數(shù)據(jù)——最后20%的工作是運(yùn)行機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型,以獲取數(shù)據(jù)洞察。
接收數(shù)據(jù)集時(shí)要做的第一步是辨認(rèn)有多少數(shù)據(jù)是直接可用的,第二步是確定如何讓獲得一個(gè)完全可用的數(shù)據(jù)集。
數(shù)據(jù)從來都不是完美的——如果是的話,數(shù)據(jù)科學(xué)家就不會有工作了。我們必須使不完美的數(shù)據(jù)變得可用,這要求我們理解業(yè)務(wù)的大環(huán)境——您不需要哪些信息?哪些是關(guān)鍵任務(wù)?
人們很容易陷入一種現(xiàn)代思維模式,即數(shù)據(jù)是企業(yè)中所有意義和價(jià)值的來源(尤其是如果你是一名數(shù)據(jù)科學(xué)家)。但如果我們想要繼續(xù)為我們工作的公司帶來價(jià)值、發(fā)揮數(shù)據(jù)科學(xué)的最佳實(shí)踐效果,我們必須承認(rèn)只有當(dāng)我們的工作是整個(gè)商業(yè)生態(tài)系統(tǒng)中的一部分時(shí),我們的工作才最有價(jià)值——這取決于數(shù)據(jù)科學(xué)家本身與生態(tài)的協(xié)作。