數(shù)據(jù)科學家:21世紀尤其臟的工作
在大數(shù)據(jù)世界里,數(shù)據(jù)科學家受到人們的尊敬,他們采用人工智能或深度學習的方法,提出寶貴的商業(yè)見解,造福社會。
《哈佛商業(yè)評論》曾這樣描述數(shù)據(jù)科學家——“數(shù)據(jù)科學家從事著21世紀最時尚的工作”。
對我來說,雖然過去五年擁有著“數(shù)據(jù)科學家”這個頭銜,但我仍然沒有完全弄清楚工作的哪個部分很時尚??赡苁俏倚聽C的頭發(fā)使我看起來像韓國歐巴。
確實,云端的出現(xiàn)以及企業(yè)朝著互聯(lián)網(wǎng)方向的發(fā)展,帶來了數(shù)據(jù)的爆炸。這推動了某些部門對數(shù)據(jù)科學家的需求以及該崗位的短缺。
但是,數(shù)據(jù)科學家每天要做什么工作呢?
通過分析領英上發(fā)布的職位信息,可以找到此問題的答案。以下總結了一些熱門的崗位要求:
- 了解業(yè)務和客戶,驗證假設理論
 - 建立預測模型和機器學習流水線,進行A/ B測試
 - 對業(yè)務相關者進行概念化分析
 - 開發(fā)算法以賦能商業(yè)決策
 - 試驗并研究新技術和方法,提高技術能力。
 
這些聽起來很時尚/高大上,不是嗎?
除非工作還包括處理Kaggle數(shù)據(jù)集,否則這些工作描述只是數(shù)據(jù)科學家工作的一小部分。
以下調(diào)查結果由CrowdFlower發(fā)布,總結了數(shù)據(jù)科學家的日?;顒樱?/p>

數(shù)據(jù)科學家花費時間最多的事情。[摘自CrowdFlower]
從上表可以看出,數(shù)據(jù)科學家大部分時間都在收集數(shù)據(jù)集,清理和組織數(shù)據(jù)。
21世紀的高性能數(shù)據(jù)真空
數(shù)據(jù)湖是一個集中存儲庫,存儲著公司的所有數(shù)據(jù)。公司得以使用該數(shù)據(jù)構建機器學習模型和儀表板。遺憾的是,有些人僅僅把數(shù)據(jù)湖當作數(shù)據(jù)轉儲的場所,或者超大硬盤。
許多公司開始實施數(shù)據(jù)湖時,對如何處理收集到的數(shù)據(jù)一無所知。這些公司會說:“讓我們收集所有的數(shù)據(jù)吧。”雖然數(shù)據(jù)湖的重點是將公司的所有數(shù)據(jù)集中在一個地方,但仍然需要根據(jù)特定的項目需求進行設計。如果不進行任何計劃,你就像創(chuàng)建了一個新的“無標題文件夾”,然后在其中復制并粘貼公司的全部數(shù)據(jù)。
如果把臺式機視為數(shù)據(jù)轉儲場
從歷史的角度看,糟糕的計劃會帶來雜亂無章的元數(shù)據(jù),這讓任何人都很難搜索或查找所需的數(shù)據(jù)。數(shù)據(jù)科學家經(jīng)常需要與不同部門聯(lián)系以獲取數(shù)據(jù)。他們可能需要從不同的數(shù)據(jù)所有者中獲取有關數(shù)據(jù)的信息。僅存儲數(shù)據(jù)而不進行分類是一個很大的錯誤。建立有效數(shù)據(jù)湖的關鍵就是要確保元數(shù)據(jù)有良好的歸類。
由于數(shù)據(jù)治理問題或數(shù)據(jù)所有者過于忙碌,且他們往往是不同部門的利益相關者,因此獲取重要數(shù)據(jù)可能需要數(shù)周的時間。觀察一段時間后,數(shù)據(jù)科學家可能最終會發(fā)現(xiàn)數(shù)據(jù)不相關或存在嚴重的質(zhì)量問題。
當數(shù)據(jù)科學家最終收集到數(shù)據(jù)時,他們需要花費大量時間來探索和熟悉這些數(shù)據(jù),必須將這些混亂的數(shù)據(jù)塊重組為符合項目需求的新表。
21世紀里高需求的數(shù)據(jù)管理員
來源:data.lovedata
每個處理數(shù)據(jù)的專業(yè)人員都應該聽說過“臟數(shù)據(jù)”一詞。臟數(shù)據(jù)影響了數(shù)據(jù)集的完整性。臟數(shù)據(jù)的特征有:不完整、不準確、不一致和重復。
不完整的數(shù)據(jù)是指當某些基本功能為空時,例如,假設任務是預測房價。假設“房子的位置”對于做出良好的預測至關重要,但是這一數(shù)據(jù)卻沒有。這可能會變得具有挑戰(zhàn)性,并且模型的效果也不佳。
不正確的數(shù)據(jù)和不一致的數(shù)據(jù)是指該值在技術上是正確的,但在語境下是錯誤的。例如,一名員工更改了地址,但數(shù)據(jù)卻未更新,或者當數(shù)據(jù)有很多副本,而數(shù)據(jù)科學家得到的版本卻已過時。
數(shù)據(jù)重復也是一個常見問題。在此分享一個我在電子商務公司工作時發(fā)生的故事。按照設計,當訪問者單擊“收集優(yōu)惠券”按鈕時,網(wǎng)站將響應發(fā)送到服務器。這使我們能夠衡量已收集到優(yōu)惠券的用戶數(shù)量。
該網(wǎng)站一直運行良好,直到有一天出現(xiàn)了一些變化,而我對此一無所知。前端開發(fā)人員在有人成功收集優(yōu)惠券時添加了另一個響應,理由是某些優(yōu)惠券可能缺貨了。數(shù)據(jù)科學家想跟蹤單擊該按鈕的訪問者,以及已經(jīng)收集了優(yōu)惠券的訪問者。
這時,兩個響應發(fā)送到同一日志表??纯次业膱蟾婀ぞ?,優(yōu)惠券的數(shù)量似乎在一夜之間翻了一番!在前一天部署模型時,我以為新模型是很成功的。我記得曾為這個小模型歡呼鼓掌,但后來意識到這只是在重復計算。
另外,在過去五年里,作為數(shù)據(jù)科學家,我收集到的一些數(shù)據(jù)是公司員工手動輸入的。在Excel電子表格中,許多數(shù)據(jù)是不準確、不完整且不一致的。
無論數(shù)據(jù)是人工輸入還是機器日志,數(shù)據(jù)整理在現(xiàn)實世界中應用廣泛。數(shù)據(jù)科學家必須處理這些數(shù)據(jù)。為了使監(jiān)督學習有效,我們需要可靠的、分類好的數(shù)據(jù)。除非正確標記數(shù)據(jù),否則無法建立預測模型。但是沒有人喜歡標記數(shù)據(jù)。
許多人將其描述為二八規(guī)則。數(shù)據(jù)科學家僅花了20%的時間構建模型,而其他80%的時間用于收集、分析、清理和重組數(shù)據(jù)。處理臟數(shù)據(jù)是數(shù)據(jù)科學家日常工作中最耗時的。
來源:Pexels
有必要說明的是,數(shù)據(jù)清理至關重要,混亂的數(shù)據(jù)不會帶來良好的結果,你可能聽過“垃圾進,垃圾出”這句話。
數(shù)據(jù)科學家在瀏覽數(shù)據(jù)時確實會有所發(fā)現(xiàn),但是在數(shù)據(jù)科學家可以開始訓練任何模型之前,必須首先成為數(shù)據(jù)管理員。數(shù)據(jù)需要清理,也需要標記。
所以,將數(shù)據(jù)科學家稱為大數(shù)據(jù)世界的清潔工,應該也挺合適吧……
















 
 
 





 
 
 
 