優(yōu)秀數(shù)據(jù)科學(xué)家的基本技能和特征
如今,數(shù)據(jù)科學(xué)家就是王者。但是從數(shù)據(jù)中提取真正的商業(yè)價(jià)值則需要技術(shù)技能、數(shù)學(xué)知識(shí)、敘述能力和直覺(jué)的綜合能力。
對(duì)數(shù)據(jù)科學(xué)家的需求仍然很高,幾乎每個(gè)行業(yè)的公司都希望從其迅速增長(zhǎng)的信息資源中獲得最大價(jià)值。
“隨著企業(yè)開(kāi)始充分利用其內(nèi)部數(shù)據(jù)資產(chǎn)并審查整合的數(shù)百個(gè)第三方數(shù)據(jù)源,數(shù)據(jù)科學(xué)家的作用將繼續(xù)擴(kuò)大,”咨詢(xún)公司Protiviti董事格雷格·博伊德(Greg Boyd)說(shuō)。
“過(guò)去,負(fù)責(zé)數(shù)據(jù)的團(tuán)隊(duì)被委托到IT組織的后臺(tái)工作,執(zhí)行關(guān)鍵數(shù)據(jù)庫(kù)任務(wù),以保持各個(gè)企業(yè)系統(tǒng)得到數(shù)據(jù)‘燃料’的支持,從而允許公司高管報(bào)告運(yùn)營(yíng)情況并提交財(cái)務(wù)業(yè)績(jī),”博伊德說(shuō)。
這個(gè)角色很重要,但該業(yè)務(wù)的新星是那些精明的數(shù)據(jù)科學(xué)家,他們不僅能夠利用復(fù)雜的統(tǒng)計(jì)學(xué)和可視化技術(shù)處理大量數(shù)據(jù),而且極具智慧,他們可以從這些數(shù)據(jù)中獲取前瞻性的見(jiàn)解,博伊德說(shuō)。這些見(jiàn)解有助于預(yù)測(cè)潛在的結(jié)果并減輕對(duì)企業(yè)的潛在威脅。
那么,成為數(shù)據(jù)科學(xué)專(zhuān)家需要什么素質(zhì)呢?據(jù)IT主管、行業(yè)分析師、數(shù)據(jù)科學(xué)家和其他人士稱(chēng),以下特征和技能非常重要。
批判性思維
數(shù)據(jù)科學(xué)家需要是一名具有批判性的思考者,以便在提出意見(jiàn)或作出判斷之前,能夠?qū)μ囟ㄖ黝}或問(wèn)題進(jìn)行客觀(guān)的事實(shí)分析。
“他們需要了解業(yè)務(wù)問(wèn)題或做出決策,并能夠?qū)鉀Q問(wèn)題的關(guān)鍵環(huán)節(jié)進(jìn)行‘建模’或‘抽象’,而不是考慮那些無(wú)關(guān)緊要的問(wèn)題,”咨詢(xún)公司普華永道負(fù)責(zé)數(shù)據(jù)和分析的全球人工智能和創(chuàng)新主管安納德·拉奧(Anand Rao)說(shuō)。“這項(xiàng)技能比其他技能都重要,決定著其是否是一名成功的數(shù)據(jù)科學(xué)家。”
數(shù)據(jù)科學(xué)家需要有經(jīng)驗(yàn),但也要有能力暫時(shí)放棄一種觀(guān)念,Zeta Global公司(該公司提供基于云的營(yíng)銷(xiāo)平臺(tái))的首席信息官Jeffry Nimeroff補(bǔ)充說(shuō)。
“這一特征使你在任何領(lǐng)域工作時(shí)都能知道即將發(fā)生什么,但也知道經(jīng)驗(yàn)和直覺(jué)是不完美的,”Nimeroff說(shuō)。“如果我們過(guò)于自滿(mǎn),經(jīng)驗(yàn)雖會(huì)帶來(lái)好處,但并非沒(méi)有風(fēng)險(xiǎn)。這就是要懷疑某一信念的重要性。”
Nimeroff說(shuō),這不是用新手的眼光來(lái)看待事物,而是退后一步,從多個(gè)角度評(píng)估問(wèn)題或情況。
編寫(xiě)代碼
頂尖的數(shù)據(jù)科學(xué)家知道如何編寫(xiě)代碼,并且能夠輕松處理各種編程工作。
拉奧說(shuō):“數(shù)據(jù)科學(xué)所選擇的語(yǔ)言正向Python發(fā)展,而R語(yǔ)言也有大量的追隨者。”另外,還有其他一些正在使用的語(yǔ)言,如Scala、Clojure、Java和Octave。
“要成為非常成功的數(shù)據(jù)科學(xué)家,編程技能需要包含兩個(gè)方面:計(jì)算方面--處理大量數(shù)據(jù),處理實(shí)時(shí)數(shù)據(jù),云計(jì)算,非結(jié)構(gòu)化數(shù)據(jù)以及統(tǒng)計(jì)特性;和使用統(tǒng)計(jì)模型方面,如回歸、優(yōu)化、聚類(lèi)、決策樹(shù)、隨機(jī)森林等,”拉奧說(shuō)。
安全軟件公司邁克菲(McAfee)的首席數(shù)據(jù)科學(xué)家Celeste Fralick說(shuō),從20世紀(jì)90年代末開(kāi)始興起大數(shù)據(jù),它的影響要求越來(lái)越多的數(shù)據(jù)科學(xué)家要能理解并能使用諸如Python、C ++或Java等語(yǔ)言進(jìn)行編碼。
如果一個(gè)數(shù)據(jù)科學(xué)家不懂如何編寫(xiě)代碼,那么這就需要懂得編寫(xiě)代碼的人來(lái)幫助它。“將數(shù)據(jù)科學(xué)家與開(kāi)發(fā)人員結(jié)合起來(lái),這將是非常有成果的,”Fralick說(shuō)。
數(shù)學(xué)能力
對(duì)于不喜歡或不擅長(zhǎng)數(shù)學(xué)的人來(lái)說(shuō),數(shù)據(jù)科學(xué)可能不是一個(gè)好的職業(yè)選擇。
“在我們與全球各個(gè)組織的合作中,我們與希望為其開(kāi)發(fā)復(fù)雜財(cái)務(wù)或運(yùn)營(yíng)模式的客戶(hù)進(jìn)行接洽,”博伊德說(shuō)。“為了使這些模型具有統(tǒng)計(jì)相關(guān)性,就需要涉及大量的數(shù)據(jù)。數(shù)據(jù)科學(xué)家的角色就是利用他們?cè)跀?shù)學(xué)方面的深厚專(zhuān)業(yè)知識(shí),開(kāi)發(fā)出可用于制定或轉(zhuǎn)換關(guān)鍵業(yè)務(wù)戰(zhàn)略的統(tǒng)計(jì)模型。”
數(shù)據(jù)科學(xué)家是一位擅長(zhǎng)數(shù)學(xué)和統(tǒng)計(jì)學(xué)的奇才,同時(shí)具備與業(yè)務(wù)主管密切協(xié)作的能力,以便以一種可以讓人放心的方式來(lái)傳遞在復(fù)雜方程的“黑盒子”中實(shí)際發(fā)生的情況,從而企業(yè)可以相信其結(jié)果和建議,博伊德說(shuō)。
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能
Fralick表示,由于計(jì)算能力、連接性和收集的大量數(shù)據(jù),各個(gè)行業(yè)在這些領(lǐng)域正在飛速發(fā)展。“數(shù)據(jù)科學(xué)家需要在科研工作中保持領(lǐng)先,并了解何時(shí)應(yīng)用何種技術(shù),”她說(shuō)。“很多時(shí)候,當(dāng)數(shù)據(jù)科學(xué)家正在解決的實(shí)際問(wèn)題遠(yuǎn)不那么復(fù)雜時(shí),數(shù)據(jù)科學(xué)家會(huì)用一些‘吸引人’的新東西。”
數(shù)據(jù)科學(xué)家需要對(duì)即將解決的問(wèn)題有深入的了解,并且數(shù)據(jù)本身會(huì)說(shuō)明需要什么,F(xiàn)ralick說(shuō)。“意識(shí)到生態(tài)系統(tǒng)的計(jì)算成本、可解釋性、延遲、帶寬和其他系統(tǒng)邊界條件以及客戶(hù)的成熟度,這本身就可以幫助數(shù)據(jù)科學(xué)家理解應(yīng)使用哪種技術(shù)。”她說(shuō)道。只要他們了解這項(xiàng)技術(shù),情況確實(shí)如此。
統(tǒng)計(jì)技能也很有價(jià)值。Fralick說(shuō),大多數(shù)雇主都沒(méi)有考慮這些技能,因?yàn)楝F(xiàn)在的自動(dòng)化工具和開(kāi)源軟件已經(jīng)很容易獲得。“但是,了解統(tǒng)計(jì)學(xué)是理解這些工具和軟件所做假設(shè)的關(guān)鍵能力,”她說(shuō)。
數(shù)據(jù)存儲(chǔ)提供商美光科技公司(Micron Technology)的首席信息官特雷弗·舒爾茨(Trevor Schulze)說(shuō),僅僅理解機(jī)器學(xué)習(xí)算法的功能接口是不夠的。“為了選擇合適的算法,一位成功的數(shù)據(jù)科學(xué)家需要了解方法內(nèi)的統(tǒng)計(jì)數(shù)據(jù)和適當(dāng)?shù)臄?shù)據(jù)準(zhǔn)備技術(shù),以最大限度地提高任何模型的整體性能,”他說(shuō)。
舒爾茨說(shuō),計(jì)算機(jī)科學(xué)技能也很重要。因?yàn)閿?shù)據(jù)科學(xué)主要是在鍵盤(pán)上完成的,所以具有很強(qiáng)的軟件工程基礎(chǔ)是很有幫助的。
溝通能力
溝通技巧的重要性值得反復(fù)強(qiáng)調(diào)。在今天的技術(shù)中幾乎沒(méi)有什么是在真空中進(jìn)行的,各個(gè)系統(tǒng)、應(yīng)用程序、數(shù)據(jù)和人員之間總是存在一些整合。數(shù)據(jù)科學(xué)也不例外,能夠使用數(shù)據(jù)與多個(gè)利益相關(guān)者進(jìn)行交流是一個(gè)關(guān)鍵技能。
“擁有通過(guò)數(shù)據(jù)來(lái)‘講述故事’的能力,可將數(shù)學(xué)結(jié)果轉(zhuǎn)化為可操作的見(jiàn)解或干預(yù),”拉奧說(shuō)。“作為業(yè)務(wù)、技術(shù)和數(shù)據(jù)的交集,數(shù)據(jù)科學(xué)家需要善于向每個(gè)利益相關(guān)者講述故事。”
這包括向企業(yè)高管講述數(shù)據(jù)的商業(yè)利益;講述關(guān)于技術(shù)和計(jì)算資源;講述關(guān)于數(shù)據(jù)質(zhì)量、隱私和保密性方面的挑戰(zhàn);以及講述該組織關(guān)注的其他領(lǐng)域。
Nimeroff說(shuō),作為一名善于溝通的人,需要能夠?qū)⒕哂刑魬?zhàn)性的技術(shù)信息提煉成完整、準(zhǔn)確且易于表述的形式。“數(shù)據(jù)科學(xué)家必須記住,他們工作所帶來(lái)的結(jié)果可以并將用于支持企業(yè)做出定向型的行動(dòng),”他說(shuō)。“因此,能夠確保聽(tīng)者理解并欣賞向他們展示的所有內(nèi)容,包括問(wèn)題、數(shù)據(jù)、成功標(biāo)準(zhǔn)和結(jié)果,這是至關(guān)重要的。”
舒爾茨說(shuō),一位優(yōu)秀的數(shù)據(jù)科學(xué)家必須具備商業(yè)頭腦和好奇心,才能充分地與業(yè)務(wù)利益相關(guān)者進(jìn)行交談,以了解問(wèn)題并確定哪些數(shù)據(jù)可能是相關(guān)的。
另外,數(shù)據(jù)科學(xué)家需要能夠向業(yè)務(wù)領(lǐng)導(dǎo)者解釋一些算法。舒爾茨說(shuō):“講述算法是如何實(shí)現(xiàn)預(yù)測(cè)功能,這是贏(yíng)得領(lǐng)導(dǎo)者對(duì)作為其業(yè)務(wù)流程一部分的預(yù)測(cè)模型的信任的一項(xiàng)關(guān)鍵技能。”
數(shù)據(jù)架構(gòu)
數(shù)據(jù)科學(xué)家必須了解從開(kāi)始到建模到業(yè)務(wù)決策過(guò)程,其中數(shù)據(jù)到底發(fā)生了什么。
“不了解架構(gòu)會(huì)對(duì)樣本規(guī)模的推論和假設(shè)產(chǎn)生嚴(yán)重影響,往往會(huì)導(dǎo)致錯(cuò)誤的結(jié)果和決策,”Fralick說(shuō)。
更糟的是,在架構(gòu)內(nèi)部可能會(huì)發(fā)生變化。Fralick表示,如果不了解架構(gòu)內(nèi)變化對(duì)模型的影響,那么數(shù)據(jù)科學(xué)家可能會(huì)陷入“重新建模的風(fēng)暴中,或者突然發(fā)現(xiàn)模型不準(zhǔn)確而不理解其原因”。
雖然Hadoop通過(guò)將代碼傳遞給數(shù)據(jù)而不是相反,來(lái)提供大數(shù)據(jù),但了解數(shù)據(jù)流或數(shù)據(jù)管道的復(fù)雜性對(duì)保證基于事實(shí)的決策制定至關(guān)重要,F(xiàn)ralick表示。
風(fēng)險(xiǎn)分析、過(guò)程改進(jìn)和系統(tǒng)工程
一位優(yōu)秀的數(shù)據(jù)科學(xué)家需要了解分析業(yè)務(wù)風(fēng)險(xiǎn),改進(jìn)流程以及系統(tǒng)工程如何工作的概念。
“我了解的所有優(yōu)秀數(shù)據(jù)科學(xué)家都具備這些技能”,F(xiàn)ralick說(shuō)。“這些技能協(xié)調(diào)合作,不僅從內(nèi)在集中于數(shù)據(jù)科學(xué)家本身,而且從外在面向客戶(hù)。”
從內(nèi)在來(lái)說(shuō),數(shù)據(jù)科學(xué)家應(yīng)該記住其頭銜的另一部分,即科學(xué)家,并應(yīng)遵循合理的科學(xué)理論,F(xiàn)ralick說(shuō)。
在模型開(kāi)發(fā)開(kāi)始階段進(jìn)行風(fēng)險(xiǎn)分析可以降低風(fēng)險(xiǎn)。“表面上看,這些都是數(shù)據(jù)科學(xué)家在了解客戶(hù)想要解決什么問(wèn)題的所有技能,”她說(shuō)。
Fralick表示,將精力花在研究流程改進(jìn),理解公司內(nèi)在風(fēng)險(xiǎn)以及可能影響數(shù)據(jù)或模型結(jié)果的其他系統(tǒng),這可以讓客戶(hù)對(duì)數(shù)據(jù)科學(xué)家的努力更加滿(mǎn)意。
解決問(wèn)題和良好的商業(yè)直覺(jué)
Nimeroff說(shuō),一般來(lái)說(shuō),優(yōu)秀數(shù)據(jù)科學(xué)家所展現(xiàn)的特征與任何其他優(yōu)秀的問(wèn)題解決者所具備的特征都是相同的。“他們從多個(gè)角度看待世界,他們?cè)谀贸龉ぞ吖ぷ髦埃宄麄儜?yīng)該做什么,他們工作嚴(yán)謹(jǐn)而周全,并且能夠很好地解釋他們工作的結(jié)果,”Nimeroff說(shuō)。
當(dāng)評(píng)價(jià)如數(shù)據(jù)科學(xué)家等職位的技術(shù)專(zhuān)業(yè)人員時(shí),Nimeroff會(huì)尋找這些特征。“這種方法的成功率極高,并且也確保了潛在的優(yōu)勢(shì)得以最大化發(fā)揮,因?yàn)榕行运季S已經(jīng)變得最為重要。”
找到一位優(yōu)秀的數(shù)據(jù)科學(xué)家需要找到那些具有一些相互矛盾技能的人:有能力處理數(shù)據(jù)并創(chuàng)建實(shí)用的模型;對(duì)他們?cè)噲D解決的業(yè)務(wù)問(wèn)題、數(shù)據(jù)的結(jié)構(gòu)和細(xì)微差別以及模型如何工作有著直觀(guān)理解,商業(yè)軟件供應(yīng)商Paytronix Systems負(fù)責(zé)Paytronix Data Insights業(yè)務(wù)的主管李·邦尼士(Lee Barnes)說(shuō)道。
邦尼士說(shuō),“其中第一項(xiàng)技能是最容易找到的,大多數(shù)擁有良好數(shù)學(xué)技能并且擁有數(shù)學(xué)、統(tǒng)計(jì)學(xué)、工程學(xué)或其他科學(xué)學(xué)科學(xué)位的人,都可能具備這樣的智力和技能。“第二項(xiàng)技能很難找到。令人驚訝的是,我們面試的很多人都能建立復(fù)雜的模型,但當(dāng)詢(xún)問(wèn)他們?yōu)槭裁此麄冋J(rèn)為其模型是有效的或?yàn)槭裁此麄冞x擇采用該方法時(shí),他們無(wú)法給出一個(gè)合理的答案。”
這些人很可能能夠解釋一個(gè)模型的準(zhǔn)確性,“但是,他們不理解其模型為什么以及如何工作,因此就很難對(duì)他們的模型有很大的信心,”邦尼士說(shuō)。“那些對(duì)他們所做工作有更深入的了解和直覺(jué)的人,才是真正的數(shù)據(jù)科學(xué)專(zhuān)家,并且他們才可能在這個(gè)領(lǐng)域擁有成功的職業(yè)生涯。”