從人工智能到團(tuán)隊(duì)合作:數(shù)據(jù)科學(xué)家的七項(xiàng)關(guān)鍵技能
如今的數(shù)據(jù)科學(xué)家具有的技能不僅需要精通人工智能和Python,還需要擅長(zhǎng)與企業(yè)高管進(jìn)行溝通。
美國(guó)勞工統(tǒng)計(jì)局將數(shù)據(jù)科學(xué)家列為未來(lái)增長(zhǎng)最快的15個(gè)職業(yè)之一,預(yù)計(jì)在未來(lái)10年的工作崗位增長(zhǎng)率將達(dá)到31%。隨著數(shù)據(jù)日益成為所有企業(yè)的命脈,數(shù)據(jù)科學(xué)家不僅需要具備過(guò)硬的知識(shí)和技能,還需要具備強(qiáng)大的商業(yè)頭腦。
1.機(jī)器學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)技能
2021年,機(jī)器學(xué)習(xí)方法(如遷移學(xué)習(xí)和Transformer)將引起很多關(guān)注,因?yàn)樗鼈冋谘杆偻苿?dòng)許多不同領(lǐng)域的創(chuàng)新。對(duì)于構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò),PyTorch背后有很大的推動(dòng)力,Keras和TensorFlow也是常用的。還有豐富的軟件庫(kù)生態(tài)系統(tǒng),其中許多是開源的,可以幫助加速機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)應(yīng)用程序。
人工智能威脅檢測(cè)和響應(yīng)服務(wù)提供商Vectra公司數(shù)據(jù)科學(xué)高級(jí)主管Matthew Silver說(shuō):“數(shù)據(jù)科學(xué)家可以通過(guò)對(duì)機(jī)器學(xué)習(xí)算法的工作原理和工作方式來(lái)展示自己的魅力,這對(duì)于克服培訓(xùn)和測(cè)試過(guò)程中不可避免的挑戰(zhàn)非常重要。ONNX是一種神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn),促進(jìn)了平臺(tái)、庫(kù)和語(yǔ)言獨(dú)立的模型部署,幫助我們簡(jiǎn)化了生產(chǎn)中人工智能的使用,并加快了建模工作。”
2.編程技能
對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),為探索性分析、數(shù)據(jù)預(yù)處理和算法訓(xùn)練以及在某些情況下在生產(chǎn)中部署模型編寫高質(zhì)量且可維護(hù)的代碼非常重要。Python、JavaScript、R和Scala是最適合開發(fā)的語(yǔ)言。另一個(gè)有用的技能是了解如何從其他人可以部署的模型構(gòu)建WebAPI。
Silver說(shuō),“能夠在工作中開始使用通用軟件庫(kù)來(lái)構(gòu)建模型的數(shù)據(jù)科學(xué)家是最具競(jìng)爭(zhēng)力的,并且在幾乎所有情況下,具有強(qiáng)大的軟件開發(fā)技能都是加分項(xiàng)。”
3.了解云計(jì)算
了解云計(jì)算工程原理和云計(jì)算基礎(chǔ)設(shè)施的數(shù)據(jù)科學(xué)家對(duì)于雇主來(lái)說(shuō)更具吸引力。這意味著需要三大公有云提供商(微軟、AWS、谷歌)提供的云計(jì)算服務(wù)。每個(gè)云計(jì)算供應(yīng)商都為數(shù)據(jù)科學(xué)家提供了一套全面的工具,用于數(shù)據(jù)提取、數(shù)據(jù)清理、可視化和機(jī)器學(xué)習(xí)目的。
網(wǎng)絡(luò)資產(chǎn)管理和治理解決方案提供商Jupiter One公司首席架構(gòu)師Phillip Gates-Idem說(shuō),“我們正在尋求熟悉云計(jì)算基礎(chǔ)設(shè)施、持續(xù)集成(CI)/持續(xù)交付(CD)管道和自動(dòng)化的數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家需要對(duì)如何使用云計(jì)算基礎(chǔ)設(shè)施構(gòu)建和使用工具有著深刻的了解。”
4.統(tǒng)計(jì)數(shù)據(jù)
統(tǒng)計(jì)學(xué)是一個(gè)數(shù)學(xué)領(lǐng)域,旨在使用給定數(shù)據(jù)集的模型和表示來(lái)收集和解釋定量數(shù)據(jù),是數(shù)據(jù)科學(xué)的核心,其中包括概率、可變性、回歸和集中趨勢(shì)等概念。
IT咨詢機(jī)構(gòu)Netrix公司的首席架構(gòu)師Lars Kemmann說(shuō),“如果沒(méi)有深入了解統(tǒng)計(jì)學(xué)(數(shù)據(jù)科學(xué)的核心)以及如何將合理的數(shù)學(xué)推理應(yīng)用于正在處理的問(wèn)題,那么我們不在乎采用多少平臺(tái)或語(yǔ)言。我認(rèn)為招聘這樣的人才是目前行業(yè)面臨的一個(gè)挑戰(zhàn)。”
5.項(xiàng)目管理
由于數(shù)據(jù)科學(xué)項(xiàng)目可能涉及漫長(zhǎng)的探索階段,甚至在后期也存在多個(gè)未知因素,因此項(xiàng)目管理是數(shù)據(jù)科學(xué)家需要具備的另一項(xiàng)關(guān)鍵技能。例如采用敏捷方法,可以讓數(shù)據(jù)科學(xué)家根據(jù)需求和目標(biāo)確定優(yōu)先級(jí)并創(chuàng)建路線圖。
Silver解釋說(shuō),““通常很難預(yù)測(cè)開發(fā)和訓(xùn)練機(jī)器學(xué)習(xí)模型需要多長(zhǎng)時(shí)間,,等待更新模型或結(jié)果的企業(yè)往往會(huì)有時(shí)間表和計(jì)劃,因?yàn)檫@種不可預(yù)測(cè)性而受到影響。數(shù)據(jù)科學(xué)家能夠通過(guò)從一開始就了解局限性、隨著工作的進(jìn)展傳達(dá)項(xiàng)目狀態(tài),并預(yù)測(cè)他們何時(shí)能夠提供下一個(gè)有意義的讀數(shù),從而掌控主要建模工作,他們將在我們的團(tuán)隊(duì)中發(fā)揮著重要作用。”
6.數(shù)據(jù)講故事/可視化
盡管企業(yè)的數(shù)據(jù)可能具有巨大的潛在價(jià)值,但除非能夠發(fā)現(xiàn)這些見解并將其轉(zhuǎn)化為行動(dòng)或業(yè)務(wù)成果,否則無(wú)法創(chuàng)造任何價(jià)值。Plotly、Tableau和D3是當(dāng)今需求量最大的數(shù)據(jù)科學(xué)可視化和講故事的工具。
Kemmann說(shuō),“當(dāng)客戶不了解企業(yè)在做什么時(shí),他們很容易低估企業(yè)所做的工作,尤其是在數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)科學(xué)家以企業(yè)的客戶可以理解的語(yǔ)言清楚地解釋每個(gè)步驟的過(guò)程和好處,并在可能的情況下通過(guò)適當(dāng)?shù)臄?shù)據(jù)可視化提供支持,這是其工作角色的關(guān)鍵部分。”
7.溝通能力
數(shù)據(jù)科學(xué)家現(xiàn)在比以往任何時(shí)候都有更多的機(jī)會(huì)“親自動(dòng)手”處理數(shù)據(jù),但這需要對(duì)業(yè)務(wù)目標(biāo)有很強(qiáng)的理解,并有能力清楚地傳達(dá)和解釋技術(shù)術(shù)語(yǔ)。能夠?qū)?shù)據(jù)轉(zhuǎn)化為有用術(shù)語(yǔ)的數(shù)據(jù)科學(xué)家能夠增加額外價(jià)值。
IT人力資源提供商RobertHalf Technology公司區(qū)域經(jīng)理Joshua Drew說(shuō),“能夠?qū)⑦@些數(shù)據(jù)轉(zhuǎn)化為清晰、易于理解的業(yè)務(wù)信息將是一項(xiàng)巨大的技能,而數(shù)據(jù)科學(xué)家并不總是具備這些軟技能,或者具備能夠向企業(yè)高管澄清其決策過(guò)程的經(jīng)驗(yàn)。”