很長(zhǎng)一段時(shí)間以來(lái),數(shù)據(jù)科學(xué)一直被視為科技和商業(yè)領(lǐng)域的下一次重大革命。最近幾年增加了不少使用數(shù)據(jù)科學(xué)應(yīng)用的企業(yè)。根據(jù)Statista的數(shù)據(jù),截至2021年,近60%的公司在其團(tuán)隊(duì)中擁有至少50名數(shù)據(jù)科學(xué)家。
然而,如果客觀地看待,數(shù)據(jù)科學(xué)提供的結(jié)果與它的期望并不匹配。許多將數(shù)據(jù)科學(xué)方法應(yīng)用于數(shù)據(jù)的企業(yè)經(jīng)常發(fā)現(xiàn)他們的數(shù)據(jù)科學(xué)項(xiàng)目是不可行的。
導(dǎo)致這種結(jié)果的一個(gè)重要原因是不能正確執(zhí)行數(shù)據(jù)科學(xué)的程序。其他原因通常包括對(duì)業(yè)務(wù)問(wèn)題缺乏了解、項(xiàng)目設(shè)計(jì)不一致以及將數(shù)據(jù)洞察力轉(zhuǎn)化為可操作結(jié)果的能力不足。
數(shù)據(jù)科學(xué)是復(fù)雜的,公司需要使用一些最佳實(shí)踐來(lái)更好地實(shí)施數(shù)據(jù)科學(xué)程序。
在本文中,我們將討論公司可以參考哪些實(shí)踐,以提高數(shù)據(jù)科學(xué)工作的成功率。首先讓我們了解一些數(shù)據(jù)科學(xué)的基本概念。
解讀數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)聽(tīng)起來(lái)好像類(lèi)似于比特幣、NFT、加密等IT流行語(yǔ)。但是拋開(kāi)炒作,我們會(huì)看到一個(gè)多層次的領(lǐng)域,是融合了數(shù)學(xué)推理和計(jì)算機(jī)編程等多個(gè)方面來(lái)理解數(shù)據(jù)。
與看起來(lái)相反的是,數(shù)據(jù)科學(xué)并不是一個(gè)新的IT術(shù)語(yǔ)。在20世紀(jì)后期它的用途接近于統(tǒng)計(jì),意思是有組織的數(shù)據(jù)文檔。
數(shù)據(jù)科學(xué)從根本上說(shuō)是大數(shù)據(jù)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等學(xué)科的擴(kuò)充和結(jié)合。現(xiàn)在,它本質(zhì)上是指收集和分析一個(gè)公司或組織的非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)科學(xué)家是記錄和解讀龐大和雜亂數(shù)據(jù)的專(zhuān)業(yè)人士,他們使用數(shù)學(xué)能力、編碼技能和一系列有關(guān)數(shù)據(jù)庫(kù)、計(jì)算和通信等技能來(lái)處理數(shù)據(jù)并得出相關(guān)見(jiàn)解。然后,公司利用這些見(jiàn)解來(lái)改善他們的客戶服務(wù)、產(chǎn)品質(zhì)量、組織間溝通等等。
數(shù)據(jù)科學(xué)正逐漸成為一些組織夢(mèng)寐以求的資產(chǎn),隨著時(shí)間的推移,它必將獲得更多的關(guān)注。
10 個(gè)有效的數(shù)據(jù)科學(xué)最佳實(shí)踐操作指南
到目前為止,我們已經(jīng)收集了有關(guān)數(shù)據(jù)科學(xué)的定義和目標(biāo)的信息。現(xiàn)在讓我們看看公司可以遵守的一些數(shù)據(jù)科學(xué)實(shí)踐操作,以便更好地利用數(shù)據(jù)科學(xué)的優(yōu)勢(shì)。
1. 在組織中建立專(zhuān)門(mén)的數(shù)據(jù)科學(xué)計(jì)劃
公司不能充分利用其數(shù)據(jù)科學(xué)能力的一個(gè)主要原因是缺乏專(zhuān)門(mén)的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施。通常情況下,公司由兩到三個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)組成,他們同時(shí)從事不同的工作。他們沒(méi)有成文的工作方式,也缺乏衡量他們完成的每項(xiàng)任務(wù)是否成功所需的指標(biāo)。
此外,在許多情況下,這些團(tuán)隊(duì)缺乏必要的技術(shù)支持,無(wú)法發(fā)揮其潛力。因此,這些團(tuán)隊(duì)為企業(yè)的整體發(fā)展提供的價(jià)值并不大。
為了更好地利用其數(shù)據(jù)科學(xué)團(tuán)隊(duì)未被充分利用的能力,每個(gè)企業(yè)都需要鼓勵(lì)建立一個(gè)數(shù)據(jù)科學(xué)計(jì)劃,其中包括:
1.數(shù)據(jù)科學(xué)計(jì)劃的目標(biāo)
2.為自己配備必要的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施(訓(xùn)練有素的專(zhuān)家、性能優(yōu)越的設(shè)備等)
3.交付路線圖
4.績(jī)效衡量標(biāo)準(zhǔn)
2. 創(chuàng)建有能力的團(tuán)隊(duì),而不是尋找獨(dú)角獸
獨(dú)角獸指的是一種神話般的生物,它像一匹馬,額頭上有角。在流行文化中,這個(gè)詞被用作比喻許多人渴望但難以獲得的東西。
在數(shù)據(jù)科學(xué)的語(yǔ)境里,獨(dú)角獸這個(gè)詞指的是一個(gè)人,更具體地說(shuō)是一個(gè)數(shù)據(jù)科學(xué)家,他擁有企業(yè)所需的幾乎所有數(shù)據(jù)科學(xué)技能。
與獨(dú)角獸的定義一樣,數(shù)據(jù)科學(xué)獨(dú)角獸是一種罕見(jiàn)的現(xiàn)象。
這意味著,企業(yè)應(yīng)該優(yōu)先建立跨職能的數(shù)據(jù)科學(xué)團(tuán)隊(duì),而不是尋找一個(gè)全能型的人。
典型的跨職能或跨學(xué)科數(shù)據(jù)科學(xué)團(tuán)隊(duì)由以下人員組成:
數(shù)據(jù)工程師,負(fù)責(zé)收集、轉(zhuǎn)換和匯集未經(jīng)提煉的數(shù)據(jù),為團(tuán)隊(duì)其他成員提供可訪問(wèn)和可用的信息。
機(jī)器學(xué)習(xí)專(zhuān)家,創(chuàng)建ML數(shù)據(jù)模型,以識(shí)別所收集數(shù)據(jù)的模式。
DevOps工程師,來(lái)部署和維護(hù)ML數(shù)據(jù)模型。
商業(yè)分析師,了解公司的要求以及它所瞄準(zhǔn)的市場(chǎng)。
一個(gè)團(tuán)隊(duì)領(lǐng)導(dǎo),來(lái)正確引導(dǎo)團(tuán)隊(duì)。
跨職能團(tuán)隊(duì)是獨(dú)角獸的更好選擇,因?yàn)樗麄兛梢裕?/span>
1.分擔(dān)工作量
2.在解決問(wèn)題時(shí)提供不同的觀點(diǎn)
3.改善整體決策
3. 在著手解決問(wèn)題之前,先徹底定義問(wèn)題
能整體性地描述數(shù)據(jù)科學(xué)問(wèn)題的能力再怎么強(qiáng)調(diào)也不為過(guò),甚至包括描述最細(xì)微的細(xì)節(jié)。
揭示問(wèn)題的細(xì)節(jié)使數(shù)據(jù)科學(xué)家能夠檢查其每個(gè)組成部分,并根據(jù)具體參數(shù)(例如優(yōu)先級(jí)、清晰度、可用數(shù)據(jù)和投資回報(bào)率)對(duì)其進(jìn)行衡量。這也使他們能夠確定處理該問(wèn)題所需的主要和次要利益相關(guān)者。一旦定義了問(wèn)題,數(shù)據(jù)科學(xué)家就可以將數(shù)據(jù)收集、分析和解釋系統(tǒng)化。
然而,這個(gè)看似基本的問(wèn)題,卻沒(méi)有多少公司在開(kāi)展數(shù)據(jù)科學(xué)業(yè)務(wù)時(shí)關(guān)注它。他們反而含糊其辭地解釋問(wèn)題,使數(shù)據(jù)科學(xué)家的工作更加復(fù)雜。
因此,在嘗試解決問(wèn)題之前,公司需要將其刨根問(wèn)底,暴露其所有要素和要求。
4. 確保POC在明確的用例上運(yùn)行
POC(概念證明)對(duì)于任何數(shù)據(jù)科學(xué)項(xiàng)目都至關(guān)重要,因?yàn)樗鼈儧Q定了數(shù)據(jù)模型或數(shù)據(jù)科學(xué)解決方案是否可行。它本質(zhì)上是更廣泛的數(shù)據(jù)科學(xué)解決方案的測(cè)試用例,它決定了公司的數(shù)據(jù)科學(xué)計(jì)劃是否能夠滿足其需求。
首先,運(yùn)行POC需要一個(gè)用例。而正是對(duì)用例的選擇,可以決定POC進(jìn)入生產(chǎn)階段的前景。因此,數(shù)據(jù)科學(xué)家應(yīng)該選擇最合適的用例,在運(yùn)行POC時(shí)提供可量化的結(jié)果。
此外,用例應(yīng)表示關(guān)鍵業(yè)務(wù)問(wèn)題或一系列問(wèn)題,以便為 POC 提供具體和相關(guān)的測(cè)量標(biāo)準(zhǔn)。
5. 確定并列出所有KPI指標(biāo)
是什么決定了一家公司的數(shù)據(jù)科學(xué)工作是否取得了足夠的成果?就是與之并列的關(guān)鍵績(jī)效指標(biāo)(KPI)。
目前,雖然大多數(shù)實(shí)施數(shù)據(jù)科學(xué)的公司都有一套業(yè)務(wù)目標(biāo),但他們?nèi)狈σ欢ǖ年P(guān)鍵績(jī)效指標(biāo)來(lái)監(jiān)測(cè)他們實(shí)現(xiàn)這些目標(biāo)的進(jìn)展。
因此,企業(yè)需要預(yù)留某些可衡量的關(guān)鍵績(jī)效指標(biāo),如投資回報(bào)率、每個(gè)消費(fèi)者的收入增長(zhǎng)百分比、CSAT得分等,以確定其數(shù)據(jù)科學(xué)項(xiàng)目的可行性。
例如,如果企業(yè)部署了優(yōu)化算法來(lái)增加收入,它可以使用月銷(xiāo)售額、網(wǎng)站訪問(wèn)者數(shù)量等績(jī)效指標(biāo)。
6. 強(qiáng)調(diào)對(duì)利益相關(guān)者的適當(dāng)管理
根據(jù)數(shù)據(jù)科學(xué)術(shù)語(yǔ),利益相關(guān)者是使用數(shù)據(jù)科學(xué)家提供的數(shù)據(jù)的個(gè)人。他們可以是內(nèi)部的,例如使用數(shù)據(jù)促進(jìn)業(yè)務(wù)增長(zhǎng)的業(yè)務(wù)分析師,也可以是外部的,如使用數(shù)據(jù)科學(xué)家解釋數(shù)據(jù)結(jié)果的客戶。
現(xiàn)在,數(shù)據(jù)科學(xué)主要處理的是數(shù)據(jù)。但是,牢記計(jì)劃使用它的個(gè)人——利益相關(guān)者,也是必要的。
這樣做可以確保數(shù)據(jù)科學(xué)家不僅分析數(shù)據(jù),還分析與之相關(guān)的人為因素。換句話說(shuō),管理利益相關(guān)者使數(shù)據(jù)科學(xué)家能夠與人一起合作,而不僅僅是數(shù)據(jù)。
為了有效管理利益相關(guān)者,數(shù)據(jù)科學(xué)家應(yīng)實(shí)施以下策略:
1.建立透明的溝通渠道
2.將項(xiàng)目的所有可能結(jié)果進(jìn)行反饋
3.尋求反饋
4.發(fā)起合作努力
7. 基于利益相關(guān)者的數(shù)據(jù)科學(xué)文檔
文檔對(duì)于任何數(shù)據(jù)科學(xué)項(xiàng)目都至關(guān)重要。
適當(dāng)?shù)赜涗浺粋€(gè)項(xiàng)目的所有方面,可以讓利益相關(guān)者更好地理解和利用其數(shù)據(jù)。
但是,無(wú)論文檔有多好,如果你不能將數(shù)據(jù)科學(xué)項(xiàng)目的具體內(nèi)容傳達(dá)給正確的利益相關(guān)者,那么項(xiàng)目可能就不會(huì)變得那么有效。
因此,你應(yīng)該根據(jù)所涉及的利益相關(guān)者的要求和專(zhuān)業(yè)來(lái)記錄一個(gè)項(xiàng)目,而不是采取"一刀切"的方式。
8. 學(xué)會(huì)用適當(dāng)?shù)墓ぞ邅?lái)匹配數(shù)據(jù)科學(xué)工作
這一點(diǎn)似乎很明顯,但是將正確的數(shù)據(jù)科學(xué)項(xiàng)目與正確的工具配對(duì)需要高超的技能和對(duì)數(shù)據(jù)科學(xué)的適應(yīng)性。
可以選擇的工具:
1.選擇合適的數(shù)據(jù)可視化軟件
2.衡量項(xiàng)目的云存儲(chǔ)容量
3.選擇合適的編程語(yǔ)言
4.評(píng)估當(dāng)前數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施的可擴(kuò)展性
5.確定解決手頭問(wèn)題的正確方法
要做好這種數(shù)據(jù)科學(xué)操作的前提是,準(zhǔn)備好工作所需的工具有助于數(shù)據(jù)科學(xué)家更快、更有效地處理數(shù)據(jù)。
9. 融入敏捷方法論
如果剝?nèi)ニ械拿枋龊筮M(jìn)行概括,敏捷方法論指出,軟件開(kāi)發(fā)應(yīng)該分塊進(jìn)行,溝通和互動(dòng)是關(guān)鍵。
目前雖然有些人可能不同意,但將敏捷方法運(yùn)用到數(shù)據(jù)科學(xué)項(xiàng)目中會(huì)有奇效。
敏捷框架基本上將一個(gè)項(xiàng)目分為幾個(gè)沖刺階段,時(shí)間限制通常為幾周,數(shù)據(jù)科學(xué)家在其中從事項(xiàng)目的特定方面。
每個(gè)沖刺都是在與利益相關(guān)者互動(dòng)后啟動(dòng)的,以概述其要求,確定利益相關(guān)者的預(yù)算,為他們提供交付計(jì)劃,并確定要完成的任務(wù)的優(yōu)先級(jí)。
在每個(gè)沖刺階段結(jié)束時(shí),都會(huì)進(jìn)行審查以評(píng)估迄今為止所做的工作。
10. 掌握數(shù)據(jù)道德規(guī)范
數(shù)據(jù)模型的執(zhí)行是客觀的,但數(shù)據(jù)科學(xué)家不是。因此,數(shù)據(jù)科學(xué)家必須建立不違反數(shù)據(jù)收集、分析和解釋的道德模型。
不遵守?cái)?shù)據(jù)倫理可能會(huì)以多種方式嚴(yán)重影響公司的信譽(yù)和聲譽(yù)。
結(jié)論
以上就是10個(gè)數(shù)據(jù)科學(xué)最佳實(shí)踐操作指南的清單,可以幫助你的數(shù)據(jù)科學(xué)事業(yè)。
數(shù)據(jù)科學(xué)是一個(gè)快速發(fā)展的領(lǐng)域,其應(yīng)用范圍與日俱增。如果實(shí)施得當(dāng),數(shù)據(jù)科學(xué)可以成為企業(yè)的重要組成部分,并大大促進(jìn)其增長(zhǎng)。唯一的問(wèn)題是,公司應(yīng)該為自己配備足夠的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施,雇用合適的人,進(jìn)行廣泛的合作并遵循上述最佳實(shí)踐操作指南,以使他們的數(shù)據(jù)科學(xué)成果發(fā)揮最大的作用。
譯者介紹
翟珂,51CTO社區(qū)編輯,目前在杭州從事軟件研發(fā)工作,做過(guò)電商、征信等方面的系統(tǒng),享受分享知識(shí)的過(guò)程,充實(shí)自己的生活。
參考鏈接:https://www.datasciencecentral.com/10-best-practices-for-data-science