案例研究:在大型金融組織選擇大數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)
數(shù)據(jù)科學(xué)正快速成為各行各業(yè)開(kāi)發(fā)人員和管理人員的關(guān)鍵技能,同時(shí)它似乎也非常有趣。但它也相當(dāng)復(fù)雜——有太多的工程分析技術(shù),你很難知道自己做得是否正確或者哪里存在陷阱。在該系列文章中,我們將探討如何利用數(shù)據(jù)科學(xué)——從已經(jīng)采用并成功實(shí)施數(shù)據(jù)科學(xué)的人們那里,了解數(shù)據(jù)科學(xué)的適用場(chǎng)景,以及如何讓它成為你的資產(chǎn)。
本文要點(diǎn)
- 將大數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)應(yīng)用到企業(yè)組織里是變革性的項(xiàng)目,它有點(diǎn)類(lèi)似向敏捷組織轉(zhuǎn)型,同樣充滿(mǎn)了挑戰(zhàn)。
- 如果能獲得高層領(lǐng)導(dǎo)的支持并讓利益相關(guān)者參與進(jìn)來(lái),那么使用敏捷方法進(jìn)行此類(lèi)業(yè)務(wù)轉(zhuǎn)型會(huì)有顯著的效果。
- 在談?wù)摷夹g(shù)選型之前,首先要關(guān)注戰(zhàn)略性的業(yè)務(wù)產(chǎn)出以及企業(yè)組織對(duì)新功能的需求。讓每個(gè)利益相關(guān)者對(duì)新功能的優(yōu)先級(jí)排序都有發(fā)言權(quán),并就后續(xù)技術(shù)選型進(jìn)行合作。
- 避免在既不能跟上需求變化又不能獲得額外收益的技術(shù)上加倍投入。
- 要注意在開(kāi)放數(shù)據(jù)和保持?jǐn)?shù)據(jù)安全之間存在的矛盾。在安全問(wèn)題上,覺(jué)察力(perception)也很重要,不僅要遵守而且要格外注意。
企業(yè)組織現(xiàn)在越來(lái)越多地采用數(shù)據(jù)科學(xué)和高級(jí)分析技術(shù),也越來(lái)越多地影響著決策、產(chǎn)品和服務(wù)。因此經(jīng)常有人問(wèn)到:數(shù)據(jù)科學(xué)最好的工具集是什么?從表面上看,這個(gè)問(wèn)題似乎是關(guān)于技術(shù)之間的比較。結(jié)果你可能需要審閱一長(zhǎng)串關(guān)于R、Spark ML及其相關(guān)技術(shù)(如Jupyter或Zeppelin)的利弊列表。我們的確可以寫(xiě)出一系列有關(guān)技術(shù)比較的文章。然而,對(duì)企業(yè)組織而言,首要問(wèn)題是什么功能能夠支持其未來(lái)的業(yè)務(wù)目標(biāo)。關(guān)注這些可以讓技術(shù)選型變得更容易,并且降低浪費(fèi)時(shí)間和精力的風(fēng)險(xiǎn)。
我們?nèi)绾尾拍苓_(dá)成共識(shí),以務(wù)實(shí)和富有成效的方式進(jìn)行有關(guān)技術(shù)選型的討論?在這篇文章中,我們通過(guò)實(shí)際案例來(lái)探討什么才是合適的框架。對(duì)企業(yè)組織來(lái)說(shuō),最典型的切入點(diǎn)是那些大量存在的數(shù)據(jù)孤島(silos)和過(guò)度采用的技術(shù)。你不想僅僅因?yàn)槔嫦嚓P(guān)者的要求而增加更多的技術(shù)和數(shù)據(jù)孤島。新的技術(shù)和基礎(chǔ)設(shè)施應(yīng)取代現(xiàn)有技術(shù)并替換數(shù)據(jù)孤島。但在現(xiàn)今的大環(huán)境下要做到這點(diǎn)并不容易,因?yàn)閭鹘y(tǒng)分析技術(shù)和商業(yè)智能供應(yīng)商聲稱(chēng)他們擁有針對(duì)新挑戰(zhàn)的解決方案,同時(shí)還有大量的新技術(shù)出現(xiàn),其中許多是開(kāi)源的,這提供了更多的選擇。新技術(shù)通常都宣稱(chēng)能取代傳統(tǒng)工具,并提供傳統(tǒng)工具無(wú)法企及的功能。而傳統(tǒng)技術(shù)則反駁說(shuō)它們能提供更好的企業(yè)品質(zhì),比如安全和支持。
我們?cè)谶@里討論的現(xiàn)實(shí)案例中的客戶(hù)在一年多前與我的雇主聯(lián)系,他們?cè)诙唐诤烷L(zhǎng)期的戰(zhàn)略需求方面面臨著巨大挑戰(zhàn)。這家FTSE 100公司正處于其生命周期中的轉(zhuǎn)型時(shí)刻。它的整個(gè)組織結(jié)構(gòu)發(fā)生了顯著變化,需要重新改造其部分現(xiàn)有平臺(tái),因?yàn)樗至训慕M織結(jié)構(gòu)和依賴(lài)項(xiàng)不可維護(hù),無(wú)法創(chuàng)造商業(yè)價(jià)值。在我們來(lái)看,客戶(hù)的迫切需求是:在極短的期限內(nèi),用一種完全透明的方式,混合集成歷史數(shù)據(jù),解決高級(jí)報(bào)告和新數(shù)據(jù)平臺(tái)分析技術(shù)所面臨的問(wèn)題。客戶(hù)現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基于應(yīng)用技術(shù),十分昂貴且有局限性。如果不投入大量資金并且增添新興的分析功能,新的報(bào)告和高級(jí)分析功能執(zhí)行起來(lái)會(huì)極其緩慢甚至無(wú)法執(zhí)行。
成本和局限性是重點(diǎn)關(guān)注對(duì)象。我們的客戶(hù)意識(shí)到由于可預(yù)見(jiàn)的突破性技術(shù)變革,市場(chǎng)競(jìng)爭(zhēng)正變得越來(lái)越激烈,從長(zhǎng)遠(yuǎn)來(lái)看,源于核心業(yè)務(wù)活動(dòng)的價(jià)值將不可避免地縮減。企業(yè)組織的領(lǐng)導(dǎo)者意識(shí)到他們迫切需要開(kāi)發(fā)新的功能,以便在處理完當(dāng)前的緊急需求后立即為企業(yè)的未來(lái)發(fā)展做好準(zhǔn)備。
我們與主要利益相關(guān)者合作制定了一個(gè)計(jì)劃,將主要數(shù)據(jù)集集中在一個(gè)中心區(qū)域,便于在企業(yè)未來(lái)的新一輪變革中靈活處理和分析。值得注意的是,我們并沒(méi)有放棄核心數(shù)據(jù)倉(cāng)庫(kù),只是把它還原到原先的角色。然而,我們?nèi)匀粫?huì)逐步淘汰大量的舊系統(tǒng),這些系統(tǒng)大多數(shù)存有數(shù)據(jù)并且難以訪(fǎng)問(wèn)。同時(shí),要保證數(shù)據(jù)在不同平臺(tái)上正常流動(dòng),以確保監(jiān)管和安全。我們因此把高級(jí)分析技術(shù)和數(shù)據(jù)科學(xué)技術(shù)問(wèn)題延后討論。這是可行的,因?yàn)樾缕脚_(tái)可以在必要時(shí)根據(jù)需要采用那些相關(guān)技術(shù)。采用這種方法給客戶(hù)帶來(lái)的好處是顯而易見(jiàn)的。未來(lái)的業(yè)務(wù)仍在不斷變化,而眼前的業(yè)務(wù)需求需要馬上得到解決。將決策和實(shí)施分階段實(shí)施,且不阻礙平臺(tái)的創(chuàng)新,這是一個(gè)雙贏的解決方案。
第一個(gè)教訓(xùn)是避免在跟不上需求變化的技術(shù)上加倍投入。此外,尤為重要的是不要進(jìn)行一對(duì)一的技術(shù)匹配。比如不要用一種相似的技術(shù)替換原有技術(shù),這樣做得到的效益十分有限。我們要考量這些技術(shù)給組織帶來(lái)的成本支出和它們所能為組織提供的功能。大家總是希望借由更少更便宜的技術(shù)來(lái)降低成本,并指望它們能提供更多業(yè)務(wù)功能。理想情況是我們可以?xún)烧呒骖?。在這個(gè)案例中,我們?cè)谔蕴f系統(tǒng)的同時(shí)減少了數(shù)據(jù)倉(cāng)庫(kù)占用的空間,節(jié)省下來(lái)的資源可用于新的分析技術(shù)平臺(tái),這反過(guò)來(lái)取代了一些原有功能并增加了相關(guān)的新功能。
有了這個(gè)概念,我們就可以專(zhuān)注于我們正在努力實(shí)現(xiàn)的目標(biāo)?,F(xiàn)在的企業(yè)和以前的企業(yè)所面臨的挑戰(zhàn)是相同的。他們必須降低成本,提高盈利能力,不斷改進(jìn)以保持合規(guī),并且在這個(gè)被服務(wù)自動(dòng)化和商品化所驅(qū)動(dòng)的環(huán)境里,可能還需要重新定義其核心業(yè)務(wù)。例如,過(guò)去幾年中,數(shù)據(jù)和對(duì)數(shù)據(jù)的有效利用正在成為應(yīng)對(duì)這些挑戰(zhàn)的關(guān)鍵機(jī)會(huì)。
問(wèn)題在于大多數(shù)企業(yè)組織不知道該如何尋求答案甚至不知道問(wèn)題出在哪里。在各個(gè)業(yè)務(wù)領(lǐng)域內(nèi)通常都有一些唾手可得的短期機(jī)會(huì),它們將給現(xiàn)狀帶來(lái)完全可預(yù)期的改進(jìn)。但大多數(shù)利益相關(guān)者已經(jīng)習(xí)慣于自身的局限性,他們需要打破這種局限。當(dāng)問(wèn)及他們想要實(shí)現(xiàn)什么時(shí),他們要么把思考局限在企業(yè)組織現(xiàn)有的功能范圍內(nèi),要么為了解決未來(lái)的未知需求而要求那些不切實(shí)際的東西。
因此那些包括重新定位自身核心業(yè)務(wù)在內(nèi)的長(zhǎng)期基礎(chǔ)性需求通常很難甚至無(wú)法得到滿(mǎn)足。所以第二個(gè)教訓(xùn)是不要著眼于辦不到的事情上,不要試圖去預(yù)測(cè)未來(lái),而是應(yīng)該對(duì)眼下出現(xiàn)的需求靈活以對(duì)。在我們的案例中,你可以看到我們?cè)诓幌拗茥l件或不返工的情況下,為平臺(tái)將來(lái)的迭代擴(kuò)展留下空間。這是通過(guò)規(guī)劃多個(gè)增建(buildout)步驟做到的??梢栽诤线m的時(shí)機(jī)往這些步驟里添加一系列的功能。這里從諸多的功能中列出其中的兩項(xiàng),比如流處理功能或鍵值存儲(chǔ)(key values stores)功能。
然而,如果我們完全以技術(shù)為驅(qū)動(dòng),指望使用各種技術(shù)來(lái)取代事后的內(nèi)部反思(inward reflection)和需求收集,這是有風(fēng)險(xiǎn)的。我們可能最終采用了沒(méi)有任何商業(yè)目的或價(jià)值的技術(shù),導(dǎo)致高額的成本和高度復(fù)雜性,更糟糕的情況是導(dǎo)致項(xiàng)目完全失敗。大數(shù)據(jù)和數(shù)據(jù)科學(xué)的流行促使利益相關(guān)者在這種情況下容易陷入炒作陷阱。他們認(rèn)為采用技術(shù)可以解決業(yè)務(wù)目標(biāo)、功能和需求方面的問(wèn)題。對(duì)利益相關(guān)者來(lái)說(shuō),至關(guān)重要的是必須在大數(shù)據(jù)和數(shù)據(jù)科學(xué)方面提出正確的問(wèn)題,以避免困惑和失望。這些問(wèn)題是先決條件,包括具體的戰(zhàn)略業(yè)務(wù)目標(biāo)和需求。雖然戰(zhàn)略目標(biāo)必須從一開(kāi)始就明確,但是如我們的案例所示,需求可以隨著時(shí)間反復(fù)推導(dǎo)。
企業(yè)組織可以使用適當(dāng)?shù)拇髷?shù)據(jù)戰(zhàn)略來(lái)評(píng)估當(dāng)前形勢(shì),明確需求,并采用有關(guān)數(shù)據(jù)存儲(chǔ)、處理和分析的新功能。事實(shí)上,這種敏捷性是以數(shù)據(jù)為驅(qū)動(dòng)的現(xiàn)代組織的基礎(chǔ),它讓企業(yè)能夠在快速發(fā)展的技術(shù)環(huán)境中良好運(yùn)作。數(shù)據(jù)科學(xué)可以利用組織在評(píng)估和采用這些技術(shù)方面所具備的能力。數(shù)據(jù)科學(xué)還為來(lái)自?xún)煞矫娴奶魬?zhàn)提出了深入的見(jiàn)解,并給出了恰當(dāng)?shù)慕鉀Q方案。這兩方面的挑戰(zhàn)一個(gè)是更多、更快、更多元化的數(shù)據(jù),另一個(gè)是人們對(duì)這些數(shù)據(jù)在驅(qū)動(dòng)產(chǎn)品、服務(wù)、洞察力和決策方面無(wú)限增長(zhǎng)的期望。
在我們的案例中,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)解決方案正面臨著挑戰(zhàn),因?yàn)樗趩为?dú)完成第一個(gè)任務(wù)時(shí),缺乏足夠的靈活性來(lái)解決任何未知需求。不過(guò)這種解決方案也不是一無(wú)是處,因?yàn)檫@項(xiàng)特定業(yè)務(wù)在金融行業(yè)中運(yùn)作,帶有敏感數(shù)據(jù)并且受到高度監(jiān)管。這項(xiàng)業(yè)務(wù)需要得到更深入的挖掘,而這又必須允許眾多數(shù)據(jù)科學(xué)家和商業(yè)用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)。大多數(shù)企業(yè)組織都存在這種矛盾,既要讓所有潛在消費(fèi)者都能接觸到所有數(shù)據(jù),但同時(shí)要確保數(shù)據(jù)的安全,不被濫用或泄漏。
對(duì)政府、醫(yī)療保健和金融客戶(hù)來(lái)說(shuō),他們還得經(jīng)受得住新聞媒體的考驗(yàn),因?yàn)槿魏螖?shù)據(jù)安全方面的問(wèn)題,不管是真實(shí)發(fā)生了抑或是有發(fā)生的跡象,都可能成為災(zāi)難性的新聞?lì)^條。因此,安全問(wèn)題不僅存在于現(xiàn)實(shí)中,也存在于意識(shí)中。有趣的是,這也是為什么許多客戶(hù)對(duì)云技術(shù)猶豫不決的原因,因?yàn)樵谠萍夹g(shù)里,隨著安全的改進(jìn),感知和現(xiàn)實(shí)越來(lái)越互相偏離。有些公司可能要顧慮合規(guī)性,比如在哪里存儲(chǔ)數(shù)據(jù)。另外,云服務(wù)供應(yīng)商把越來(lái)越多的區(qū)域納入監(jiān)管范圍來(lái)滿(mǎn)足合規(guī)需求。
我們的客戶(hù)選擇了使用本地部署方案,我們?yōu)樗麄兞谐隽私鉀Q當(dāng)前問(wèn)題需要的關(guān)鍵性功能,并為他們?cè)O(shè)計(jì)了一個(gè)將來(lái)可靈活擴(kuò)展的平臺(tái)。首要目標(biāo)是構(gòu)建一個(gè)平臺(tái),這個(gè)平臺(tái)以Hadoop及其生態(tài)系統(tǒng)為核心,獲取新舊數(shù)據(jù),使用掩碼和加密確保數(shù)據(jù)安全,然后基于這些數(shù)據(jù)生成報(bào)告。該方案所需的分析工具很簡(jiǎn)單,通常會(huì)利用SQL接口把那些遺留工具接入Hadoop生態(tài)系統(tǒng),并使用Apache Hive。 Hive是第一選擇,因?yàn)樗钦麄€(gè)分布式系統(tǒng)不可分割的一部分,它穩(wěn)定而且對(duì)SQL支持良好,遺留系統(tǒng)可以通過(guò)標(biāo)準(zhǔn)連接訪(fǎng)問(wèn)它,它還跟分布式安全模型緊密集成。此外,第一階段的性能要求與用于分析和報(bào)告的大小批次的數(shù)據(jù)更為相關(guān)。
核心平臺(tái)的構(gòu)建和集成,以及必要的PCI合規(guī)性,是現(xiàn)階段的關(guān)鍵挑戰(zhàn)。由于時(shí)間緊迫,我們必須立即開(kāi)展工作,所有利益相關(guān)者都很樂(lè)意通過(guò)“失敗排除法”(fail fast)對(duì)平臺(tái)關(guān)鍵要素的落地實(shí)施進(jìn)行驗(yàn)證,以迅速找到組織性阻礙和技術(shù)限制。自然而然地,只有當(dāng)所有發(fā)現(xiàn)的問(wèn)題都得到了解決,“失敗排除”才是有效的。因此,無(wú)論是否能夠達(dá)到某個(gè)里程碑,我們都需要在工作中舉辦一些研討會(huì),比如學(xué)習(xí)一些新的知識(shí)、引入新的業(yè)務(wù),讓技術(shù)利益相關(guān)者參與進(jìn)來(lái),一起解決問(wèn)題或者為下一步的發(fā)展制訂計(jì)劃。
雖然有時(shí)也會(huì)遭遇困難,但是這種方法在高層領(lǐng)導(dǎo)支持下會(huì)比較有效?,F(xiàn)有的流程和技術(shù)以及已建立合作的供應(yīng)商可能需要被作為解決方案的一部分進(jìn)行評(píng)估。有時(shí)候這會(huì)導(dǎo)致與供應(yīng)商和企業(yè)利益相關(guān)者在如實(shí)處理失敗情況時(shí)對(duì)話(huà)困難,無(wú)論問(wèn)題是來(lái)自于組織自身還是來(lái)自供應(yīng)商和合作伙伴。高層利益相關(guān)者要強(qiáng)勢(shì)進(jìn)行戰(zhàn)略審查和問(wèn)題分析,因?yàn)樯硖帞?shù)據(jù)驅(qū)動(dòng)的發(fā)展最前沿,他們也是少數(shù)幾個(gè)應(yīng)該負(fù)責(zé)找出問(wèn)題根源的人。這是唯一可行的建設(shè)性合作方法。因此必須讓利益相關(guān)者加入研討會(huì)并傾聽(tīng)他們的需求和進(jìn)程,能在概念驗(yàn)證環(huán)境下進(jìn)行反復(fù)驗(yàn)證,進(jìn)而探討各種可行或不可行的方法,這是極其重要的,這才能使我們迅速在工作上獲得進(jìn)展。
對(duì)敏感數(shù)據(jù)加密工具和屏蔽工具的選擇是快速淘汰機(jī)制的一個(gè)很好的例子。一個(gè)有名的市場(chǎng)參與者推出了他們的解決方案,并堅(jiān)稱(chēng)他們?cè)诮鹑诜矫娴某晒Π咐屗麄兂蔀榭蛻?hù)的第一選擇。然而事實(shí)證明,市場(chǎng)已經(jīng)遠(yuǎn)離了他們。同時(shí),Hadoop生態(tài)系統(tǒng)的新功能,比如透明數(shù)據(jù)加密與多租戶(hù)模式的結(jié)合,對(duì)他們的產(chǎn)品和安全機(jī)制來(lái)說(shuō)改變太大,無(wú)法適用??焖偬蕴瓩C(jī)制的良好運(yùn)作以及在概念驗(yàn)證環(huán)境中引入新供應(yīng)商的能力讓延遲變得可控,并且這項(xiàng)選擇工作在新一輪對(duì)另一提供商的評(píng)估之后取得了進(jìn)展。
隨著第一階段的工作即將完成,整個(gè)組織的需求增加了,比如,訪(fǎng)問(wèn)平臺(tái)和數(shù)據(jù),增加工具以便更好地支持?jǐn)?shù)據(jù)科學(xué)家和高級(jí)業(yè)務(wù)分析師。這些需求涵蓋了探索性分析、幾近實(shí)時(shí)的高級(jí)報(bào)告以及智能應(yīng)用和產(chǎn)品。滿(mǎn)足這些需求需要許多功能和工具。此外,許多數(shù)據(jù)科學(xué)家偏好不同的工具,包括R,Python(scikit-learn),Spark ML(使用Python,Scala或Java),以及各種商業(yè)解決方案和筆記工具(比如Jupyter或Zeppelin)。還有很多還不是很明確的初步需求和偏好,需要跟能夠達(dá)成它們的工具進(jìn)行匹配。我們還要注意監(jiān)管、安全性、業(yè)務(wù)持續(xù)性、軟件和數(shù)據(jù)集開(kāi)發(fā)生命周期以及成本、復(fù)雜性和風(fēng)險(xiǎn)等這些常被忽略的問(wèn)題。簡(jiǎn)而言之,組織要么在低風(fēng)險(xiǎn)的情況下以一種及時(shí)且可盈利的方式持續(xù)創(chuàng)新,要么被技術(shù)淹沒(méi)。
創(chuàng)新靈活性太高和肆意采用技術(shù)會(huì)帶來(lái)風(fēng)險(xiǎn),使組織癱瘓。組織里的數(shù)據(jù)可能由于缺乏監(jiān)管和安全性不足而泄漏或質(zhì)量下降。當(dāng)企業(yè)組織需要支持太多技術(shù)時(shí),可能會(huì)導(dǎo)致資源缺乏和集成不可控。另一方面,緊密而簡(jiǎn)約且只考慮安全性的技術(shù)選型將會(huì)扼殺組織創(chuàng)新,造成人才流失、功能缺失,組織將最終發(fā)現(xiàn)自己無(wú)法應(yīng)對(duì)新的機(jī)會(huì)和風(fēng)險(xiǎn)。另一種與上述完全不同的理念是通過(guò)漫長(zhǎng)的瀑布迭代流程來(lái)制訂完美解決方案。這種理念在無(wú)法收集需求、技術(shù)能力不斷改變的創(chuàng)新環(huán)境下不占優(yōu)勢(shì)。
當(dāng)我們將組織設(shè)想為一個(gè)擁有有限資源并旨在從中獲得最大相關(guān)功能的實(shí)體時(shí),敏捷式方法將成為最佳選擇。其發(fā)展框架類(lèi)似于我們用來(lái)評(píng)估技術(shù)選型和解決核心平臺(tái)開(kāi)發(fā)和構(gòu)建時(shí)所出現(xiàn)問(wèn)題的研討會(huì)。我們可以將相關(guān)業(yè)務(wù)部門(mén)的各種數(shù)據(jù)科學(xué)和分析技術(shù)的利益相關(guān)者匯聚到一起進(jìn)行討論。什么是易于理解的用例?它們的優(yōu)先等級(jí)和對(duì)組織的影響是什么?實(shí)施它們需要具備哪些條件?還有不太為人所了解的未來(lái)創(chuàng)新理念和潛在的功能需求?第二部分是技術(shù)問(wèn)題。團(tuán)隊(duì)的技術(shù)偏好和現(xiàn)有技能是什么?對(duì)于各種必須得到滿(mǎn)足的要求和組織標(biāo)準(zhǔn),它們?cè)陂_(kāi)發(fā)生命周期方面有什么樣的需求?理想情況下,技術(shù)問(wèn)題能得到來(lái)自安全、基礎(chǔ)設(shè)施、運(yùn)營(yíng)以及軟件開(kāi)發(fā)等部門(mén)的利益相關(guān)者的支持。
我們的客戶(hù)比較先進(jìn),已經(jīng)有顯著的獨(dú)立性,因?yàn)樗囊恍┲匾邔宇I(lǐng)導(dǎo)是大數(shù)據(jù)和分析技術(shù)專(zhuān)家。然而,他們也希望得到外部支持,得到同一領(lǐng)域?qū)<业莫?dú)立指導(dǎo)和評(píng)估。對(duì)于顧問(wèn)而言,當(dāng)客戶(hù)接受你作為權(quán)威和值得信賴(lài)的獨(dú)立顧問(wèn),這是夢(mèng)寐以求的結(jié)果。我們一起舉辦了一個(gè)為數(shù)據(jù)科學(xué)工作做準(zhǔn)備的研討會(huì)。我們收集了各類(lèi)信息,并且在研討會(huì)期間,我們就能夠做到對(duì)各個(gè)業(yè)務(wù)部門(mén)的工作按照優(yōu)先級(jí)排序,并淘汰不合適的技術(shù)。
練習(xí)的效果是立竿見(jiàn)影的。所有利益相關(guān)者都互相認(rèn)識(shí),了解彼此的愿望和喜好,這本身就是有價(jià)值的。此外,基于幾近實(shí)時(shí)流數(shù)據(jù),我們還能夠識(shí)別重要工作和決策服務(wù)。這可以為各方所用,也就是說(shuō),每個(gè)人在某些情況下都需要用到這類(lèi)服務(wù)。我們能夠避免類(lèi)同開(kāi)發(fā),集中精力并將其作為試點(diǎn)項(xiàng)目?jī)?yōu)先安排。在缺乏監(jiān)管的狀態(tài)下,會(huì)出現(xiàn)不同業(yè)務(wù)部門(mén)使用不同的技術(shù)開(kāi)發(fā)出同一個(gè)服務(wù)的不同版本。而采用上述的方法,我們就能夠整合精力和工具選擇。
我們的下一步計(jì)劃是選擇第一組要添加到數(shù)據(jù)科學(xué)工作平臺(tái)的技術(shù),特別是用于流數(shù)據(jù)的Spark ML、Java、Python以及Kafka。這些技術(shù)引入了現(xiàn)有用戶(hù)案例所需的功能,并且還將涵蓋一些未來(lái)和次要的用例。這個(gè)選擇是在研討會(huì)討論最終候選技術(shù)并且考慮了運(yùn)營(yíng)和組織方面的問(wèn)題之后做出的。例如,我們需要確定哪些技術(shù)受到最為廣泛的支持和采用,并且最為成熟。是否得到廣泛采用是在我們?cè)谶@個(gè)階段選擇Java而不是Scala的一個(gè)影響因素。
重要的是不要排除任何可能性,并讓利益相關(guān)者參與建設(shè)性討論。如果備選方案看起來(lái)不可行,我們可以通過(guò)上述框架來(lái)降低它們的優(yōu)先級(jí)。
我們即將參與服務(wù)的開(kāi)發(fā)??深A(yù)見(jiàn)的好處是這為組織帶來(lái)了一系列技術(shù)及其功能。我們會(huì)立即在關(guān)鍵業(yè)務(wù)項(xiàng)目中評(píng)估其非功能性能力,例如,圍繞安全性、可靠性和性能來(lái)評(píng)估。此外,如果能證明這些技術(shù)有效和可用,它們可能被業(yè)務(wù)利益相關(guān)者采納,減少對(duì)重疊替代方案的需求。有了正確的選擇和成功的表現(xiàn),持續(xù)采用更多技術(shù)的需求將逐漸淡去,而采用現(xiàn)有成熟可用的解決方案將變得越來(lái)越普遍。
我們將來(lái)的計(jì)劃是繼續(xù)使用該框架,并收集利益相關(guān)者和用戶(hù)反饋,以便在現(xiàn)有功能不足的情況下進(jìn)行評(píng)估和進(jìn)一步采用技術(shù)。隨后的研討會(huì)將自然地從廣泛的技術(shù)選型討論轉(zhuǎn)移到維護(hù)問(wèn)題的討論,最終我們將討論在市場(chǎng)不斷發(fā)展的情況下逐步淘汰技術(shù)的話(huà)題。