大數(shù)據(jù)項(xiàng)目可能出錯(cuò)的五種方式
?大數(shù)據(jù)項(xiàng)目的低成功率是過(guò)去10年中一個(gè)持續(xù)存在的問(wèn)題,與之類(lèi)似的是:人工智能項(xiàng)目中也出現(xiàn)了相同類(lèi)型的問(wèn)題。雖然100%的成功率不是一個(gè)可以實(shí)現(xiàn)的目標(biāo),但用戶可以進(jìn)行一些調(diào)整以從數(shù)據(jù)投資中獲得更多收益。

隨著世界產(chǎn)生更多數(shù)據(jù),它也越來(lái)越依賴數(shù)據(jù),不接受數(shù)據(jù)驅(qū)動(dòng)決策的公司可能會(huì)進(jìn)一步落后。幸運(yùn)的是,數(shù)據(jù)收集、存儲(chǔ)、管理和分析的復(fù)雜性在過(guò)去10年中大幅提高,研究表明,擁有最先進(jìn)數(shù)據(jù)能力的公司比同行產(chǎn)生更高的收入。
同樣,某些數(shù)據(jù)故障模式會(huì)一遍又一遍地重復(fù)。以下是影響大數(shù)據(jù)項(xiàng)目的五個(gè)常見(jiàn)陷阱,以及一些使您的大數(shù)據(jù)項(xiàng)目保持正常運(yùn)行的潛在解決方案。
將其全部放入數(shù)據(jù)湖中
谷歌云數(shù)據(jù)庫(kù)、數(shù)據(jù)分析副總裁兼總經(jīng)理GerritKazmaier引用的一項(xiàng)研究顯示,超過(guò)三分之二的公司表示,他們沒(méi)有從數(shù)據(jù)投資中獲得“持久價(jià)值”。
“這非常有趣,”Kazmaier在上個(gè)月的新聞發(fā)布會(huì)上說(shuō)?!懊總€(gè)人都認(rèn)識(shí)到他們將與數(shù)據(jù)競(jìng)爭(zhēng)……而另一方面,我們認(rèn)識(shí)到只有少數(shù)公司在數(shù)據(jù)方面真正取得了成功。所以問(wèn)題是:到底是什么阻礙了這些公司進(jìn)行數(shù)據(jù)轉(zhuǎn)型?”
一個(gè)重要原因是缺乏數(shù)據(jù)集中化,這抑制了公司從數(shù)據(jù)中獲取價(jià)值的能力。大多數(shù)任何規(guī)模的公司的數(shù)據(jù)都分布在大量孤島——數(shù)據(jù)庫(kù)、文件系統(tǒng)、應(yīng)用程序和其他位置。公司通過(guò)將盡可能多的數(shù)據(jù)放入數(shù)據(jù)湖中來(lái)應(yīng)對(duì)這種數(shù)據(jù)困境,例如Hadoop或(最近)在云中運(yùn)行的對(duì)象系統(tǒng)。除了提供數(shù)據(jù)駐留的中心位置之外,它還降低了與存儲(chǔ)PB級(jí)數(shù)據(jù)相關(guān)的成本。
然而,Kazmaier說(shuō),雖然它解決了一個(gè)問(wèn)題,但數(shù)據(jù)湖本身也引入了一系列全新的問(wèn)題,特別是在確保數(shù)據(jù)的一致性、純度和可管理性方面?!八羞@些組織都試圖在數(shù)據(jù)湖之上進(jìn)行創(chuàng)新,但最終發(fā)現(xiàn)它只是一個(gè)數(shù)據(jù)沼澤,”他說(shuō)。
GoogleCloud針對(duì)這一困境的最新解決方案是Lakehouse架構(gòu),這個(gè)架構(gòu)將數(shù)據(jù)湖方法的開(kāi)放性與數(shù)據(jù)倉(cāng)庫(kù)的可管理性、治理和質(zhì)量相結(jié)合。
公司可以將他們的數(shù)據(jù)保存在GoogleCloud存儲(chǔ)中,這是一個(gè)與S3兼容的對(duì)象存儲(chǔ)系統(tǒng),支持Parquet和Iceberg等開(kāi)放數(shù)據(jù)格式,以及Presto、Trino和BigQuery等查詢引擎,但不會(huì)犧牲數(shù)據(jù)倉(cāng)庫(kù)的治理。
沒(méi)有集中查看數(shù)據(jù)
在過(guò)去的幾十年里,許多公司一直在努力將數(shù)據(jù)集中在數(shù)據(jù)湖中,但是與此同時(shí),數(shù)據(jù)孤島還是一樣存在,而目標(biāo)則變成了消除用戶訪問(wèn)數(shù)據(jù)的障礙。
在CapitalOne,大數(shù)據(jù)的目標(biāo)是使用戶訪問(wèn)民主化,作為數(shù)據(jù)生態(tài)系統(tǒng)整體現(xiàn)代化的一部分。“這實(shí)際上更多的是讓我們所有的用戶都可以使用數(shù)據(jù),無(wú)論他們是分析師,他們是工程師,還是機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)家等,以釋放他們可以用數(shù)據(jù)做的潛力,”CapitalOne企業(yè)數(shù)據(jù)平臺(tái)和風(fēng)險(xiǎn)管理技術(shù)高級(jí)副總裁BibaHelou表示。
CapitalOne數(shù)據(jù)民主化工作的一個(gè)關(guān)鍵要素是一個(gè)集中的數(shù)據(jù)目錄,它提供了各種數(shù)據(jù)資產(chǎn)的視圖,同時(shí)跟蹤訪問(wèn)權(quán)限和治理。
“它確保我們是以一種管理良好的方式來(lái)做這件事的,但要確保人們有能力看到外面的東西,并獲得他們需要的東西,以便能夠創(chuàng)新性地為我們的客戶提供產(chǎn)品,”Helou在最近的一次采訪中強(qiáng)調(diào)。
該公司決定建立自己的數(shù)據(jù)目錄。原因之一是目錄還允許用戶創(chuàng)建數(shù)據(jù)管道?!八运且粋€(gè)目錄,另?外。它與我們所有的其他系統(tǒng)緊密相連,”她說(shuō)?!跋啾全@得大量第三方產(chǎn)品并自己將它們串起來(lái),我們發(fā)現(xiàn)為自己構(gòu)建集成解決方案要容易得多?!?/p>
變得太大、太快
在Hadoop時(shí)代的鼎盛期,許多公司斥巨資來(lái)構(gòu)建大型集群來(lái)為其數(shù)據(jù)湖提供動(dòng)力。由于使用了標(biāo)準(zhǔn)X86處理器和硬盤(pán),這些本地系統(tǒng)中的許多都比它們所取代的數(shù)據(jù)倉(cāng)庫(kù)大大降低了成本(至少在每TB的基礎(chǔ)上是這樣)。然而這些大型系統(tǒng)帶來(lái)了額外的復(fù)雜性,從而推高了成本。
現(xiàn)在我們已經(jīng)處于云時(shí)代,我們可以回顧這些投資,看看我們?cè)谀男┓矫娉隽藛?wèn)題。去年加入Snowflake擔(dān)任首席數(shù)據(jù)策略師的前Forrester分析師Jennifer Belissent表示,由于基于云的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖產(chǎn)品的可用性,客戶可以從小額投資開(kāi)始并從那里升級(jí)。
“我認(rèn)為這是我們面臨的挑戰(zhàn)之一,我們需要預(yù)先進(jìn)行大量投資,”Belissent說(shuō)?!叭绻阏诓渴鹪苹A(chǔ)設(shè)施,那么可以從填充數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)的單個(gè)項(xiàng)目開(kāi)始,以交付結(jié)果為起點(diǎn),然后逐步添加更多用例、添加更多數(shù)據(jù)、添加更多結(jié)果?!?/p>
Belissent說(shuō),與其在一個(gè)冒險(xiǎn)的大數(shù)據(jù)項(xiàng)目中一蹴而就,客戶最好從一個(gè)成功可能性更高的較小項(xiàng)目開(kāi)始,然后隨著時(shí)間的推移在此基礎(chǔ)上再接再厲。
“從歷史上看,整個(gè)行業(yè)在談?wù)摯髷?shù)據(jù)并期望人們接受大數(shù)據(jù)時(shí),根據(jù)定義[這意味著這是一個(gè)大型基礎(chǔ)設(shè)施]這讓人們倒退了,”她說(shuō)?!岸绻阆霃男√幹?,逐步構(gòu)建,并利用云基礎(chǔ)設(shè)施,這更容易使用,而且你不必有前期資本支出來(lái)將其部署到位,那么你就能夠展示結(jié)果,你也許正在消除我們?cè)谇皫状酥锌吹降囊恍┗脺绺??!?/span>
Belissent指出,Gartner最近開(kāi)始強(qiáng)調(diào)“小而寬數(shù)據(jù)”的優(yōu)勢(shì)。在談到人工智能項(xiàng)目時(shí),AndrewNg一直在演講中提出這一點(diǎn)。
“這不僅關(guān)乎大數(shù)據(jù),還關(guān)乎調(diào)整數(shù)據(jù)規(guī)模,”Belissent在上周接受采訪時(shí)表示?!八槐睾艽?。我們可以從小處著手并擴(kuò)大規(guī)模,或者我們可以使數(shù)據(jù)源多樣化并擴(kuò)大范圍,這使我們能夠豐富我們擁有的有關(guān)客戶的數(shù)據(jù),并更好地了解他們的需求和想要的東西,并更加了解相關(guān)情況我們?yōu)樗麄兎?wù)的方式?!?/span>
?即使大數(shù)據(jù)項(xiàng)目不是很大,用戶仍然應(yīng)該考慮未來(lái)擴(kuò)展的可能性。
沒(méi)有為大增長(zhǎng)提前計(jì)劃
大數(shù)據(jù)中反復(fù)出現(xiàn)的主題之一是用戶將如何接受新解決方案的不可預(yù)測(cè)性。你有多少次讀到一些大數(shù)據(jù)項(xiàng)目被認(rèn)為是肯定的賭注,結(jié)果卻是巨大的失敗?同時(shí),許多對(duì)成功期望不大的副項(xiàng)目最終成為了巨大的贏家。
從大數(shù)據(jù)開(kāi)始,并在成功的基礎(chǔ)上再接再厲,通常是明智的。但是,在選擇您的大數(shù)據(jù)架構(gòu)時(shí),您要小心,不要因?yàn)檫x擇會(huì)成為縮減生產(chǎn)線的障礙的技術(shù)而束縛自己。
NoSQL數(shù)據(jù)庫(kù)公司Aerospike的首席戰(zhàn)略官LenleyHensarling表示:“無(wú)論是服務(wù)和基礎(chǔ)設(shè)施業(yè)務(wù)、人工智能還是其他業(yè)務(wù)——如果成功,它的擴(kuò)張速度將非???。”“它會(huì)變得很大。您將使用大數(shù)據(jù)集。就正在進(jìn)行的操作數(shù)量而言,您將擁有超高的吞吐量。”
Aerospike的人稱(chēng)其為“理想規(guī)?!?,這是一種在互聯(lián)網(wǎng)公司中普遍存在的現(xiàn)象。由于云消除了對(duì)硬件投資的需求,公司可以將計(jì)算能力提高到n級(jí)。
但是,除非您的數(shù)據(jù)庫(kù)或文件系統(tǒng)也可以擴(kuò)展和處理吞吐量,否則您將無(wú)法利用公共云上的性能。雖然現(xiàn)代NoSQL數(shù)據(jù)庫(kù)很容易適應(yīng)不斷變化的業(yè)務(wù),但它們可以提供的功能有限。數(shù)據(jù)庫(kù)遷移絕非易事。
大數(shù)據(jù)中有很多已知的故障模式——毫無(wú)疑問(wèn)也有一些未知的。熟悉常見(jiàn)的很重要。但也許最重要的是,很高興知道失敗不僅是意料之中的,而且應(yīng)該作為過(guò)程的一部分受到歡迎。
不適應(yīng)失敗
在使用大數(shù)據(jù)洞察力修改業(yè)務(wù)戰(zhàn)略時(shí),可能會(huì)突然出現(xiàn)未知因素,從而導(dǎo)致實(shí)驗(yàn)失敗,甚至意外成功。在這個(gè)令人擔(dān)憂的過(guò)程中保持理智是長(zhǎng)期成功與短期大數(shù)據(jù)失敗之間的關(guān)鍵區(qū)別。
數(shù)據(jù)目錄公司Alation的首席執(zhí)行官兼聯(lián)合創(chuàng)始人SatyenSangani表示,科學(xué)本質(zhì)上是一種推測(cè)性的東西,你應(yīng)該接受這一點(diǎn)。“我們假設(shè),有時(shí)假設(shè)是正確的,有時(shí)它們是錯(cuò)誤的,”他說(shuō)。“有時(shí)我們會(huì)進(jìn)行實(shí)驗(yàn),有時(shí)我們可以預(yù)測(cè)它,有時(shí)我們不能?!?/p>
Sangani鼓勵(lì)公司擁有“探索性思維”,并像風(fēng)險(xiǎn)投資家一樣思考。一方面,您可以通過(guò)在聘請(qǐng)新的銷(xiāo)售人員或擴(kuò)大總部等方面進(jìn)行保守的投資來(lái)獲得低但可靠的回報(bào)。或者,您可以采取更具投機(jī)性的方法,這種方法不太可能獲得回報(bào),但可以以驚人的方式獲得回報(bào)。
Sangani說(shuō):“人們很難接受這種探索性的心態(tài)?!薄叭绻阋顿Y于數(shù)據(jù)資產(chǎn)和人工智能投資組合,你可能不會(huì)為每一項(xiàng)單獨(dú)的投資獲得100%的投資回報(bào),但其中一項(xiàng)投資可能是10倍的投資。”
歸根結(jié)底,公司在賭他們將從數(shù)據(jù)投資中獲得10倍回報(bào)之一。當(dāng)然,獲得數(shù)據(jù)黃金的機(jī)會(huì)需要做很多正確的小事。有很多事情可能會(huì)出錯(cuò),但是通過(guò)反復(fù)試驗(yàn),您可以了解哪些有效,哪些無(wú)效。并且希望當(dāng)您實(shí)現(xiàn)10倍的?回報(bào)時(shí),您將與我們其他人分享這些經(jīng)驗(yàn)。

























