CIO如何為AI優(yōu)化數(shù)據(jù)管理

一項(xiàng)成功的AI計(jì)劃在很大程度上取決于底層數(shù)據(jù)的質(zhì)量,IT領(lǐng)導(dǎo)者們正在提升他們的數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng)策略,以提供堅(jiān)實(shí)的基礎(chǔ)。
優(yōu)質(zhì)數(shù)據(jù)對(duì)于任何IT計(jì)劃的成功都至關(guān)重要,對(duì)于AI項(xiàng)目來(lái)說(shuō)更是如此。糟糕的數(shù)據(jù)總是會(huì)產(chǎn)生糟糕的結(jié)果,對(duì)于AI來(lái)說(shuō),風(fēng)險(xiǎn)尤其高,因?yàn)椴涣紨?shù)據(jù)可能導(dǎo)致嚴(yán)重的財(cái)務(wù)損失、監(jiān)管罰款和聲譽(yù)損害。如果數(shù)據(jù)質(zhì)量高,能夠推動(dòng)計(jì)劃成功,那么它可能會(huì)帶來(lái)顯著且可能改變游戲規(guī)則的戰(zhàn)略優(yōu)勢(shì)。
“在AI的世界里,是‘垃圾進(jìn),垃圾出’”無(wú)線網(wǎng)絡(luò)半導(dǎo)體制造商Skyworks Solutions的副總裁兼CIO Satya Jayadev說(shuō),“任何好的AI系統(tǒng)的秘訣都在于你如何構(gòu)建數(shù)據(jù)層,重要的是構(gòu)建架構(gòu)和基礎(chǔ)設(shè)施——理解數(shù)據(jù)來(lái)源、生成數(shù)據(jù),并構(gòu)建一個(gè)統(tǒng)一的數(shù)據(jù)平臺(tái)?!盝ayadev說(shuō)。
對(duì)于Jayadev和其他人來(lái)說(shuō),這意味著要加大對(duì)數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖倉(cāng)實(shí)現(xiàn)的投入,將其作為AI的單一真實(shí)來(lái)源,無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)、GenAI還是自主式AI。
十多年前,當(dāng)大數(shù)據(jù)開始嶄露頭角時(shí),數(shù)據(jù)湖應(yīng)運(yùn)而生,以容納非結(jié)構(gòu)化數(shù)據(jù)作為分析洞察的來(lái)源。數(shù)據(jù)湖倉(cāng)(有時(shí)稱為查詢加速器)包含像數(shù)據(jù)湖一樣的非結(jié)構(gòu)化數(shù)據(jù),但增加了像數(shù)據(jù)倉(cāng)庫(kù)一樣的結(jié)構(gòu)層,以更快、更經(jīng)濟(jì)地提供洞察。
CIO們正在采用這些和其他數(shù)據(jù)技術(shù),以確保數(shù)據(jù)管道的穩(wěn)健性,并達(dá)到實(shí)現(xiàn)AI戰(zhàn)略變革價(jià)值所需的數(shù)據(jù)質(zhì)量水平。
更好的數(shù)據(jù)=更好的AI
那些已經(jīng)采取措施更好地組織數(shù)據(jù)的企業(yè)更有可能具備數(shù)據(jù)成熟度,這是成功應(yīng)用AI的公司的關(guān)鍵屬性。研究公司IDC將數(shù)據(jù)成熟度定義為使用先進(jìn)的數(shù)據(jù)質(zhì)量、目錄編制和元數(shù)據(jù)以及數(shù)據(jù)治理流程,該公司的首席數(shù)據(jù)官辦公室調(diào)查發(fā)現(xiàn),具備數(shù)據(jù)成熟度的公司遠(yuǎn)比其他組織更有可能在生產(chǎn)環(huán)境中部署GenAI解決方案。
“企業(yè)正在優(yōu)先考慮數(shù)據(jù)質(zhì)量,以提高數(shù)據(jù)工作者的工作效率,并增強(qiáng)AI生成結(jié)果的準(zhǔn)確性和相關(guān)性。”IDC的數(shù)據(jù)智能和集成軟件服務(wù)副總裁Stewart Bond說(shuō)。
此外,IDC的同一項(xiàng)研究還揭示,準(zhǔn)備數(shù)據(jù)以產(chǎn)生最佳的AI結(jié)果對(duì)業(yè)務(wù)有顯著的底線效應(yīng),能夠帶來(lái)客戶保留率五倍的提升,以及在利潤(rùn)、效率和收入方面的強(qiáng)勁增長(zhǎng)。
對(duì)于Skyworks Solutions的Jayadev來(lái)說(shuō),使用Databricks技術(shù)構(gòu)建的數(shù)據(jù)湖倉(cāng)是數(shù)據(jù)質(zhì)量工作的重點(diǎn)。
“數(shù)據(jù)湖倉(cāng)在某種程度上就像摩天大樓的基礎(chǔ),我們收集每一份數(shù)據(jù),然后進(jìn)行分類和分組,以構(gòu)建銅質(zhì)、銀質(zhì)和金質(zhì)的數(shù)據(jù)質(zhì)量層,”這位副總裁兼CIO解釋道,“我們?cè)跀?shù)據(jù)湖倉(cāng)中存儲(chǔ)了PB級(jí)的數(shù)據(jù),每天還有TB級(jí)的數(shù)據(jù)從我們的工廠和其他來(lái)源流入?!?/p>
Gallo收獲經(jīng)典數(shù)據(jù)
Jayadev和Skyworks Solutions并非孤例,葡萄酒和其他飲料巨頭Gallo已經(jīng)實(shí)施了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖倉(cāng),以從中獲取AI洞察,其CIO Robert Barrios說(shuō)。該公司已經(jīng)構(gòu)建了一個(gè)SAP S/4HANA數(shù)據(jù)倉(cāng)庫(kù),該倉(cāng)庫(kù)被劃分為消費(fèi)者、財(cái)務(wù)和采購(gòu)數(shù)據(jù)的獨(dú)立數(shù)據(jù)集市。此外,Gallo還為非SAP數(shù)據(jù)實(shí)施了一個(gè)AWS Redshift數(shù)據(jù)湖倉(cāng),并應(yīng)用元數(shù)據(jù)來(lái)賦予其結(jié)構(gòu)。
Gallo還在使用GenAI來(lái)通過(guò)識(shí)別與標(biāo)準(zhǔn)字符串的偏差并填補(bǔ)數(shù)據(jù)空白來(lái)提高數(shù)據(jù)質(zhì)量,Barrios說(shuō)。例如,當(dāng)客戶數(shù)據(jù)條目的某個(gè)屬性超出正常范圍時(shí),GenAI可以識(shí)別出正確的屬性,并替換錯(cuò)誤的屬性。同樣的情況也適用于葡萄酒特性。例如,一款葡萄酒可能被描述為“spicy”(辛辣的),而接受的術(shù)語(yǔ)是“peppery”(胡椒味的)。因?yàn)镚enAI理解上下文,所以它會(huì)將錯(cuò)誤的術(shù)語(yǔ)更改為正確的術(shù)語(yǔ)。
對(duì)于GenAI,Gallo正在使用AWS Bedrock。通過(guò)Bedrock,Gallo可以與其自己的大型語(yǔ)言模型(LLM)合作,而不是公有LLM,以確保其數(shù)據(jù)不會(huì)被公開暴露。
Gallo的下一步是記錄公司如何做出決策,然后將這些信息提供給能夠自主做出決策的智能體,這是自主式AI的一種實(shí)現(xiàn)。“這與體育或房地產(chǎn)代理沒(méi)什么不同。你告訴智能體你想要什么,智能體就會(huì)為你找到它?!盉arrios說(shuō)。
制藥數(shù)據(jù)在湖倉(cāng)中找到歸宿
Servier Pharmaceuticals將其數(shù)據(jù)集中存儲(chǔ)在Google Cloud Platform(GCP)Big Query數(shù)據(jù)湖倉(cāng)中,該湖倉(cāng)為從研發(fā)到產(chǎn)品團(tuán)隊(duì)再到企業(yè)公關(guān)的六個(gè)企業(yè)IT組合提供了一個(gè)共同的數(shù)據(jù)平臺(tái),每個(gè)組合都在一定程度上實(shí)施了AI。根據(jù)Servier Pharmaceuticals的CIO Mark Yunger的說(shuō)法,該湖倉(cāng)及其元數(shù)據(jù)標(biāo)簽還帶來(lái)了打破數(shù)據(jù)孤島的額外好處,否則這些數(shù)據(jù)孤島會(huì)將不同團(tuán)隊(duì)使用的數(shù)據(jù)分隔開來(lái)。
“我們圍繞所有這些分散的數(shù)據(jù)創(chuàng)建了一個(gè)合理的分類法和數(shù)據(jù)命名法,以便我們可以將其用于AI算法,確保我們輸入的是優(yōu)質(zhì)數(shù)據(jù),這有助于確保我們的輸出是正確的。”Yunger說(shuō),并補(bǔ)充說(shuō)AI分析對(duì)于銷售和營(yíng)銷分析以及洞察特別有益。
在制藥行業(yè),專利極其重要,這意味著Servier必須謹(jǐn)慎保護(hù)自己的專利,同時(shí)防止侵犯其他公司的專利。
“我們必須注意我們放入公共數(shù)據(jù)集中的內(nèi)容。”Yunger說(shuō)。考慮到這一謹(jǐn)慎態(tài)度,Servier已經(jīng)在Microsoft Azure上構(gòu)建了一個(gè)私有版本的ChatGPT,以確保團(tuán)隊(duì)在受益于AI工具的同時(shí)保護(hù)專有信息并保持機(jī)密性。Yunger說(shuō),GenAI的實(shí)施用于加速內(nèi)部文檔和電子郵件的創(chuàng)建。
此外,在制藥試驗(yàn)中可能出現(xiàn)的個(gè)人數(shù)據(jù)必須得到極其謹(jǐn)慎的處理,以遵守禁止組織在未經(jīng)個(gè)人同意的情況下主動(dòng)監(jiān)控個(gè)人的歐盟AI法案。
“風(fēng)險(xiǎn)很高。‘如果存在合規(guī)問(wèn)題,那可能會(huì)導(dǎo)致巨額罰款。你必須確保遵守規(guī)則。”Yunger說(shuō)。
AES從源頭獲取能源數(shù)據(jù)
專注于可持續(xù)能源的發(fā)電公司AES已經(jīng)構(gòu)建了CEDAR,這是一個(gè)在GCP中為AI構(gòu)建的數(shù)據(jù)平臺(tái),用于聚合和管理其清潔能源站點(diǎn)的運(yùn)營(yíng)數(shù)據(jù),AES的首席數(shù)字官Alejandro Reyes說(shuō)。
“CEDAR在數(shù)據(jù)收集和定義方面創(chuàng)造了和諧。它使我們的整個(gè)產(chǎn)品線數(shù)據(jù)保持一致?!盧eyes說(shuō)。他解釋說(shuō),CEDAR使用Atlan(一個(gè)數(shù)據(jù)目錄編制工具)和Qualytics(一個(gè)基于機(jī)器學(xué)習(xí)的數(shù)據(jù)質(zhì)量工具)將標(biāo)準(zhǔn)應(yīng)用于數(shù)據(jù),以便它可以作為AI的單一來(lái)源,無(wú)論是由財(cái)務(wù)、工程、維護(hù)還是其他企業(yè)部門使用。
AES的Farseer(該平臺(tái)為公司贏得了2024年CIO 100獎(jiǎng))是一個(gè)基于AI的平臺(tái),它利用CEDAR的數(shù)據(jù)使AES能夠了解市場(chǎng)需求、預(yù)期天氣條件、能源容量和預(yù)期收入,這些信息使AES能夠決定在市場(chǎng)上投放多少能源以及如何定價(jià),Reyes解釋說(shuō)。此外,AES正在使用Google Gemini和Microsoft Copilot,并正在探索自主式AI以處理后臺(tái)流程。
一切皆以數(shù)據(jù)為基礎(chǔ)
雖然數(shù)據(jù)倉(cāng)庫(kù)、湖和湖倉(cāng)遠(yuǎn)非新事物,但AI推動(dòng)從業(yè)務(wù)中獲取價(jià)值的努力正在為它們帶來(lái)顯著的關(guān)注——這要求具備頂級(jí)的數(shù)據(jù)治理能力。
“AI不是傳統(tǒng)的IT,而是一種變革性工具——每個(gè)人都想使用它。挑戰(zhàn)在于建立治理,以便我們可以為業(yè)務(wù)開放數(shù)據(jù)和AI平臺(tái),以構(gòu)建其所有用例?!盨kyworks Solutions的Jayadev說(shuō)。
根據(jù)Servier的Yunger的說(shuō)法,僅僅希望如此并不會(huì)使它成為現(xiàn)實(shí)——需要熟練的IT專業(yè)人員。在他開始數(shù)據(jù)治理項(xiàng)目的18個(gè)月里,Yunger說(shuō),填補(bǔ)人才差距是他面臨的最大障礙。“這是一個(gè)結(jié)合了人才——能力和技能集——以及流程的問(wèn)題。你需要找到合適的人才來(lái)幫助推動(dòng)和加速這些步驟?!彼f(shuō)。
為了實(shí)現(xiàn)他所說(shuō)的“可持續(xù)AI”,AES的Reyes建議需要達(dá)成一種微妙的平衡:實(shí)施數(shù)據(jù)治理,但要以一種不會(huì)擾亂工作模式的方式進(jìn)行。他建議確保公司的每個(gè)人都理解數(shù)據(jù)必須被視為一種有價(jià)值的資產(chǎn):在AI的高風(fēng)險(xiǎn)下,有充分的理由必須準(zhǔn)確地對(duì)數(shù)據(jù)進(jìn)行分類和管理。
Gallo的Barrios強(qiáng)化了單一、強(qiáng)大的數(shù)據(jù)基礎(chǔ)的理念?!叭绻阌幸欢巡煌幕A(chǔ),它可能會(huì)變成一座紙牌屋?!彼f(shuō),但僅僅有基礎(chǔ)是不夠的,讓業(yè)務(wù)部門參與進(jìn)來(lái)是至關(guān)重要的,Barrios斷言道。
“與業(yè)務(wù)部門合作,確保他們擁有能夠顯示你工作進(jìn)展的指標(biāo),”他建議道,“你可以擁有最好的數(shù)據(jù)湖倉(cāng),但人們必須使用它?!?/p>































