談?wù)勅斯ぶ悄艹晒Φ臄?shù)據(jù)策略

一、數(shù)據(jù)是人工智能能力的基礎(chǔ)
在人工智能領(lǐng)域,數(shù)據(jù)不僅僅是一種資源,更是所有人工智能能力賴以構(gòu)建的基礎(chǔ)。數(shù)據(jù)的質(zhì)量、數(shù)量和可訪問性直接決定了哪些人工智能應(yīng)用可行,以及這些應(yīng)用的有效性。
將數(shù)據(jù)視為戰(zhàn)略資產(chǎn)并進(jìn)行相應(yīng)管理的組織能夠?yàn)槿斯ぶ悄艿某晒ψ龊脺?zhǔn)備,而那些將數(shù)據(jù)視為事后諸葛亮的組織往往難以從人工智能投資中實(shí)現(xiàn)價(jià)值。
數(shù)據(jù)和人工智能之間的基本關(guān)系可以通過幾個(gè)關(guān)鍵原則來理解:
- 人工智能模型從數(shù)據(jù)中學(xué)習(xí):與遵循明確編程規(guī)則的傳統(tǒng)軟件不同,人工智能系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)模式和關(guān)系。這種學(xué)習(xí)數(shù)據(jù)的廣度、深度和質(zhì)量直接影響系統(tǒng)的功能。
- 數(shù)據(jù)決定可能性:一個(gè)組織所能開發(fā)的人工智能應(yīng)用受限于其可訪問的數(shù)據(jù)。如果沒有相關(guān)且全面的數(shù)據(jù),即使是最復(fù)雜的人工智能技術(shù),其產(chǎn)生的價(jià)值也將十分有限,甚至毫無價(jià)值。
- 數(shù)據(jù)質(zhì)量驅(qū)動(dòng)性能:數(shù)據(jù)的準(zhǔn)確性、完整性和代表性直接影響AI模型的性能。正如AI開發(fā)中所說的那樣:“垃圾進(jìn),垃圾出?!?/span>
- 數(shù)據(jù)需求不斷發(fā)展:隨著人工智能能力從基本分析發(fā)展到更復(fù)雜的應(yīng)用,數(shù)據(jù)要求變得更加復(fù)雜,要求更大的數(shù)量、多樣性、速度和準(zhǔn)確性。
- 數(shù)據(jù)具有復(fù)合價(jià)值:系統(tǒng)地收集、組織和利用數(shù)據(jù)的組織會(huì)隨著時(shí)間的推移創(chuàng)造復(fù)合優(yōu)勢(shì)——因?yàn)槊總€(gè)新數(shù)據(jù)點(diǎn)都會(huì)提升現(xiàn)有數(shù)據(jù)資產(chǎn)的價(jià)值。
用例:Capital One 的企業(yè)數(shù)據(jù)平臺(tái)
當(dāng) Capital One 著手對(duì)其數(shù)據(jù)架構(gòu)進(jìn)行現(xiàn)代化改造時(shí),其動(dòng)機(jī)并非表面功夫,而是生存之道。每條業(yè)務(wù)線(信用卡、零售銀行、汽車金融)都運(yùn)行著各自的系統(tǒng),而機(jī)器學(xué)習(xí)項(xiàng)目也面臨著同樣的困境:數(shù)據(jù)孤島。他們沒有嘗試構(gòu)建更多模型來解決這個(gè)問題,而是回歸到了基礎(chǔ)層面。
Capital One 成為首批全面推行云優(yōu)先數(shù)據(jù)戰(zhàn)略的大型銀行之一,將核心基礎(chǔ)設(shè)施遷移至 AWS。其目標(biāo)并非“直接遷移”,而是整合:一個(gè)單一的企業(yè)平臺(tái),用于集成、管理和一致訪問結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
這一基礎(chǔ)已初見成效。實(shí)時(shí)欺詐模型如今每天分析整個(gè)企業(yè)數(shù)十億筆交易,不再局限于孤立的數(shù)據(jù)孤島。個(gè)性化引擎基于統(tǒng)一的客戶數(shù)據(jù)運(yùn)行,使產(chǎn)品報(bào)價(jià)更具針對(duì)性。對(duì)話式人工智能助手能夠真正解決客戶問題,因?yàn)樗鼈兡軌蚨床炜蛻絷P(guān)系的全貌。
這里的關(guān)鍵教訓(xùn)是:在追求 AI 功能之前,先修復(fù)數(shù)據(jù)管道。
第一資本公司的欺詐模型之所以有效,并不是因?yàn)樗鼈兒塥?dú)特,而是因?yàn)樗鼈儽澈蟮臄?shù)據(jù)基礎(chǔ)是為擴(kuò)大規(guī)模而重建的。
二、建立全面的數(shù)據(jù)戰(zhàn)略
全面的數(shù)據(jù)戰(zhàn)略應(yīng)將數(shù)據(jù)管理與業(yè)務(wù)目標(biāo)相結(jié)合,并為開發(fā)支持人工智能計(jì)劃所需的數(shù)據(jù)能力提供路線圖。該戰(zhàn)略應(yīng)涵蓋六個(gè)關(guān)鍵要素:
數(shù)據(jù)愿景和目標(biāo)
數(shù)據(jù)戰(zhàn)略應(yīng)始于清晰的愿景,闡明數(shù)據(jù)如何為組織創(chuàng)造價(jià)值并支持其戰(zhàn)略目標(biāo)。這一愿景應(yīng)轉(zhuǎn)化為具體的、可衡量的目標(biāo),以指導(dǎo)投資和優(yōu)先級(jí)決策。
愿景聲明示例:“我們的數(shù)據(jù)將成為一項(xiàng)戰(zhàn)略資產(chǎn),使我們能夠深入了解客戶,不斷優(yōu)化運(yùn)營(yíng),并創(chuàng)造競(jìng)爭(zhēng)對(duì)手無法比擬的個(gè)性化體驗(yàn)?!?/span>
目標(biāo)示例:
- 到 2026 年,將分析數(shù)據(jù)檢索時(shí)間從幾天縮短到幾分鐘
- 到 2027 年,將數(shù)據(jù)支持的業(yè)務(wù)決策比例從 35% 提高到 80%
- 到 2028 年,在所有客戶接觸點(diǎn)實(shí)現(xiàn)實(shí)時(shí)個(gè)性化
數(shù)據(jù)治理框架
強(qiáng)大的人工智能成果依賴于強(qiáng)有力的治理。數(shù)據(jù)治理并非為了官僚主義而生,而是為了確保數(shù)據(jù)在規(guī)模化情況下仍然值得信賴、安全且可用。有效的治理框架必須走鋼絲:施加足夠的控制以維護(hù)合規(guī)性和質(zhì)量,同時(shí)確保數(shù)據(jù)可供需要的人訪問。
在實(shí)踐中,這意味著從明確所有權(quán)開始。每個(gè)數(shù)據(jù)集都應(yīng)該有一個(gè)指定的所有者(通常是對(duì)其價(jià)值負(fù)責(zé)的業(yè)務(wù)負(fù)責(zé)人)和一個(gè)管理員(通常是負(fù)責(zé)質(zhì)量和可訪問性的運(yùn)營(yíng)人員)。如果沒有這種責(zé)任制,數(shù)據(jù)問題就會(huì)在團(tuán)隊(duì)之間難以解決地轉(zhuǎn)移。
治理還需要政策和標(biāo)準(zhǔn)。這些規(guī)則定義了數(shù)據(jù)的收集、存儲(chǔ)、共享和退出方式。其目的并非制定長(zhǎng)達(dá)200頁(yè)的政策手冊(cè),而是確保從工程師到分析師再到合規(guī)官,每個(gè)人都清楚了解“基本規(guī)則”。
為了保持對(duì)數(shù)據(jù)的信任,組織必須嵌入數(shù)據(jù)質(zhì)量管理實(shí)踐。這意味著定期進(jìn)行分析、顯示準(zhǔn)確性和完整性指標(biāo)的儀表板,以及在異常影響到不良模型之前將其捕獲的自動(dòng)檢查。
最后,成熟的治理框架整合了合規(guī)管理(在銀行或醫(yī)療保健等受監(jiān)管的行業(yè)中尤為重要)和元數(shù)據(jù)管理,以便任何訪問數(shù)據(jù)的人都能理解其含義、來源和背景。
將元數(shù)據(jù)視為數(shù)據(jù)的“使用說明書”;沒有它,重復(fù)使用和信任就會(huì)迅速消失。
關(guān)鍵要素一覽:
- 數(shù)據(jù)所有權(quán)和管理:明確定義數(shù)據(jù)管理的角色和職責(zé)
- 數(shù)據(jù)政策和標(biāo)準(zhǔn):數(shù)據(jù)收集、存儲(chǔ)、使用、共享和保留的指南
- 數(shù)據(jù)質(zhì)量管理:測(cè)量和改進(jìn)數(shù)據(jù)質(zhì)量的過程
- 合規(guī)管理:確保遵守相關(guān)法規(guī)的機(jī)制
- 元數(shù)據(jù)管理:用于記錄數(shù)據(jù)含義、沿襲和上下文的系統(tǒng)
數(shù)據(jù)架構(gòu)
如果說治理制定了規(guī)則,那么數(shù)據(jù)架構(gòu)則提供了舞臺(tái)。它定義了數(shù)據(jù)在整個(gè)組織內(nèi)的存儲(chǔ)、處理和使用方式。一個(gè)設(shè)計(jì)良好的架構(gòu)不僅能滿足當(dāng)前的需求,還能隨著未來的發(fā)展而擴(kuò)展。
在存儲(chǔ)層,大多數(shù)組織采用混合方式:數(shù)據(jù)倉(cāng)庫(kù)用于存儲(chǔ)結(jié)構(gòu)化、可分析的信息;數(shù)據(jù)湖用于存儲(chǔ)靈活、原始且通常為非結(jié)構(gòu)化的數(shù)據(jù);以及越來越多地采用云存儲(chǔ)來提高彈性。選擇正確的平衡點(diǎn),與其說是技術(shù)潮流,不如說是工作負(fù)載模式:您需要的是即時(shí)查詢性能,還是更看重靈活的大規(guī)模存儲(chǔ)?
集成同樣至關(guān)重要。現(xiàn)代企業(yè)無法承受數(shù)據(jù)擱淺的后果。ETL管道、API 和數(shù)據(jù)虛擬化層將跨系統(tǒng)連接起來,無論數(shù)據(jù)位于何處,都能實(shí)現(xiàn)一致的訪問。此外,處理框架(批處理和流式處理)確保歷史分析和實(shí)時(shí)用例(例如欺詐檢測(cè))能夠共存。
完善架構(gòu)的標(biāo)志并非復(fù)雜性,而是高負(fù)載下的可擴(kuò)展性和性能。低估這一點(diǎn)的組織經(jīng)常會(huì)發(fā)現(xiàn),他們的人工智能模型在實(shí)驗(yàn)室中運(yùn)行良好,但在生產(chǎn)環(huán)境中,面對(duì)數(shù)十億行數(shù)據(jù)或?qū)崟r(shí)事件流時(shí)卻會(huì)崩潰。
主要考慮因素一覽:
- 數(shù)據(jù)存儲(chǔ):數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和云存儲(chǔ)解決方案
- 數(shù)據(jù)集成:ETL 流程、API 和數(shù)據(jù)虛擬化功能
- 數(shù)據(jù)處理:批處理和實(shí)時(shí)處理框架
- 數(shù)據(jù)訪問:查詢工具、分析平臺(tái)和數(shù)據(jù)服務(wù)
- 可擴(kuò)展性和性能:能夠處理不斷增長(zhǎng)的數(shù)據(jù)量和速度
三、數(shù)據(jù)生命周期管理
數(shù)據(jù)與任何資產(chǎn)一樣,都有生命周期。妥善管理數(shù)據(jù)不僅意味著了解數(shù)據(jù)的生成方式,還意味著了解數(shù)據(jù)如何演變并最終消亡。
它始于創(chuàng)建或獲取數(shù)據(jù):決定收集哪些數(shù)據(jù)、從哪些來源收集以及在什么條件下收集。錯(cuò)誤的決策(收集冗余或不相關(guān)的數(shù)據(jù))會(huì)導(dǎo)致系統(tǒng)臃腫,并最終導(dǎo)致治理混亂。
數(shù)據(jù)一旦被提取,就會(huì)經(jīng)過存儲(chǔ)和處理,進(jìn)行轉(zhuǎn)換、豐富,并準(zhǔn)備投入使用。良好的實(shí)踐可以確保同一數(shù)據(jù)集無需在十個(gè)不同的地方進(jìn)行“清洗”——一致性是關(guān)鍵。
下一階段是使用和共享,數(shù)據(jù)將變得可操作。挑戰(zhàn)在于在可訪問性和控制之間取得平衡。限制過多,創(chuàng)新就會(huì)受到抑制。限制過少,又有違規(guī)或不合規(guī)的風(fēng)險(xiǎn)。
最后,企業(yè)必須嚴(yán)格對(duì)待歸檔和刪除操作?!耙苑廊f一”而保留所有數(shù)據(jù)既昂貴又危險(xiǎn)。明確的歸檔策略可確保只保留具有持久業(yè)務(wù)或監(jiān)管價(jià)值的數(shù)據(jù),其余數(shù)據(jù)則被安全清除。
關(guān)鍵階段一覽:
- 數(shù)據(jù)創(chuàng)建/獲?。簲?shù)據(jù)如何進(jìn)入組織
- 數(shù)據(jù)存儲(chǔ)和處理:如何存儲(chǔ)、轉(zhuǎn)換和豐富數(shù)據(jù)
- 數(shù)據(jù)使用和共享:如何訪問和利用數(shù)據(jù)
- 數(shù)據(jù)存檔和刪除:如何保留或刪除不再需要的數(shù)據(jù)
四、數(shù)據(jù)能力和技能
即使是最好的架構(gòu)和治理,如果沒有懂得如何使用的人,也無法創(chuàng)造價(jià)值。因此,數(shù)據(jù)戰(zhàn)略必須兼顧三個(gè)維度的能力和技能。
首先是技術(shù)技能:數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和數(shù)據(jù)庫(kù)管理。這些角色構(gòu)建并維護(hù)驅(qū)動(dòng)人工智能的管道、平臺(tái)和模型。
其次是業(yè)務(wù)技能:分析師、產(chǎn)品負(fù)責(zé)人和領(lǐng)域?qū)<?,他們懂得如何?gòu)建問題、解讀輸出結(jié)果,并將洞見融入決策。如果沒有他們,技術(shù)團(tuán)隊(duì)就有可能解決錯(cuò)誤的問題,或者產(chǎn)生無法落地的洞見。
最后,組織需要治理技能:了解隱私、合規(guī)性和質(zhì)量的管家。這些角色確保制衡體系不會(huì)受到任何影響。
領(lǐng)先企業(yè)的獨(dú)特之處并非在于擁有更多數(shù)據(jù)科學(xué)家,而是在于平衡這三個(gè)維度。正是這種融合,將數(shù)據(jù)從原材料轉(zhuǎn)化為資產(chǎn)。
數(shù)據(jù)戰(zhàn)略應(yīng)該明確實(shí)施和維持有效數(shù)據(jù)管理所需的人員能力。成功的數(shù)據(jù)戰(zhàn)略需要的不僅僅是技術(shù):它取決于人。需要能夠構(gòu)建數(shù)據(jù)的工程師和科學(xué)家、能夠解讀數(shù)據(jù)的分析師,以及能夠確保數(shù)據(jù)得到負(fù)責(zé)任使用的管理員。如果沒有這些要素的結(jié)合,即使是最好的架構(gòu)也無法達(dá)到預(yù)期的效果。
五、實(shí)施路線圖
沒有執(zhí)行的戰(zhàn)略只是空談。為了將數(shù)據(jù)戰(zhàn)略付諸實(shí)踐,組織需要一個(gè)分階段、優(yōu)先排序且可衡量的路線圖。
路線圖應(yīng)從優(yōu)先舉措開始:快速見效、體現(xiàn)價(jià)值,同時(shí)為解決更棘手的問題奠定基礎(chǔ)。例如,將少量關(guān)鍵數(shù)據(jù)集整合到共享平臺(tái),或?qū)ψ铌P(guān)鍵的業(yè)務(wù)報(bào)告進(jìn)行自動(dòng)化數(shù)據(jù)質(zhì)量檢查。
接下來是資源配置:確保人員、工具和預(yù)算的合理組合。許多數(shù)據(jù)戰(zhàn)略的失敗并非因?yàn)樵妇板e(cuò)誤,而是因?yàn)閷?shí)施資金不足或人員配備不足。
路線圖也需要時(shí)間表和里程碑。這并不意味著僵化的甘特圖,而是清晰的進(jìn)度信號(hào):“到第一年,80% 的客戶數(shù)據(jù)已集成;到第二年,X 用例已啟用實(shí)時(shí)分析?!?/span>
最后,每個(gè)路線圖都必須考慮依賴關(guān)系和風(fēng)險(xiǎn)。例如,在某些市場(chǎng),云優(yōu)先架構(gòu)的推出可能取決于監(jiān)管機(jī)構(gòu)的批準(zhǔn)。公開解決這些問題可以避免日后出現(xiàn)意外。
成功的組織不會(huì)試圖一次性完成所有事情。他們會(huì)對(duì)數(shù)據(jù)計(jì)劃進(jìn)行排序,將每個(gè)里程碑與可衡量的業(yè)務(wù)影響聯(lián)系起來,并在每個(gè)階段建立信心。
良好的數(shù)據(jù)策略并非一朝一夕就能上線。最成功的團(tuán)隊(duì)會(huì)從幾個(gè)高優(yōu)先級(jí)的計(jì)劃入手,確保合適的資源,分階段推出可見的里程碑,并像跟蹤預(yù)算一樣密切跟蹤依賴關(guān)系。這是一個(gè)過程,而不是一個(gè)項(xiàng)目計(jì)劃。
案例研究:聯(lián)合利華的綜合數(shù)據(jù)戰(zhàn)略
對(duì)于像聯(lián)合利華這樣業(yè)務(wù)遍及數(shù)百個(gè)市場(chǎng)、擁有數(shù)千個(gè)SKU的公司來說,如果沒有清晰的數(shù)據(jù)戰(zhàn)略,人工智能將會(huì)陷入一片混亂。他們沒有進(jìn)行簡(jiǎn)單的試點(diǎn),而是制定了一套全面的方法,涵蓋六個(gè)要素:愿景、治理、架構(gòu)、生命周期、技能和路線圖。
他們雄心勃勃地宣稱:打造整個(gè)企業(yè)的“數(shù)字孿生”。實(shí)際上,這意味著聯(lián)合治理(全球標(biāo)準(zhǔn)、本地管家)、混合架構(gòu)(云湖提供靈活性,數(shù)據(jù)倉(cāng)庫(kù)提供結(jié)構(gòu)化分析),以及與業(yè)務(wù)成果掛鉤的明確目標(biāo)。
結(jié)果是顯而易見的:供應(yīng)鏈人工智能每年降低物流成本 5 億歐元,而營(yíng)銷人工智能則推動(dòng)營(yíng)銷活動(dòng)效果實(shí)現(xiàn)兩位數(shù)的提升。
關(guān)鍵在于,并非每個(gè)組織都應(yīng)該以數(shù)字孿生為目標(biāo)。關(guān)鍵在于,當(dāng)數(shù)據(jù)治理、架構(gòu)和業(yè)務(wù)目標(biāo)被設(shè)計(jì)成一個(gè)統(tǒng)一的戰(zhàn)略,而不是六個(gè)獨(dú)立的對(duì)話環(huán)節(jié)時(shí),人工智能的價(jià)值才會(huì)復(fù)合增長(zhǎng)。
六、數(shù)據(jù)治理、質(zhì)量和管理
如果說數(shù)據(jù)是人工智能的基礎(chǔ),那么治理和質(zhì)量就是鞏固這一基礎(chǔ)的工程標(biāo)準(zhǔn)。那些將治理視為紙面工作、事后才考慮質(zhì)量的組織,往往會(huì)發(fā)現(xiàn)他們的人工智能項(xiàng)目停滯不前:基于不一致、不完整或不合規(guī)數(shù)據(jù)訓(xùn)練的模型根本無法運(yùn)行。相比之下,那些將治理和質(zhì)量實(shí)踐深深植入企業(yè)DNA的企業(yè),能夠更快地開發(fā)出人工智能解決方案,降低風(fēng)險(xiǎn),并獲得值得信賴的結(jié)果。
因此,有效的數(shù)據(jù)治理、質(zhì)量管理和全面的數(shù)據(jù)管理是人工智能成功的關(guān)鍵因素。在這些領(lǐng)域表現(xiàn)卓越的組織能夠更快地開發(fā)和部署人工智能解決方案,并提高準(zhǔn)確性和降低風(fēng)險(xiǎn)。
1.數(shù)據(jù)治理最佳實(shí)踐
有效的治理不在于制定厚厚的政策,而在于建立一個(gè)平衡保護(hù)與可及性的活框架。
第一個(gè)要素是高管的支持。如果高管層沒有明確支持治理,治理就會(huì)永遠(yuǎn)被視為一種合規(guī)負(fù)擔(dān),而非戰(zhàn)略推動(dòng)力。那些將治理視為增長(zhǎng)的必要條件而非僅僅規(guī)避風(fēng)險(xiǎn)的領(lǐng)導(dǎo)者,將會(huì)改變這種說法。
同樣重要的是明確的所有權(quán)。數(shù)據(jù)必須有負(fù)責(zé)任的所有者(對(duì)其創(chuàng)造的價(jià)值負(fù)責(zé)的業(yè)務(wù)領(lǐng)導(dǎo)者)和確保質(zhì)量、訪問和可用性的運(yùn)營(yíng)管理員。如果沒有這種責(zé)任制,問題就會(huì)在IT和業(yè)務(wù)之間無休止地反復(fù)出現(xiàn),無法得到解決。
現(xiàn)代企業(yè)越來越多地采用聯(lián)合運(yùn)營(yíng)模式:中央治理制定標(biāo)準(zhǔn),而領(lǐng)域團(tuán)隊(duì)則在本地實(shí)施和調(diào)整。這種平衡既能保持一致性,又不會(huì)扼殺靈活性。
政策和標(biāo)準(zhǔn)提供了“道路規(guī)則”,但只有簡(jiǎn)單易懂、溝通順暢且始終如一地執(zhí)行,才能發(fā)揮作用。元數(shù)據(jù)管理則完善了這一框架:記錄數(shù)據(jù)沿襲、含義和質(zhì)量指標(biāo),確保數(shù)據(jù)可信、可發(fā)現(xiàn)并可重復(fù)使用。元數(shù)據(jù)就像一張地圖,可以防止探索者迷失在浩瀚的數(shù)據(jù)集叢林中。
最后,治理必須是一個(gè)持續(xù)改進(jìn)的過程。指標(biāo)、審計(jì)和審查周期確保治理能夠隨著法規(guī)、技術(shù)和商業(yè)模式的發(fā)展而不斷調(diào)整。
數(shù)據(jù)治理建立了確保數(shù)據(jù)準(zhǔn)確、安全、合規(guī)且可供需要數(shù)據(jù)的人訪問的框架。關(guān)鍵最佳實(shí)踐包括:
- 高管支持:獲得高層領(lǐng)導(dǎo)的明顯支持,將數(shù)據(jù)治理提升為戰(zhàn)略重點(diǎn)。
- 明確所有權(quán):建立數(shù)據(jù)所有者(通常是負(fù)責(zé)數(shù)據(jù)價(jià)值的業(yè)務(wù)領(lǐng)導(dǎo)者)和數(shù)據(jù)管理員(負(fù)責(zé)數(shù)據(jù)質(zhì)量和可訪問性的運(yùn)營(yíng)角色)。
- 平衡的運(yùn)營(yíng)模式:實(shí)施一種治理模式,在集中式標(biāo)準(zhǔn)與特定領(lǐng)域的靈活性之間取得平衡。大多數(shù)成功的組織都采用聯(lián)合式方法,即采用集中式治理策略并進(jìn)行分布式實(shí)施。
- 政策框架:制定明確的數(shù)據(jù)分類、質(zhì)量、隱私、安全和使用政策,并持續(xù)傳達(dá)和執(zhí)行。
- 元數(shù)據(jù)管理:實(shí)施系統(tǒng)來記錄數(shù)據(jù)的含義、沿襲、質(zhì)量和使用權(quán),使數(shù)據(jù)更易于發(fā)現(xiàn)和使用。
- 持續(xù)改進(jìn):建立指標(biāo)和審查流程,定期評(píng)估和提高治理效率。
2.數(shù)據(jù)質(zhì)量管理
人工智能對(duì)不良數(shù)據(jù)毫不留情?;诓粶?zhǔn)確或有偏差的數(shù)據(jù)訓(xùn)練的模型會(huì)大規(guī)模地嵌入這些缺陷。因此,組織需要系統(tǒng)性的方法來管理質(zhì)量。
第一步是定義對(duì)業(yè)務(wù)至關(guān)重要的質(zhì)量維度:準(zhǔn)確性、完整性、一致性、及時(shí)性、相關(guān)性和代表性。這些維度超越了技術(shù)上的正確性——它們考察數(shù)據(jù)是否真實(shí)地反映了人工智能應(yīng)該建模的現(xiàn)象。
定期進(jìn)行分析和評(píng)估,可以在問題愈演愈烈之前發(fā)現(xiàn)問題。自動(dòng)化分析工具可以標(biāo)記異常,但通常需要人工審核來解讀具體情況。質(zhì)量規(guī)則將這些期望轉(zhuǎn)化為可執(zhí)行的檢查:例如,“任何交易記錄都不應(yīng)缺少貨幣代碼”。
發(fā)現(xiàn)問題后,強(qiáng)有力的補(bǔ)救流程至關(guān)重要。領(lǐng)先的組織不僅會(huì)修補(bǔ)錯(cuò)誤,還會(huì)追溯其根本原因并修復(fù)上游流程。持續(xù)的監(jiān)控和警報(bào)使質(zhì)量保持可見,從而可以實(shí)時(shí)解決問題,而不是在造成損害之后。
關(guān)鍵在于,數(shù)據(jù)質(zhì)量直接影響AI模型的性能。系統(tǒng)的質(zhì)量管理方法包括:
- 質(zhì)量維度:定義和衡量關(guān)鍵維度,例如準(zhǔn)確性(數(shù)據(jù)值的正確性)、完整性(所有必要數(shù)據(jù)的存在)、一致性(不同來源的統(tǒng)一性)、及時(shí)性(更新頻率)、相關(guān)性(適用于預(yù)期用途)和代表性(無偏見或偏差)。
- 分析和評(píng)估:定期使用自動(dòng)分析工具和手動(dòng)審查分析數(shù)據(jù)以識(shí)別質(zhì)量問題。
- 質(zhì)量規(guī)則:建立業(yè)務(wù)規(guī)則,定義不同數(shù)據(jù)類型和用途的可接受質(zhì)量水平。
- 補(bǔ)救流程:制定解決質(zhì)量問題的明確程序,包括根本原因分析和預(yù)防措施。
- 監(jiān)控和警報(bào):實(shí)施持續(xù)監(jiān)控以檢測(cè)質(zhì)量下降并向相關(guān)利益相關(guān)者發(fā)出警報(bào)。
3.主數(shù)據(jù)管理
對(duì)于人工智能來說,沒有什么比“真相”的多個(gè)版本更危險(xiǎn)了。一個(gè)客戶在五個(gè)系統(tǒng)中呈現(xiàn)不同的狀態(tài),或者一個(gè)產(chǎn)品的屬性不一致,都可能讓即使是最好的人工智能模型也變得毫無用處。
這就是主數(shù)據(jù)管理 (MDM)如此重要的原因。它始于定義關(guān)鍵業(yè)務(wù)實(shí)體(客戶、產(chǎn)品、供應(yīng)商),并就描述它們的屬性達(dá)成一致。在此基礎(chǔ)上,組織必須建立黃金記錄:權(quán)威的單一事實(shí)來源,以解決重復(fù)和沖突問題。
這一過程涉及復(fù)雜的匹配和合并技術(shù),尤其是在命名約定、語言和系統(tǒng)格式差異巨大的全球性組織中。層級(jí)管理一旦建立,便會(huì)維護(hù)相關(guān)關(guān)系:例如,將子公司映射到母公司,或?qū)a(chǎn)品變體映射到產(chǎn)品類別。
最后,同步確保這些黃金記錄在所有消費(fèi)系統(tǒng)中一致地傳播。實(shí)際上,這意味著分析師、AI模型和面向客戶的系統(tǒng)在提及某個(gè)實(shí)體時(shí)都使用相同的“語言”。
有效的主數(shù)據(jù)管理包括:
- 實(shí)體定義:明確定義關(guān)鍵業(yè)務(wù)實(shí)體及其屬性。
- 黃金記錄創(chuàng)建:建立代表每個(gè)實(shí)體唯一真實(shí)版本的權(quán)威“黃金記錄”。
- 匹配和合并:實(shí)施流程來識(shí)別和協(xié)調(diào)重復(fù)或沖突的記錄。
- 層次結(jié)構(gòu)管理:維護(hù)實(shí)體之間的關(guān)系(例如,公司層次結(jié)構(gòu)、產(chǎn)品類別)。
- 同步:通過自動(dòng)同步確保跨系統(tǒng)的實(shí)體表示一致。
案例研究:阿斯利康的人工智能數(shù)據(jù)治理
在制藥行業(yè),不良數(shù)據(jù)不僅浪費(fèi)金錢,還會(huì)危及生命。阿斯利康很早就意識(shí)到了這一點(diǎn),并建立了業(yè)內(nèi)最結(jié)構(gòu)化的數(shù)據(jù)治理項(xiàng)目之一。
他們實(shí)施了分層模型:根據(jù)敏感度和監(jiān)管風(fēng)險(xiǎn),對(duì)臨床、研究和運(yùn)營(yíng)數(shù)據(jù)實(shí)施不同的治理級(jí)別。自動(dòng)化質(zhì)量檢查持續(xù)運(yùn)行,追蹤超過 200 個(gè)指標(biāo)并標(biāo)記異常。至關(guān)重要的是,他們還設(shè)計(jì)了針對(duì)AI 的治理機(jī)制,并提出以下問題:這些訓(xùn)練數(shù)據(jù)是否具有代表性?這會(huì)引入偏見嗎?
為了使治理不僅僅是文書工作,他們?nèi)蚊思榷茖W(xué)又懂?dāng)?shù)據(jù)管理的管理員,在兩個(gè)經(jīng)?;ハ嘟徽劦氖澜缰g架起了橋梁。
成果:阿斯利康的藥物研發(fā) AI 現(xiàn)已從 30 多個(gè)內(nèi)部和外部數(shù)據(jù)源獲取數(shù)據(jù)。如果沒有治理,如此規(guī)模的數(shù)據(jù)將難以管理。有了治理,他們?cè)诒3趾弦?guī)的同時(shí),加速了藥物研發(fā)流程。
教訓(xùn)顯而易見:受監(jiān)管領(lǐng)域的人工智能需要主動(dòng)而非被動(dòng)的治理。阿斯利康將治理視為加速的推動(dòng)力,而非阻礙。
與光鮮亮麗的人工智能模型相比,治理、質(zhì)量和主數(shù)據(jù)管理或許顯得不那么光鮮亮麗,但它們正是這些模型可信且可擴(kuò)展的關(guān)鍵所在。沒有這些,組織就如同在沙灘上建造城堡:人工智能輸出在演示中看起來令人印象深刻,但在生產(chǎn)環(huán)境中卻經(jīng)不起嚴(yán)格的檢驗(yàn)。
在人工智能領(lǐng)域取得成功的組織并非只是空談“數(shù)據(jù)是新的石油”。他們精煉數(shù)據(jù)、管理數(shù)據(jù),并確保數(shù)據(jù)在整個(gè)企業(yè)內(nèi)順暢流動(dòng)。只有這樣,人工智能才能成為真正業(yè)務(wù)轉(zhuǎn)型的驅(qū)動(dòng)力。
七、人工智能應(yīng)用的數(shù)據(jù)架構(gòu)
傳統(tǒng)的數(shù)據(jù)架構(gòu)專為報(bào)告、合規(guī)性和分析儀表板而設(shè)計(jì)。人工智能帶來了新的需求:更大的數(shù)據(jù)量、更廣泛的多樣性、更快的速度和更高的復(fù)雜性。如果您的架構(gòu)無法支持這些特性,那么您的人工智能計(jì)劃將始終受到管道而非算法的制約。
適合用途的人工智能架構(gòu)不是單一的技術(shù)堆棧,而是一個(gè)協(xié)同工作的組件分層生態(tài)系統(tǒng)。
支持?jǐn)?shù)據(jù)管理的技術(shù)架構(gòu)在設(shè)計(jì)時(shí)必須充分考慮人工智能的需求。人工智能應(yīng)用的數(shù)據(jù)需求通常與傳統(tǒng)分析不同,包括更大的數(shù)據(jù)量、多樣性、速度和復(fù)雜性。
1.關(guān)鍵架構(gòu)組件
AI 就緒數(shù)據(jù)架構(gòu)并非單一的技術(shù)或平臺(tái),而是一個(gè)由相互關(guān)聯(lián)的組件組成的生態(tài)系統(tǒng)。每個(gè)組件都扮演著獨(dú)特的角色,但真正的力量在于它們?nèi)绾螀f(xié)同工作,形成一個(gè)無縫的管道:從捕獲原始信號(hào),到將其轉(zhuǎn)化為結(jié)構(gòu)化洞察,再到安全地將其傳遞給 AI 模型和決策者。
把它想象成一個(gè)活的有機(jī)體。感知是它的來源,血液是它的攝取,記憶是它的存儲(chǔ),新陳代謝是它的處理,神經(jīng)系統(tǒng)是它的訪問,免疫系統(tǒng)是治理。如果其中任何一個(gè)環(huán)節(jié)出現(xiàn)故障,整個(gè)有機(jī)體就會(huì)衰弱。要設(shè)計(jì)人工智能,你需要所有部分協(xié)調(diào)一致地工作。
(1)數(shù)據(jù)源
現(xiàn)代人工智能的輸入范圍遠(yuǎn)比傳統(tǒng)分析廣泛。除了交易系統(tǒng)之外,企業(yè)現(xiàn)在還能捕獲物聯(lián)網(wǎng)傳感器讀數(shù)、網(wǎng)站點(diǎn)擊流、合作伙伴 API、衛(wèi)星數(shù)據(jù)以及音頻、視頻和圖像等非結(jié)構(gòu)化內(nèi)容。這種多樣性是一種優(yōu)勢(shì):它使人工智能能夠發(fā)現(xiàn)單個(gè)系統(tǒng)無法揭示的模式:但前提是架構(gòu)從一開始就承認(rèn)并適應(yīng)這種模式。
(2)數(shù)據(jù)提取
數(shù)據(jù)如何進(jìn)入系統(tǒng)與其最終的去向同樣重要。批量提取對(duì)于加載歷史數(shù)據(jù)集、合規(guī)性記錄和定期更新仍然至關(guān)重要。但流式提取如今也同樣重要:欺詐檢測(cè)、預(yù)測(cè)性維護(hù)和實(shí)時(shí)個(gè)性化都依賴于事件的實(shí)時(shí)捕獲和處理。成熟的組織會(huì)設(shè)計(jì)能夠同時(shí)處理這兩種節(jié)奏的管道,確保人工智能既能縱觀歷史,又能把握當(dāng)下。
(3)數(shù)據(jù)存儲(chǔ)
沒有哪個(gè)存儲(chǔ)庫(kù)能夠滿足所有需求。成功的 AI 架構(gòu)融合了多種存儲(chǔ)范式:
- 數(shù)據(jù)湖充當(dāng)原始、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的著陸區(qū),為未來的探索提供了靈活性。
- 數(shù)據(jù)倉(cāng)庫(kù)為結(jié)構(gòu)化、查詢驅(qū)動(dòng)的分析提供了優(yōu)化的環(huán)境,其中精度和一致性至關(guān)重要。
- 專門存儲(chǔ)圖形、時(shí)間序列或地理空間數(shù)據(jù),為人工智能中日益常見的利基工作負(fù)載提供性能。
藝術(shù)不在于選擇一個(gè),而在于協(xié)調(diào)這些層,以便數(shù)據(jù)在它們之間自然流動(dòng),而無需無休止的重復(fù)或手動(dòng)協(xié)調(diào)。
(4)數(shù)據(jù)處理
僅靠存儲(chǔ)并不能使數(shù)據(jù)變得有用。處理管道將原始輸入轉(zhuǎn)化為可用的洞察。人工智能既需要高強(qiáng)度的批處理(用于基于歷史數(shù)據(jù)訓(xùn)練大型模型),也需要低延遲的流處理(用于實(shí)時(shí)預(yù)測(cè))。特征工程也正是在這里發(fā)揮作用:將雜亂的原始屬性轉(zhuǎn)化為結(jié)構(gòu)化、有意義的輸入,供模型學(xué)習(xí)。一個(gè)無法高效處理特征的架構(gòu),即使是最好的算法也會(huì)變得營(yíng)養(yǎng)不良。
(6)數(shù)據(jù)訪問
如果數(shù)據(jù)無法被需要的人訪問,那么再優(yōu)雅的架構(gòu)也毫無意義。因此,實(shí)現(xiàn)數(shù)據(jù)訪問的民主化與數(shù)據(jù)安全同等重要。自助服務(wù)門戶、受管控的 API 以及 AI 訓(xùn)練的直接途徑,確保數(shù)據(jù)科學(xué)家和分析師無需等待數(shù)周才能獲得批準(zhǔn)或提取數(shù)據(jù)即可開展工作。優(yōu)秀的組織會(huì)將訪問模式轉(zhuǎn)變?yōu)榭煽氐淖灾?wù)模式,從而加速創(chuàng)新,同時(shí)確保合規(guī)性。
(6)治理與控制
最后,任何人工智能架構(gòu),如果沒有治理機(jī)制,其設(shè)計(jì)就不完整。元數(shù)據(jù)目錄、數(shù)據(jù)質(zhì)量監(jiān)控和隱私保護(hù)技術(shù)確保流經(jīng)系統(tǒng)的數(shù)據(jù)不僅豐富,而且可信且合規(guī)。這并非附加功能——而是一種機(jī)制,使創(chuàng)新能夠規(guī)?;?,而無需持續(xù)不斷地“救火”。如果沒有治理機(jī)制,組織要么在監(jiān)管壓力下陷入停滯,要么面臨因?yàn)E用而損害聲譽(yù)的風(fēng)險(xiǎn)。
這些組件組合在一起,構(gòu)成了 AI 能力的支柱。數(shù)據(jù)從數(shù)據(jù)源流向模型,經(jīng)過提取、存儲(chǔ)和處理;通過訪問,數(shù)據(jù)變得可操作;并通過治理,數(shù)據(jù)保持安全可靠。掌握這一流程的組織會(huì)發(fā)現(xiàn),他們的模型不僅在實(shí)驗(yàn)室中有效,而且在生產(chǎn)環(huán)境中也能蓬勃發(fā)展,處理數(shù)十億個(gè)事件,并提供推動(dòng)業(yè)務(wù)發(fā)展的洞察。
2.人工智能的架構(gòu)模式
過去十年,某些架構(gòu)模式在大規(guī)模實(shí)現(xiàn)人工智能方面尤為有效。這些并非靈丹妙藥,而是旨在解決數(shù)據(jù)用于機(jī)器學(xué)習(xí)和高級(jí)分析過程中反復(fù)出現(xiàn)的挑戰(zhàn)的設(shè)計(jì)方法。正確的模式通常取決于組織的成熟度、人工智能工作負(fù)載的類型以及其運(yùn)營(yíng)的監(jiān)管環(huán)境。
(1)Lambda 架構(gòu)
這種模式的誕生是為了兼顧兩方面的優(yōu)點(diǎn):批處理的完整性和流處理的即時(shí)性。
在 Lambda 設(shè)置中,歷史數(shù)據(jù)會(huì)被大批量處理,以提供深入、長(zhǎng)期的視圖,而實(shí)時(shí)層則會(huì)在事件發(fā)生時(shí)提取并處理它們。然后,兩者進(jìn)行協(xié)調(diào),以產(chǎn)生快速且準(zhǔn)確的輸出。
例如,零售銀行可能會(huì)使用批處理層,根據(jù)多年的交易歷史記錄來訓(xùn)練欺詐模型,而實(shí)時(shí)層則可以在刷卡時(shí)以毫秒為單位發(fā)現(xiàn)異常。如果沒有 Lambda,組織通常被迫在速度和完整性之間做出選擇。
(2)數(shù)據(jù)網(wǎng)格
傳統(tǒng)架構(gòu)將數(shù)據(jù)所有權(quán)集中化,隨著用例數(shù)量的增長(zhǎng),這很快就會(huì)成為瓶頸。數(shù)據(jù)網(wǎng)格模式則顛覆了這一現(xiàn)狀,將所有權(quán)分散到領(lǐng)域團(tuán)隊(duì),領(lǐng)域團(tuán)隊(duì)負(fù)責(zé)將數(shù)據(jù)集視為“產(chǎn)品”。
中央治理仍然提供共同的標(biāo)準(zhǔn),但靈活性來自于管理自己的管道、質(zhì)量和可訪問性的領(lǐng)域。
實(shí)際上,這意味著營(yíng)銷團(tuán)隊(duì)擁有其營(yíng)銷活動(dòng)績(jī)效數(shù)據(jù),并確保其可被他人發(fā)現(xiàn)和使用,而供應(yīng)鏈團(tuán)隊(duì)則擁有其物流數(shù)據(jù)。這種網(wǎng)格避免了中央IT成為唯一守門人的常見陷阱,從而拖慢了所有人的速度。
(3)特征存儲(chǔ)
機(jī)器學(xué)習(xí)中最容易被忽視的挑戰(zhàn)之一是特征的一致性。如果一個(gè)團(tuán)隊(duì)將“客戶生命周期”計(jì)算為 12 個(gè)月,而另一個(gè)團(tuán)隊(duì)將其計(jì)算為 11.5 個(gè)月,那么模型的行為就會(huì)不一致,結(jié)果也會(huì)變得不可信。
特征存儲(chǔ)通過集中創(chuàng)建、存儲(chǔ)和提供特征來解決此問題。它們提供了一個(gè)可重復(fù)使用的、版本化的變量目錄,模型可以在訓(xùn)練和推理過程中使用這些變量。
Netflix 和 Uber 等公司率先采用了這種方法,確保用于訓(xùn)練推薦或乘車匹配模型的特征也用于實(shí)時(shí)預(yù)測(cè)。這大大減少了重復(fù),并防止了細(xì)微的不一致影響 AI 性能。
(4)數(shù)據(jù)編織
如今,許多企業(yè)都在多種環(huán)境中運(yùn)營(yíng):多云、內(nèi)部部署系統(tǒng)和區(qū)域數(shù)據(jù)中心。
Data Fabric 模式提供了一個(gè)集成的“覆蓋層”,使數(shù)據(jù)在這種復(fù)雜環(huán)境中易于發(fā)現(xiàn)、訪問和一致治理。Data Fabric 工具并非將所有數(shù)據(jù)強(qiáng)制集中到一個(gè)平臺(tái),而是將不同的系統(tǒng)連接在一起,提供統(tǒng)一的視圖和治理層。
這種模式對(duì)于面臨嚴(yán)格數(shù)據(jù)駐留要求的全球組織尤其有效 - 例如,醫(yī)療保健提供商需要將患者數(shù)據(jù)保存在國(guó)界內(nèi),同時(shí)仍支持跨境研究。
3.云端與本地部署的考慮因素
- 關(guān)于云與本地?cái)?shù)據(jù)基礎(chǔ)設(shè)施的爭(zhēng)論通常被視為二元選擇,但實(shí)際上大多數(shù)組織最終選擇了混合模式。關(guān)鍵在于清楚地理解其中的利弊,而不是在轉(zhuǎn)型過程中陷入困境。
- 當(dāng)工作負(fù)載意外激增時(shí),云計(jì)算技術(shù)會(huì)大放異彩,但規(guī)?;\(yùn)營(yíng)成本高昂。本地部署雖然能更好地控制敏感數(shù)據(jù),但彈性不足。實(shí)際上,大多數(shù)企業(yè)選擇混合部署——在本地運(yùn)行受監(jiān)管的工作負(fù)載,同時(shí)利用云的彈性進(jìn)行分析和 AI 訓(xùn)練。
- 數(shù)據(jù)量和彈性:當(dāng)工作負(fù)載變化多端且規(guī)模難以預(yù)測(cè)時(shí),云平臺(tái)便能脫穎而出。訓(xùn)練一個(gè)新的 AI 模型可能需要一次性投入數(shù)千個(gè) GPU 小時(shí),而接下來的幾周內(nèi)需求量極低。云的彈性特性讓您能夠按實(shí)際使用量付費(fèi)。
- 數(shù)據(jù)敏感性:并非所有數(shù)據(jù)都可以離開本地。國(guó)家身份數(shù)據(jù)庫(kù)、機(jī)密國(guó)防數(shù)據(jù)或某些臨床試驗(yàn)記錄可能依法需要存儲(chǔ)在本地或私有云環(huán)境中。在這些情況下,混合設(shè)置允許敏感工作負(fù)載保留在本地,而不太重要的工作負(fù)載則可以利用云的彈性。
- 集成要求:有時(shí),接近性很重要。如果人工智能應(yīng)用程序需要與仍在傳統(tǒng)大型機(jī)上運(yùn)行的核心交易系統(tǒng)緊密交互,那么將部分?jǐn)?shù)據(jù)架構(gòu)保留在本地可以降低延遲和復(fù)雜性。
- 成本考量:云計(jì)算的前期成本較低,因此對(duì)企業(yè)進(jìn)行實(shí)驗(yàn)很有吸引力。然而,隨著規(guī)模的擴(kuò)大——尤其是在持續(xù)的數(shù)據(jù)傳輸和計(jì)算密集型工作負(fù)載的情況下——如果不加以管理,成本可能會(huì)飆升。因此,制定一個(gè)細(xì)致入微的成本模型至關(guān)重要。
- 監(jiān)管要求:數(shù)據(jù)駐留和主權(quán)相關(guān)的法律日益影響著架構(gòu)決策。例如,即使人工智能平臺(tái)本身是全球性的,GDPR 和類似法規(guī)也可能要求歐洲客戶數(shù)據(jù)必須保留在歐盟境內(nèi)。這促使許多企業(yè)采用區(qū)域化的混合模式。
選擇正確的架構(gòu)模式和云/本地平衡,與其說是技術(shù)潮流的體現(xiàn),不如說是將設(shè)計(jì)選擇與業(yè)務(wù)優(yōu)先級(jí)、監(jiān)管現(xiàn)實(shí)和 AI 愿景相結(jié)合。注重全球合規(guī)性的組織可能傾向于 Data Fabric 和混合部署。追求快速產(chǎn)品迭代的數(shù)字優(yōu)先企業(yè)可能會(huì)采用數(shù)據(jù)網(wǎng)格和特征存儲(chǔ)。
最重要的是認(rèn)識(shí)到架構(gòu)是具體化的戰(zhàn)略。領(lǐng)導(dǎo)者在此做出的決策不僅決定了人工智能模型的訓(xùn)練方式,還決定了它們是否能夠可靠地投入生產(chǎn)。
案例研究:匯豐銀行的人工智能數(shù)據(jù)架構(gòu)
作為全球最大的銀行之一,匯豐銀行面臨的挑戰(zhàn)并非“獲取更多數(shù)據(jù)”,而是如何解讀這些數(shù)據(jù)。超過40個(gè)核心系統(tǒng)生成客戶數(shù)據(jù),每個(gè)系統(tǒng)都采用不同的格式,并受不同地區(qū)法規(guī)的約束。
他們的解決方案是一個(gè)多層數(shù)據(jù)湖:原始數(shù)據(jù)按原樣采集,在中間區(qū)域進(jìn)行清理和標(biāo)準(zhǔn)化,然后整理成可用于分析和機(jī)器學(xué)習(xí)的特征層。在此之上,還有一個(gè)客戶360平臺(tái),負(fù)責(zé)根據(jù)各國(guó)具體情況強(qiáng)制執(zhí)行數(shù)據(jù)駐留規(guī)則。
實(shí)時(shí)流式傳輸管道為欺詐檢測(cè)系統(tǒng)提供數(shù)據(jù),將檢測(cè)窗口從數(shù)小時(shí)縮短至數(shù)毫秒。自助服務(wù)門戶為分析師和數(shù)據(jù)科學(xué)家提供了可管控的訪問權(quán)限,使整個(gè)架構(gòu)不再是黑匣子,而是成為一個(gè)共享的主干。
顯著的成效:欺詐損失減少了一半,同時(shí)通過及時(shí)的個(gè)性化服務(wù)提升了客戶體驗(yàn)。更重要的是,該架構(gòu)可擴(kuò)展到每日數(shù)十億筆交易,并且符合合規(guī)性要求。
教訓(xùn)是什么?
AI數(shù)據(jù)架構(gòu)必須同時(shí)解決規(guī)模和主權(quán)問題。匯豐銀行的經(jīng)驗(yàn)表明,如果在設(shè)計(jì)時(shí)兼顧速度和監(jiān)管,速度和監(jiān)管并非對(duì)立的。
八、合乎道德的數(shù)據(jù)收集和使用
隨著企業(yè)擴(kuò)大其在人工智能領(lǐng)域的數(shù)據(jù)應(yīng)用,道德問題也從邊緣走向中心。遵守個(gè)保法、 GDPR 或 CCPA 等法律僅僅是起點(diǎn)。真正的人工智能領(lǐng)導(dǎo)力不僅需要讓監(jiān)管機(jī)構(gòu)滿意,還需要與客戶、員工和社會(huì)建立持久的信任。在許多情況下,“正確的”道德立場(chǎng)將決定人工智能的采用是加速還是停滯。
道德數(shù)據(jù)實(shí)踐可以從四個(gè)維度來考慮:隱私、同意、公平和責(zé)任。
1.設(shè)計(jì)隱私
隱私無法改造——它必須從一開始就融入設(shè)計(jì)之中。隱私設(shè)計(jì)原則意味著每個(gè)系統(tǒng)、管道和模型從最初的架構(gòu)草圖開始就必須考慮到隱私。
首先是數(shù)據(jù)最小化:只收集真正需要的數(shù)據(jù),而不是“以防萬一”地囤積所有數(shù)據(jù)。其次是用途限制:未經(jīng)明確同意,不得將為某一目的收集的數(shù)據(jù)悄悄用于其他目的。最后是存儲(chǔ)限制:數(shù)據(jù)保留時(shí)間不得超過必要時(shí)間。
當(dāng)監(jiān)管機(jī)構(gòu)要求隱私保護(hù),而企業(yè)領(lǐng)導(dǎo)者要求洞察時(shí),這些技術(shù)便能彌合差距。差分隱私保護(hù)個(gè)人隱私,同時(shí)仍允許聚合學(xué)習(xí)。聯(lián)邦學(xué)習(xí)將數(shù)據(jù)保持在本地,這在醫(yī)療或金融領(lǐng)域非常有用,因?yàn)橛涗洘o法離開現(xiàn)場(chǎng)。同態(tài)加密則更進(jìn)一步,讓您能夠?qū)奈匆娺^的數(shù)據(jù)進(jìn)行計(jì)算。
2.知情同意
只有清晰、細(xì)致且持續(xù)的同意才有意義。很多時(shí)候,組織會(huì)用法律術(shù)語來掩蓋用戶,或者提供“全有或全無”的選擇,以此來迫使用戶接受。道德實(shí)踐恰恰相反。
- 清晰度:傳達(dá)正在收集的內(nèi)容、原因和使用方式(使用外行人可以理解的語言)
- 選擇:允許人們選擇加入或退出特定用途,而不是強(qiáng)制一概接受。
- 控制:讓個(gè)人能夠輕松改變主意、撤回同意或隨著時(shí)間的推移調(diào)整偏好。
如果處理得當(dāng),同意并非只是例行公事:它是信任關(guān)系的一部分。如此對(duì)待數(shù)據(jù)的公司通常會(huì)發(fā)現(xiàn),客戶更愿意分享數(shù)據(jù),因?yàn)樗麄兿嘈胚@些數(shù)據(jù)會(huì)被負(fù)責(zé)任地使用。
3.偏見檢測(cè)與緩解
人工智能的公平性取決于它所學(xué)習(xí)的數(shù)據(jù)。如果歷史數(shù)據(jù)存在偏差、偏見或不完整,最終的模型也會(huì)繼承這些缺陷,有時(shí)甚至?xí)⑵湟?guī)模化放大。
偏見并非一次性的測(cè)試;它潛伏在每個(gè)階段:從訓(xùn)練數(shù)據(jù)中的代表對(duì)象,到生產(chǎn)過程中如何監(jiān)控輸出。領(lǐng)先的組織不僅在開始時(shí)平衡數(shù)據(jù)集,還會(huì)持續(xù)掃描其模型,以發(fā)現(xiàn)偏差和突發(fā)的不公平現(xiàn)象。
這里的教訓(xùn)不是完美的中立是可能的,而是公平必須不斷地衡量、管理和改進(jìn)。
4.透明度和問責(zé)制
沒有透明度,道德就毫無意義。組織需要了解并能夠展示其數(shù)據(jù)來源、數(shù)據(jù)如何轉(zhuǎn)換以及在此過程中做出了哪些決策。
這需要:
- 數(shù)據(jù)沿襲:記錄來源、轉(zhuǎn)換和使用情況。
- 影響評(píng)估:在部署之前分析高風(fēng)險(xiǎn)人工智能應(yīng)用的倫理和社會(huì)影響。
- 審計(jì)跟蹤:記錄有關(guān)收集、處理和保留的決策。
- 明確的問責(zé)結(jié)構(gòu):任命明確負(fù)責(zé)道德監(jiān)督的職位和委員會(huì)。
透明度不僅僅是一種防御姿態(tài),它更是一種賦能因素。當(dāng)團(tuán)隊(duì)和利益相關(guān)者了解數(shù)據(jù)的使用方式和原因時(shí),他們更有可能信任并支持人工智能計(jì)劃。
案例研究:LinkedIn 推薦中的公平性檢查
LinkedIn 的推薦系統(tǒng)(無論是職位、人脈還是內(nèi)容)直接影響著數(shù)百萬人的職業(yè)發(fā)展機(jī)會(huì)。其風(fēng)險(xiǎn)很高:如果這些算法無意中偏袒某一群體,其結(jié)果不僅僅是糟糕的推薦,還會(huì)導(dǎo)致經(jīng)濟(jì)機(jī)會(huì)的不平等。
為了解決這個(gè)問題,領(lǐng)英已將公平性檢查直接嵌入其 AI 流程中。模型不僅會(huì)接受準(zhǔn)確性測(cè)試,還會(huì)根據(jù)性別、種族、地域和其他敏感屬性來評(píng)估公平性指標(biāo)。例如,在推薦職位時(shí),系統(tǒng)會(huì)進(jìn)行評(píng)估,以確保具有同等資質(zhì)的候選人無論屬于哪個(gè)人口群體,都能獲得同等的曝光度。
他們還開發(fā)了一個(gè)名為L(zhǎng)inkedIn Fairness Toolkit (LiFT)的框架,幫助團(tuán)隊(duì)在模型開發(fā)的不同階段衡量和緩解偏見。該工具包在團(tuán)隊(duì)內(nèi)部共享,以標(biāo)準(zhǔn)化公平實(shí)踐,并且設(shè)計(jì)得足夠輕量,可以集成到現(xiàn)有的機(jī)器學(xué)習(xí)工作流程中。
LinkedIn 給我們的關(guān)鍵教訓(xùn)是,公平性不能事后才想到,也不能只是一次性的審核。它必須作為開發(fā)生命周期的一部分來實(shí)施,并具備明確的指標(biāo)、自動(dòng)化的檢查和文化承諾。對(duì)于大規(guī)模部署 AI 的組織來說,這種方法展示了如何將偏見緩解從理論轉(zhuǎn)化為日常工程實(shí)踐。
案例研究:德國(guó)電信的道德數(shù)據(jù)框架
在電信行業(yè),數(shù)據(jù)既是最大的資產(chǎn),也是最大的負(fù)債。德國(guó)電信正致力于解決這一矛盾,將道德置于其人工智能數(shù)據(jù)戰(zhàn)略的首要位置。
他們引入了分層同意模型,讓客戶自主選擇如何使用他們的數(shù)據(jù)——從基本服務(wù)交付到高級(jí)個(gè)性化服務(wù)。他們沒有躲在細(xì)則后面,而是建立了一個(gè)透明門戶,客戶可以清楚地看到收集了哪些數(shù)據(jù)以及這些數(shù)據(jù)是如何被使用的,并且能夠?qū)崟r(shí)更改偏好設(shè)置。
在技術(shù)方面,他們采用了差異隱私技術(shù),在不暴露個(gè)人隱私的情況下提取洞察,并構(gòu)建了自動(dòng)偏差檢測(cè)工具來監(jiān)控訓(xùn)練數(shù)據(jù)集的偏差。倫理委員會(huì)被賦予了真正的權(quán)力:任何高風(fēng)險(xiǎn)的人工智能項(xiàng)目未經(jīng)其批準(zhǔn)都不能進(jìn)行。
回報(bào)是什么?客戶信任。同意率超過 85%,遠(yuǎn)高于行業(yè)標(biāo)準(zhǔn)。這意味著,與那些將隱私視為法律障礙的競(jìng)爭(zhēng)對(duì)手相比,我們獲得了更多可供 AI 使用的數(shù)據(jù)。
這個(gè)原則非常強(qiáng)大:
道德不僅僅是合規(guī):當(dāng)它增加信任并進(jìn)而增加可用數(shù)據(jù)時(shí),它就是一種競(jìng)爭(zhēng)優(yōu)勢(shì)。
合乎道德的數(shù)據(jù)實(shí)踐并非為了減緩創(chuàng)新,而是為了確保創(chuàng)新能夠規(guī)?;l(fā)展且不會(huì)遭遇阻力。過去,企業(yè)可以采取“快速行動(dòng),打破常規(guī)”的數(shù)據(jù)處理方式。如今,這種魯莽的代價(jià)顯而易見:高達(dá)數(shù)十億美元的罰款、聲譽(yù)一夜之間受損,以及人工智能系統(tǒng)被禁止使用。
在人工智能時(shí)代,勝出的組織將是那些將道德視為競(jìng)爭(zhēng)優(yōu)勢(shì)而非合規(guī)障礙的組織。通過將隱私、知情同意、公平和問責(zé)制融入數(shù)據(jù)實(shí)踐,他們不僅可以降低風(fēng)險(xiǎn),還能贏得信任,從而實(shí)現(xiàn)更豐富、更宏大的人工智能應(yīng)用。
九、克服常見的數(shù)據(jù)挑戰(zhàn)
即使擁有強(qiáng)大的戰(zhàn)略和架構(gòu),大多數(shù)組織在實(shí)施人工智能時(shí)仍會(huì)遇到障礙。這些挑戰(zhàn)并非來自算法,而是來自數(shù)據(jù)。從數(shù)據(jù)孤島到質(zhì)量問題,再到監(jiān)管障礙,各個(gè)行業(yè)和地區(qū)都存在著相同的痛點(diǎn)。好消息是,雖然這些挑戰(zhàn)很常見,但解決它們的方法也同樣常見。
1.數(shù)據(jù)孤島
大多數(shù)組織都在努力應(yīng)對(duì)困在不相連系統(tǒng)中的數(shù)據(jù),這限制了有效人工智能所需的全面視野。
或許最普遍的障礙是數(shù)據(jù)孤島。在大多數(shù)企業(yè)中,客戶和運(yùn)營(yíng)數(shù)據(jù)分散在數(shù)十個(gè)遺留系統(tǒng)中——每個(gè)系統(tǒng)都是為特定的業(yè)務(wù)功能構(gòu)建的,并且都不愿共享。對(duì)于依賴整體視角蓬勃發(fā)展的人工智能來說,數(shù)據(jù)孤島是毒藥:基于不完整或碎片化數(shù)據(jù)訓(xùn)練的模型必然會(huì)產(chǎn)生不完整或碎片化的洞察。
解決方案并非總是將所有內(nèi)容遷移到一個(gè)龐大的平臺(tái)——這通常既不現(xiàn)實(shí),也負(fù)擔(dān)不起。相反,企業(yè)正在采用數(shù)據(jù)虛擬化層和基于 API 的訪問,從而允許跨系統(tǒng)查詢數(shù)據(jù),而無需物理移動(dòng)數(shù)據(jù)。隨著時(shí)間的推移,這些方法可以演變成更廣泛的數(shù)據(jù)交換平臺(tái),并由業(yè)務(wù)部門之間的治理協(xié)議提供支持。
安聯(lián)保險(xiǎn)就是一個(gè)很好的例子,該公司面臨著14個(gè)遺留系統(tǒng)各自為政的困境。他們沒有選擇昂貴的“大爆炸”式遷移,而是部署了一個(gè)虛擬化層來創(chuàng)建統(tǒng)一的邏輯視圖。這使得他們能夠立即構(gòu)建由人工智能驅(qū)動(dòng)的客戶旅程分析,同時(shí)在后臺(tái)規(guī)劃長(zhǎng)期整合。
2.確保數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量低下會(huì)損害 AI 模型的性能,并削弱人們對(duì) AI 洞察的信任。即使數(shù)據(jù)可以訪問,也往往不可信。不準(zhǔn)確、不完整或不一致的數(shù)據(jù)會(huì)以任何模型復(fù)雜度都無法彌補(bǔ)的方式損害 AI。事實(shí)上,數(shù)據(jù)質(zhì)量低下是 AI 項(xiàng)目在生產(chǎn)中停滯不前的主要原因之一:這些模型在實(shí)驗(yàn)室中看起來很有前景,但當(dāng)輸入包含錯(cuò)誤或差距的實(shí)時(shí)數(shù)據(jù)時(shí),就會(huì)失敗。
修復(fù)需要系統(tǒng)的質(zhì)量管理框架。領(lǐng)先的組織會(huì)定義清晰的質(zhì)量維度(準(zhǔn)確性、完整性、及時(shí)性、代表性),并運(yùn)用自動(dòng)化監(jiān)控工具持續(xù)跟蹤這些維度。儀表盤和記分卡使質(zhì)量可視化,而修復(fù)工作流則分配責(zé)任,并指定責(zé)任人,從源頭解決問題。質(zhì)量領(lǐng)導(dǎo)者并非簡(jiǎn)單地糾正下游的錯(cuò)誤,而是將修復(fù)工作推向上游:調(diào)整數(shù)據(jù)輸入流程、集成邏輯或源系統(tǒng)規(guī)則,以防止同一問題再次發(fā)生。
有些公司更進(jìn)一步,將機(jī)器學(xué)習(xí)應(yīng)用于數(shù)據(jù)質(zhì)量本身:異常檢測(cè)算法可以比人工檢查更快地發(fā)現(xiàn)缺失值、不可能范圍或重復(fù)記錄的模式。隨著時(shí)間的推移,這會(huì)形成一個(gè)反饋循環(huán),不僅可以檢測(cè)和糾正質(zhì)量問題,還可以預(yù)防這些問題。
瑞銀集團(tuán)(UBS)就是一個(gè)典型的例子,它實(shí)施了一個(gè)自動(dòng)化質(zhì)量框架,評(píng)估其金融數(shù)據(jù)資產(chǎn)的300多個(gè)維度。該系統(tǒng)不僅標(biāo)記錯(cuò)誤,還將錯(cuò)誤直接發(fā)送給負(fù)責(zé)的管理員,并提供解決方案的背景信息。一年之內(nèi),關(guān)鍵數(shù)據(jù)錯(cuò)誤減少了75%。關(guān)鍵在于,質(zhì)量必須具體化(包括指標(biāo)、工具和明確的責(zé)任),而不是停留在抽象的愿景階段。
3.數(shù)據(jù)可訪問性
一旦打破數(shù)據(jù)孤島,質(zhì)量得到保證,下一個(gè)障礙就是訪問。在許多組織中,數(shù)據(jù)存在但被鎖定——只有少數(shù)擁有特殊權(quán)限的團(tuán)隊(duì)才能訪問,或者隱藏在繁瑣的申請(qǐng)流程之后。這減緩了人工智能創(chuàng)新的速度,并催生了影子IT,團(tuán)隊(duì)可以繞過控制措施獲取所需數(shù)據(jù)。
反之亦然:數(shù)據(jù)過于開放且缺乏防護(hù)措施,可能會(huì)暴露敏感信息,并帶來監(jiān)管風(fēng)險(xiǎn)。挑戰(zhàn)在于在可訪問性和可控性之間找到平衡。
先進(jìn)的組織通過自助服務(wù)平臺(tái)來解決這個(gè)問題,這些平臺(tái)將便捷的發(fā)現(xiàn)與嵌入式治理相結(jié)合。例如,數(shù)據(jù)市場(chǎng)允許員工像在線購(gòu)物一樣搜索和請(qǐng)求數(shù)據(jù)集,但可以自動(dòng)執(zhí)行訪問策略、屏蔽敏感字段并提供清晰的審計(jì)線索。
聯(lián)合利華提供了一個(gè)引人注目的案例。他們創(chuàng)建了一個(gè)可供超過10,000名員工訪問的全球數(shù)據(jù)市場(chǎng)。該系統(tǒng)在后臺(tái)自動(dòng)應(yīng)用基于角色的訪問規(guī)則和匿名化處理,確保合規(guī)性始終如一。其結(jié)果是,數(shù)據(jù)驅(qū)動(dòng)的實(shí)驗(yàn)在190個(gè)國(guó)家/地區(qū)激增,證明了治理和民主化在設(shè)計(jì)得當(dāng)?shù)那闆r下可以相互促進(jìn)。
4.擴(kuò)展數(shù)據(jù)量和性能
隨著人工智能發(fā)展壯大,所涉及的數(shù)據(jù)規(guī)模也日益增長(zhǎng)。欺詐檢測(cè)、供應(yīng)鏈優(yōu)化或個(gè)性化推薦的模型通常需要每天處理數(shù)十億條記錄或數(shù)TB的事件流。傳統(tǒng)的、專為批量報(bào)告設(shè)計(jì)的基礎(chǔ)設(shè)施根本無法滿足需求。
解決方案在于兼具分布式和彈性的架構(gòu)。分布式框架(例如 Spark 或 Flink)可以并行處理海量數(shù)據(jù)集,而云的彈性則確保可以根據(jù)工作負(fù)載的變化調(diào)整計(jì)算能力。為了控制成本,領(lǐng)先的組織實(shí)施了分層存儲(chǔ)策略,將常用數(shù)據(jù)存儲(chǔ)在高性能環(huán)境中,而將不太重要的數(shù)據(jù)壓縮或歸檔。
一些邊緣用例更進(jìn)一步,將處理過程推向更接近數(shù)據(jù)生成點(diǎn)的位置。例如,在航運(yùn)領(lǐng)域,邊緣計(jì)算允許船舶傳感器在本地處理數(shù)據(jù),以便立即做出安全響應(yīng),而匯總的洞察隨后會(huì)上傳到云端進(jìn)行更深入的分析。
全球航運(yùn)公司馬士基就是一個(gè)很好的例子。他們構(gòu)建了一個(gè)混合平臺(tái),將用于運(yùn)營(yíng)工作負(fù)載的本地高性能系統(tǒng)與用于人工智能和分析的云端處理相結(jié)合。這使得他們每天能夠處理超過30TB的航運(yùn)數(shù)據(jù),同時(shí)保持關(guān)鍵運(yùn)營(yíng)系統(tǒng)以亞秒級(jí)延遲運(yùn)行。經(jīng)驗(yàn)教訓(xùn):規(guī)模化不僅僅關(guān)乎存儲(chǔ);它關(guān)乎將性能工程融入到管道的每一層。
5.數(shù)據(jù)隱私與法規(guī)遵從性
最后,任何關(guān)于數(shù)據(jù)挑戰(zhàn)的討論,如果沒有隱私和監(jiān)管,都是不完整的。日益嚴(yán)格的法律——?dú)W洲的《通用數(shù)據(jù)保護(hù)條例》(GDPR)、加州的《消費(fèi)者隱私法案》(CCPA)、巴西的《消費(fèi)者隱私保護(hù)法》(LGPD)——都規(guī)定了數(shù)據(jù)的收集、存儲(chǔ)和傳輸方式。與此同時(shí),客戶對(duì)其信息的使用方式比以往任何時(shí)候都更加敏感。對(duì)于人工智能領(lǐng)導(dǎo)者來說,這既是法律問題,也是聲譽(yù)問題。
解決方案是采用隱私設(shè)計(jì),將合規(guī)性嵌入數(shù)據(jù)生命周期的每個(gè)階段,而不是事后才添加。這意味著構(gòu)建數(shù)據(jù)無法合法跨境的區(qū)域駐留功能,自動(dòng)化合規(guī)性監(jiān)控,并采用差異隱私或聯(lián)邦學(xué)習(xí)等先進(jìn)技術(shù),在不集中敏感數(shù)據(jù)的情況下提取洞察。
西班牙對(duì)外銀行(BBVA)展示了如何大規(guī)模地實(shí)現(xiàn)這一點(diǎn)。他們實(shí)施了一個(gè)全球隱私框架,該框架根據(jù)敏感度自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類,執(zhí)行特定地區(qū)的規(guī)則,并維護(hù)所有市場(chǎng)的審計(jì)線索。這使得他們能夠在多個(gè)司法管轄區(qū)無縫運(yùn)行人工智能應(yīng)用程序,而不會(huì)遇到監(jiān)管障礙?;貓?bào)不僅在于合規(guī)性,還在于敏捷性——他們的團(tuán)隊(duì)可以自信地進(jìn)行創(chuàng)新,因?yàn)樗麄冎烙凶o(hù)欄在。
這些挑戰(zhàn)的驚人之處并非在于它們是新事物,而在于人工智能提升了風(fēng)險(xiǎn)。數(shù)據(jù)孤島、質(zhì)量低下、訪問受限、規(guī)模限制以及合規(guī)性障礙長(zhǎng)期以來一直困擾著企業(yè)——但在人工智能驅(qū)動(dòng)的世界里,這些問題變得至關(guān)重要?;诓煌暾蛴衅姷臄?shù)據(jù)訓(xùn)練的模型不僅會(huì)生成糟糕的報(bào)告,還可能不公平地拒絕貸款、誤診患者或錯(cuò)誤地觸發(fā)金融欺詐警報(bào)。
成功的組織會(huì)將這些挑戰(zhàn)視為設(shè)計(jì)問題,而非事后諸葛亮。他們構(gòu)建互操作性以克服孤島,將質(zhì)量作為一項(xiàng)運(yùn)營(yíng)準(zhǔn)則,在設(shè)計(jì)訪問權(quán)限時(shí)融入治理機(jī)制,設(shè)計(jì)性能以實(shí)現(xiàn)規(guī)?;?,并將隱私視為一項(xiàng)信任資產(chǎn),而非法律規(guī)定的最低限度。
通過這樣做,他們創(chuàng)造了一個(gè)環(huán)境,讓人工智能能夠超越試點(diǎn)和概念驗(yàn)證,進(jìn)入能夠帶來真正商業(yè)價(jià)值的生產(chǎn)系統(tǒng)??朔@些挑戰(zhàn)并非可有可無——這正是人工智能從實(shí)驗(yàn)室的好奇心到成為一股變革力量的區(qū)別所在。
十、結(jié)論
數(shù)據(jù)仍然是人工智能成敗的關(guān)鍵因素。將數(shù)據(jù)視為戰(zhàn)略資產(chǎn)(有目的地管理、有紀(jì)律地治理、以規(guī)模為目標(biāo)進(jìn)行架構(gòu))的組織能夠構(gòu)建具有韌性、可靠性和變革性的人工智能能力。而忽視數(shù)據(jù)的企業(yè)很快就會(huì)發(fā)現(xiàn),即使是最復(fù)雜的模型也無法克服薄弱的基礎(chǔ)。
本章概述的實(shí)踐并非抽象的理想,而是切實(shí)可行的杠桿:將數(shù)據(jù)戰(zhàn)略與業(yè)務(wù)愿景相結(jié)合,在不扼殺創(chuàng)新的情況下實(shí)施治理,設(shè)計(jì)兼顧靈活性與可控性的架構(gòu),將道德規(guī)范作為信任的倍增器,并應(yīng)對(duì)數(shù)據(jù)孤島、質(zhì)量、訪問、規(guī)模和合規(guī)性等長(zhǎng)期存在的挑戰(zhàn)。這些實(shí)踐共同構(gòu)成了企業(yè)的藍(lán)圖,使企業(yè)不僅能夠嘗試人工智能,還能滿懷信心地?cái)U(kuò)展其應(yīng)用。
回報(bào)不僅僅是更好的模型,更是一種復(fù)合的競(jìng)爭(zhēng)優(yōu)勢(shì)。每一個(gè)新的數(shù)據(jù)集都會(huì)鞏固基礎(chǔ),每一次治理改進(jìn)都會(huì)加速部署,每一次道德選擇都會(huì)建立信任,從而釋放更豐富的機(jī)遇。





























