人工智能是糖霜,數(shù)據(jù)是蛋糕
人工智能已不再只是個熱詞——正迅速成為企業(yè)運營、競爭和創(chuàng)新的關鍵環(huán)節(jié)。從生成模型和輔助駕駛到預測引擎和智能代理,正在重新定義各行各業(yè)的可能性。
然而,盡管人工智能備受矚目,但真正推動其價值的卻是數(shù)據(jù)。因為無論模型多么復雜,其威力都取決于其背后數(shù)據(jù)的質(zhì)量、結(jié)構(gòu)和背景。就像沒有蛋糕的糖霜一樣,沒有優(yōu)質(zhì)數(shù)據(jù)的人工智能也缺乏實質(zhì)內(nèi)容。
隨著企業(yè)紛紛采用人工智能來提升生產(chǎn)力、實現(xiàn)決策自動化并挖掘洞察,一個因素悄然決定著這些雄心壯志能夠?qū)崿F(xiàn)到何種程度:底層數(shù)據(jù)的質(zhì)量。如果基礎薄弱,即使是最智能的模型也會失效。
不要責怪模型——檢查成分
許多組織期望部署新的AI模型能夠立即提升其商業(yè)智能。盡管AI確實在快速發(fā)展,但這些系統(tǒng)的成功取決于支撐它們的基礎設施。傳統(tǒng)的架構(gòu)、孤立的運營和臨時的治理可能會限制AI的發(fā)揮。
無論算法多么精妙,也無法彌補不良數(shù)據(jù)帶來的問題。這就像準備菜譜一樣:即使有五星級糕點師和最好的烤箱,過期或標簽錯誤的食材也會導致令人失望的結(jié)果。
世界已經(jīng)親眼目睹了這種情況。2023年,谷歌的Bard聊天機器人錯誤地宣稱詹姆斯·韋伯太空望遠鏡拍攝到了第一張系外行星的圖像——這一錯誤源于未經(jīng)驗證的互聯(lián)網(wǎng)數(shù)據(jù),導致Alphabet估值損失數(shù)十億美元。
這不是人工智能的失敗,而是驅(qū)動它的數(shù)據(jù)的失敗。當人工智能輸出出現(xiàn)問題時,問題不應該是“模型出了什么問題?”,而應該問“模型從中學到了什么?”。按照咱們中國人一些地方的一句話:跟著好人學好人,跟著巫婆跳假神。
碎片化數(shù)據(jù),碎片化情報
過去二十年,各大企業(yè)部署了眾多數(shù)字化平臺。雖然提升了效率,但也導致數(shù)據(jù)在CRM、ERP和營銷系統(tǒng)之間分散。數(shù)據(jù)孤島嚴重限制了人工智能的潛力。
數(shù)據(jù)集成不力和系統(tǒng)孤立是阻礙人工智能成功的常見因素。但集成僅僅是個開始。數(shù)據(jù)質(zhì)量如何?是否存在重復?格式是否標準化?標簽是否準確?是否實時更新?
答案往往是:并非如此。骯臟或不一致的數(shù)據(jù)會破壞信任,減緩采用速度,并給人工智能系統(tǒng)帶來偏見和不可預測性。
每個人工智能成功故事背后的幕后英雄
從優(yōu)化物流到影響市場的預測,人工智能在每一項商業(yè)突破的背后,都離不開嚴謹?shù)臄?shù)據(jù)基礎設施。真正的差異化因素并非模型,而是驅(qū)動模型的干凈、互聯(lián)且不斷更新的數(shù)據(jù)。
例如,美國快遞公司UPS利用人工智能優(yōu)化配送路線,最大限度地降低燃油消耗并減少延誤。但其魔力在于其充滿活力的數(shù)據(jù)生態(tài)系統(tǒng):天氣數(shù)據(jù)、交通信息、遠程信息處理和包裹元數(shù)據(jù)均實時運作。
同樣,彭博社能夠提供實時市場摘要,源于其基于精心標記、清理和規(guī)范化數(shù)據(jù)構(gòu)建的復雜模型。 其結(jié)果是,能夠提供用戶信賴的、內(nèi)容豐富的洞察。
架構(gòu)先于算法
企業(yè)常常將人工智能視為一種獨立的工具,而非精心設計架構(gòu)的成果。在問“我們應該購買哪種人工智能工具?”之前,不妨先問問自己:“我們想要改進哪些決策?我們是否有數(shù)據(jù)支持這些決策?”
人工智能的基礎在于一些操作性問題:我們的系統(tǒng)能夠相互溝通嗎?我們擁有標記好的數(shù)據(jù)集嗎?我們捕捉的是否是上下文,而不僅僅是內(nèi)容?
并非關乎大數(shù)據(jù)——而是關乎更優(yōu)質(zhì)的數(shù)據(jù)
更多數(shù)據(jù)并不總是意味著更好的人工智能。根據(jù)Qlik 2025年的一項調(diào)查,81%的人工智能專業(yè)人士報告了數(shù)據(jù)質(zhì)量挑戰(zhàn),77%的企業(yè)預計數(shù)據(jù)問題會導致其人工智能項目脫軌。2024年的一項蒙特卡洛調(diào)查發(fā)現(xiàn),68%的數(shù)據(jù)團隊對其人工智能就緒數(shù)據(jù)缺乏信心,三分之二的團隊報告稱,六個月內(nèi)發(fā)生的數(shù)據(jù)事故損失超過10萬美元。
高性能人工智能取決于:
? 完整性:無重復,缺失值最少
? 一致性:標準化格式和統(tǒng)一標簽
? 平衡:跨人口、地理和行為維度的代表性
? 情境完整性:反映現(xiàn)實世界的動態(tài),而不是靜態(tài)快照
確保人工智能的公平性,首先要確保數(shù)據(jù)的完整性。包括抵制不加區(qū)分地從開源數(shù)據(jù)中抓取數(shù)據(jù)。合成數(shù)據(jù)可以提供幫助,但前提是必須有負責任的治理、領域驗證和人工監(jiān)督。
漂移和延遲的代價
數(shù)據(jù)就像食物一樣,可能會過期。基于上一季度數(shù)據(jù)訓練的模型在本季度可能會失效。實時監(jiān)控數(shù)據(jù)和模型至關重要。針對假日購物季調(diào)整的模型在第二季度的表現(xiàn)可能大相徑庭。
在我們這種受監(jiān)管的行業(yè)尤其如此,錯誤可能會造成嚴重后果。數(shù)據(jù)治理并非一次性工作,必須融入日常運營之中。
整合起來
人工智能或許聽起來像魔法,但驅(qū)動力來自結(jié)構(gòu),而非魔法。每個智能系統(tǒng)的背后都有著無名英雄:戰(zhàn)略、架構(gòu)、治理和環(huán)境。而這些環(huán)境都蘊藏在數(shù)據(jù)之中。
當組織將數(shù)據(jù)視為戰(zhàn)略資產(chǎn):干凈、互聯(lián)且值得信賴時,人工智能就不再只是錦上添花,而是成為一件值得慶祝的事情。































