數(shù)據(jù)治理新解法:AI驅(qū)動的企業(yè)數(shù)據(jù)平權(quán)與洞察
一、企業(yè)數(shù)據(jù)治理和使用的痛點(diǎn)
二、AI帶來的企業(yè)數(shù)據(jù)治理和掘金新機(jī)會
三、落地和展望
一、企業(yè)數(shù)據(jù)治理和使用的痛點(diǎn)
圖片
當(dāng)前,國內(nèi)互聯(lián)網(wǎng)已步入“業(yè)務(wù)3.0”階段——由增量藍(lán)海轉(zhuǎn)為存量紅海,增長邏輯從高速擴(kuò)張轉(zhuǎn)向精耕細(xì)作。企業(yè)唯有依賴既有數(shù)據(jù)資產(chǎn),挖掘潛在機(jī)會,方能在存量競爭中保持優(yōu)勢。然而,數(shù)據(jù)價(jià)值釋放面臨兩大掣肘:
- 歷史包袱沉重
業(yè)務(wù)1.0、2.0階段側(cè)重快速迭代,數(shù)據(jù)沉淀缺乏統(tǒng)一規(guī)劃,字段口徑頻繁變更,臟數(shù)據(jù)、冗余數(shù)據(jù)比例高,直接拉低挖掘效果。
- 治理成本高昂
傳統(tǒng)數(shù)據(jù)治理需投入大量人力與時(shí)間,周期長、見效慢,與業(yè)務(wù)“短平快”訴求矛盾,導(dǎo)致“想挖掘先治理”難以落地。
AI技術(shù)的成熟為上述困境提供新解:通過智能化手段低成本完成數(shù)據(jù)清洗、口徑對齊與質(zhì)量評估,縮短治理鏈路,使企業(yè)以最小代價(jià)獲得可信賴的數(shù)據(jù)底座,從而真正邁入“數(shù)據(jù)驅(qū)動增長”的3.0時(shí)代。
圖片
聚焦當(dāng)前數(shù)據(jù)痛點(diǎn),剖析其阻礙“數(shù)據(jù)驅(qū)動增長”之機(jī)理,核心矛盾體現(xiàn)在兩大維度:
- 橫向不一致
酒店、機(jī)票等垂直業(yè)務(wù)線各自沉淀指標(biāo),字段口徑、命名規(guī)范及更新頻度差異顯著,導(dǎo)致跨域數(shù)據(jù)難以對齊。據(jù)此設(shè)定增長目標(biāo)或評估潛在空間時(shí),結(jié)果常被系統(tǒng)性偏差干擾,出現(xiàn)“目標(biāo)失真、舉措錯位”現(xiàn)象。
- 縱向不一致
同一業(yè)務(wù)在不同發(fā)展階段關(guān)注焦點(diǎn)不同:早期以獲客為核心,模型圍繞 PV、UV 構(gòu)建;中后期轉(zhuǎn)向收益,模型又基于 GMV、利潤率重塑。前后指標(biāo)定義、粒度與衍生邏輯互不兼容,致使歷史數(shù)據(jù)無法連貫追溯,難以通過“子指標(biāo)改善→整體指標(biāo)提升”的拆解路徑釋放增量價(jià)值。
綜上,數(shù)據(jù)口徑失序直接削弱目標(biāo)設(shè)定的科學(xué)性與策略落地的可達(dá)性,成為業(yè)務(wù)增長必須首先破除的壁壘。
圖片
企業(yè)內(nèi)部“取數(shù)”可歸納為三大環(huán)節(jié)、十項(xiàng)痛點(diǎn),各環(huán)節(jié)層層疊加,終致數(shù)據(jù)使用成本居高不下。
- 找數(shù)難
底表規(guī)模龐大且人員流動頻繁,交接過程常使高頻查詢口徑遺失。
交叉業(yè)務(wù)需跨團(tuán)隊(duì)溝通,組織壁壘抬高獲取門檻。
業(yè)務(wù)方向調(diào)整迅速,原有積累失效,團(tuán)隊(duì)需重復(fù)從零梳理。
- 取數(shù)難
同一指標(biāo)存在多種底表與口徑,元信息晦澀,產(chǎn)運(yùn)人員難以快速定位所需字段。
復(fù)雜 SQL 編寫與校驗(yàn)耗時(shí),即便技術(shù)崗亦需投入大量精力,產(chǎn)運(yùn)側(cè)更無力承擔(dān)。
復(fù)用歷史腳本時(shí),復(fù)制粘貼易引致標(biāo)點(diǎn)、字段等低級錯誤。
產(chǎn)品在既有 SQL 上憑直覺修改,缺乏語法校驗(yàn),出錯概率高。
- 使用難
匯報(bào)場景要求口徑嚴(yán)格一致,但同名指標(biāo)在不同語境下定義常異,導(dǎo)致數(shù)據(jù)與管理層預(yù)期錯位。
業(yè)務(wù)術(shù)語與經(jīng)營指標(biāo)需人工映射翻譯,增加額外理解與轉(zhuǎn)換成本,拉高整體使用門檻。
圖片
挖掘數(shù)據(jù)價(jià)值的常見問題:
- 效率低下
日常、重復(fù)及長尾分析占據(jù)大量時(shí)間,產(chǎn)運(yùn)人員反復(fù)執(zhí)行相似腳本,價(jià)值密度低。
- 周期冗長
復(fù)雜分析需多層拆解,逢匯報(bào)節(jié)點(diǎn)更集中爆發(fā);跨團(tuán)隊(duì)場景需匯聚多業(yè)務(wù)域數(shù)據(jù),協(xié)調(diào)與清洗過程進(jìn)一步拉長周期。
- 難度陡增
精細(xì)化運(yùn)營驅(qū)動下,指標(biāo)維度常超 10 個,人工已無法有效遍歷組合,僅能憑經(jīng)驗(yàn)篩選少數(shù)維度,易遺漏關(guān)鍵洞察。
若依賴專業(yè)數(shù)據(jù)分析師,則受限于稀缺編制,僅能覆蓋戰(zhàn)略級課題,產(chǎn)運(yùn)側(cè)需求普遍處于排隊(duì)狀態(tài)。
傳統(tǒng)解法無外乎“加人”或“提能”,均面臨成本與規(guī)模瓶頸,難以普及。
圖片
在數(shù)據(jù)價(jià)值鏈中,三類核心角色本應(yīng)各司其職:
- 產(chǎn)品:提出需求并使用數(shù)據(jù),驅(qū)動業(yè)務(wù)決策;
- 數(shù)倉:治理數(shù)據(jù),保障資產(chǎn)質(zhì)量與架構(gòu)穩(wěn)定;
- 商分:深度分析,輸出洞察與策略。
由于前述痛點(diǎn),現(xiàn)實(shí)出現(xiàn)明顯錯位:產(chǎn)品忙于口徑對齊與尋數(shù),數(shù)倉疲于應(yīng)付臨時(shí) SQL,商分被迫自建中間表。三方相互補(bǔ)位、協(xié)同低效,難以形成“數(shù)據(jù)驅(qū)動業(yè)務(wù)”的閉環(huán)。為破解此困局,團(tuán)隊(duì)啟動 AI 方案,以技術(shù)手段替代人工補(bǔ)位,促使各角色回歸高價(jià)值工作。
二、AI帶來的企業(yè)數(shù)據(jù)治理和掘金新機(jī)會
圖片
對大語言模型在數(shù)據(jù)領(lǐng)域的應(yīng)用潛力,我們歸納于四個層面:
1、知識庫與數(shù)據(jù)治理
模型可自動規(guī)范化元數(shù)據(jù),并嵌入 AI 工作流或智能體,實(shí)現(xiàn)治理標(biāo)準(zhǔn)化;歷史經(jīng)驗(yàn)沉淀后供“永不離職”的模型持續(xù)復(fù)用,形成可傳承、可擴(kuò)展的資產(chǎn)。
2、Chatbot 問答
以自然語言交互替代人工咨詢,支持底表、字段、需求及 SQL 的即時(shí)問答,降低溝通成本。
3、智能體(Agent)
依托工具調(diào)用與代碼執(zhí)行能力,完成端到端任務(wù)交付,對長尾、低 ROI 需求提供低成本解決方案,釋放被壓抑的產(chǎn)運(yùn)需求。
4、模型原生能力
大語言模型具備專業(yè)數(shù)據(jù)知識與編碼能力,可生成高質(zhì)量 SQL 及復(fù)雜分析代碼,直接媲美中級數(shù)據(jù)分析師,為深度洞察提供技術(shù)底座。
圖片
AI 對數(shù)據(jù)價(jià)值鏈各核心角色的賦能路徑如下:
1、業(yè)務(wù)產(chǎn)品
- 自然語言即取數(shù):以口語化提問自動獲得對應(yīng) SQL 與結(jié)果,無需技術(shù)背景
- 口徑問答:實(shí)時(shí)核查指標(biāo)定義,確保與全局口徑一致,消除“同名不同義”風(fēng)險(xiǎn)
2、數(shù)倉治理
- 自動打標(biāo):基于模型識別字段業(yè)務(wù)含義,生成標(biāo)準(zhǔn)化標(biāo)簽
- 實(shí)體與關(guān)系識別:自動發(fā)現(xiàn)表間關(guān)聯(lián)、主外鍵及冗余字段,輔助構(gòu)建一致性數(shù)據(jù)資產(chǎn)
(示例見后頁)
3、商業(yè)分析
- 行業(yè)洞察:利用模型內(nèi)置商業(yè)知識,快速生成市場趨勢、競品對標(biāo)結(jié)論
- 復(fù)雜分析:面向預(yù)測、用戶行為路徑等場景,自動生成分析代碼與可視化報(bào)告,顯著縮短深度研究周期
圖片
AI 構(gòu)建業(yè)務(wù)知識庫的實(shí)踐路徑可歸納為五個層面:
1、模型實(shí)體識別
面對海量異構(gòu)及非結(jié)構(gòu)化日志,模型可自動抽取出訂單、資金、產(chǎn)品、用戶等核心實(shí)體,實(shí)現(xiàn) schema-free 資產(chǎn)的快速結(jié)構(gòu)化。
2、血緣關(guān)系識別
通過解析監(jiān)控與鏈路日志,建立指標(biāo)級血緣:
當(dāng)總量指標(biāo)異常時(shí),一鍵定位上游波動源;
識別同鏈路指標(biāo)的同漲同跌規(guī)律,輔助歸因;
支撐搜索請求量暴漲等場景的下鉆分析,自動拆解至用戶類型、產(chǎn)品維度等細(xì)分因子。
3、業(yè)務(wù)標(biāo)簽打標(biāo)
對航班、行程、產(chǎn)品等靜態(tài)數(shù)據(jù)賦予場景化標(biāo)簽(如“紅眼航班”“周末親子游”),使搜索結(jié)果與用戶需求精準(zhǔn)匹配,顯著提升轉(zhuǎn)化率。
4、情感與正負(fù)向分析
- 失敗厭惡識別:連續(xù)搜索無結(jié)果即觸發(fā)券激勵策略;
- 操作日志情感打分:區(qū)分成功、失敗與未達(dá)預(yù)期事件,為系統(tǒng)優(yōu)化提供實(shí)時(shí)信號。
5、流程自動提取
針對 1.0–3.0 階段累積的老系統(tǒng),利用模型從現(xiàn)有日志中反向解析完整業(yè)務(wù)流程,生成可定期更新的“活”流程圖,解決“人口述不全”的痛點(diǎn),實(shí)現(xiàn)知識庫的持續(xù)自我進(jìn)化。
圖片
實(shí)體識別流程如圖:輸入數(shù)據(jù)經(jīng)模型解析后完成關(guān)系抽取,輸出結(jié)構(gòu)化實(shí)體。
以下為用戶會話實(shí)體示例。該實(shí)體系新增定義,此前并未建模,現(xiàn)借助大模型直接從主流程日志提取,可一次性還原用戶連續(xù)動作(列表瀏覽、往返篩選、詳情查看、出發(fā)到達(dá)及日期選擇等)。無需額外建設(shè)模型與管理平臺,即可沉淀高價(jià)值屬性,反哺主流程體驗(yàn)優(yōu)化與潛在問題定位。
圖片
流程提取案例如下:依托埋點(diǎn)日志與既有鏈路串聯(lián)能力,對復(fù)雜訂單業(yè)務(wù)進(jìn)行實(shí)體識別,鎖定訂單相關(guān)事件后生成流程圖。為確保跨平臺一致性,采用 Mermaid DSL 描述并可視化輸出。
圖片
業(yè)務(wù)流程提取實(shí)現(xiàn)流程可劃分為三階段:
1、原始數(shù)據(jù)獲取
采集最細(xì)粒度日志,結(jié)合工具與 AI 完成初步結(jié)構(gòu)化;對無法直接結(jié)構(gòu)化的字段,由模型按業(yè)務(wù)語義對齊并補(bǔ)全。
2、DSL 生成
將結(jié)構(gòu)化結(jié)果轉(zhuǎn)換為 Mermaid DSL,自動輸出標(biāo)準(zhǔn)化流程圖,確??缙脚_呈現(xiàn)一致。
3、交互式追問
依托真實(shí)日志與 DSL,支持“為何訂單進(jìn)入某節(jié)點(diǎn)”等回溯問詢,模型即時(shí)給出基于規(guī)則與數(shù)據(jù)的解釋。
該方案已解決多條歷史遺留、人工難以梳理的復(fù)雜業(yè)務(wù)流程,顯著降低梳理成本并提升可維護(hù)性。
圖片
歷史數(shù)據(jù)沉淀曾因“用途不明”而被忽視。AI 大模型出現(xiàn)后,其 ROI 立即顯性化,價(jià)值釋放體現(xiàn)在三點(diǎn):
1、穩(wěn)定價(jià)值流
模型可支撐“治理→使用”全鏈路閉環(huán),數(shù)據(jù)挖掘與訓(xùn)練頻率由“周”縮短至“小時(shí)”,后續(xù)案例將給出量化對比。
2、穩(wěn)定角色
模型“永不離職”,治理思路、規(guī)則與中間產(chǎn)物可長期保鮮,避免人員流失導(dǎo)致知識斷層。
3、成本遞減
AI 嵌入現(xiàn)有流程或重構(gòu)新流程均可行,治理邊際成本顯著下降;同時(shí)覆蓋率提升,核心業(yè)務(wù)表與長尾交叉指標(biāo)可一并納入治理范圍,實(shí)現(xiàn)低成本、全量級數(shù)據(jù)資產(chǎn)管理。
圖片
此圖展示 SQL Agent 知識庫的迭代流程,意在說明:把 AI 嵌入數(shù)據(jù)治理可顯著提升效率。評測 Agent 與 SQL 生成 Agent 可自動發(fā)現(xiàn)知識缺口并觸發(fā)補(bǔ)充,形成閉環(huán),持續(xù)加速知識庫演進(jìn)。
圖片
以下通過“工單降門檻”案例,展示 AI 在數(shù)據(jù)使用環(huán)節(jié)的價(jià)值。
1、原有流程
線上缺陷觸發(fā)工單 → 值班開發(fā)人工檢索日志、代碼、Wiki → 定位問題耗時(shí)高,且每周輪值帶來顯著心智負(fù)擔(dān)。
2、AI 改造
將系統(tǒng)日志、PRD、代碼與 Wiki 統(tǒng)一接入知識庫,構(gòu)建問答式接口。業(yè)務(wù)方以自然語言描述現(xiàn)象,模型即時(shí)返回關(guān)聯(lián)日志片段、異常根因及修復(fù)建議,無需再經(jīng)開發(fā)側(cè)排查。該方案顯著釋放開發(fā)人力,同時(shí)縮短業(yè)務(wù)方獲取數(shù)據(jù)與答案的路徑。
圖片
成效以“航變驗(yàn)證”場景為例:
過去,訂單是否真實(shí)發(fā)生航變,需由產(chǎn)運(yùn)提交工單,等待開發(fā)或數(shù)倉人工核查日志、比對代碼邏輯,耗時(shí)數(shù)小時(shí)至數(shù)天。
接入 AI 問答后,產(chǎn)運(yùn)直接輸入訂單號與自然語言提問,模型即時(shí)聚合系統(tǒng)日志、解析代碼分支,秒級返回結(jié)論。該流程已完全無需開發(fā)介入,實(shí)現(xiàn)業(yè)務(wù)問題自助式閉環(huán)。
圖片
常規(guī)底表與數(shù)倉查詢亦可通過自然語言直接提問,模型即時(shí)返回結(jié)果。
AI 對數(shù)據(jù)使用場景的擴(kuò)展可從“數(shù)據(jù)域”與“使用域”雙維度展開:
1、數(shù)據(jù)域
類型延伸:由結(jié)構(gòu)化數(shù)據(jù)(SQL、ES)拓展至日志、文本、圖像等非結(jié)構(gòu)化數(shù)據(jù),無需前置治理即可直接解析。
輸入擴(kuò)展:用戶行為日志、系統(tǒng)運(yùn)行日志等原始痕跡成為可即時(shí)查詢的數(shù)據(jù)源,省去傳統(tǒng)提取與加工環(huán)節(jié)。
交叉融合:跨領(lǐng)域數(shù)據(jù)僅需一次性合并提問,模型自動完成關(guān)聯(lián)分析,顯著降低治理與協(xié)同成本。
2、使用域
依托上述數(shù)據(jù),可實(shí)時(shí)完成情感識別、意圖識別及場景化推薦,實(shí)現(xiàn)從“取數(shù)”到“用數(shù)”的閉環(huán)升級。
圖片
以下場景側(cè)重非結(jié)構(gòu)化日志的實(shí)時(shí)應(yīng)用:
1、數(shù)據(jù)源
主流程日志呈典型非結(jié)構(gòu)化特征,涵蓋多業(yè)務(wù)線埋點(diǎn)事件。
2、實(shí)時(shí)分析
借助大模型對滑動時(shí)間窗口內(nèi)的用戶行為流進(jìn)行情感與意圖挖掘,即時(shí)判斷操作異常或需求傾向。
3、會話建模
結(jié)合實(shí)體識別能力,將離散事件聚合為“用戶會話”實(shí)體,實(shí)現(xiàn)行為序列的結(jié)構(gòu)化表達(dá)。
4、標(biāo)簽與營銷
會話模型與組織層標(biāo)簽體系打通,可實(shí)時(shí)輸出高意向標(biāo)簽。例如,持續(xù)查詢一年后航班的用戶被標(biāo)記為“遠(yuǎn)期行程不確定”,系統(tǒng)即刻觸發(fā)價(jià)格穩(wěn)定性提示或優(yōu)惠券投放。
該鏈路在 AI 介入前需搭建重資產(chǎn)實(shí)時(shí)計(jì)算平臺,現(xiàn)依托模型即可低成本完成“日志→洞察→動作”的秒級閉環(huán)。
圖片
下圖展示數(shù)據(jù)分析智能體的端到端線性回歸案例。
- 左側(cè):模型自動規(guī)劃完整分析鏈路——數(shù)據(jù)探索、特征選擇、建模、預(yù)測、評估五步閉環(huán)。
- 右側(cè):按規(guī)劃逐行執(zhí)行并輸出可解釋結(jié)果,生成可直接部署的模型文件。
該能力將預(yù)測建模門檻降至“零算法基礎(chǔ)”,一線產(chǎn)運(yùn)即可自助完成訓(xùn)練與上線,確保業(yè)務(wù)邏輯與模型假設(shè)高度契合。
圖片
依托 AI 自動建模,某業(yè)務(wù)場景效率指標(biāo)大幅躍升:數(shù)據(jù)閉環(huán)由 T+1 縮短至小時(shí)級,可即時(shí)評估前一小時(shí)的經(jīng)營表現(xiàn);模型訓(xùn)練頻次從人工 7 天一次提升至每日一次,并支持多模型并行訓(xùn)練,整體效率呈數(shù)量級提升。
圖片
如圖所示,每日 06:00 系統(tǒng)自動觸發(fā)多模型并行訓(xùn)練——該時(shí)段人工無法值守,AI 依既定策略完成全流程并產(chǎn)出模型。關(guān)鍵信息已脫敏,僅展示運(yùn)行概況。
圖片
三、落地與展望
- 已完成
上半年聚焦產(chǎn)運(yùn)日常分析及重點(diǎn)項(xiàng)目深度應(yīng)用,實(shí)現(xiàn)取數(shù)、歸因、報(bào)表全流程 AI 化。
- 進(jìn)行中
下半年擴(kuò)展至專業(yè)商分場景,涵蓋預(yù)測、洞察等復(fù)雜分析,目前正與業(yè)務(wù)方共建驗(yàn)證。
- 關(guān)鍵認(rèn)知
技術(shù)加 AI 不足以保證成功,必須依賴需求方制定成功標(biāo)準(zhǔn)并持續(xù)共創(chuàng);閉門造車無法產(chǎn)生實(shí)際業(yè)務(wù)價(jià)值。合作的,不是我們開發(fā)自己在那閉門造車這個造出來了,因?yàn)槲覀冏约洪]門造車的東西,大多數(shù)情況之下可能都是沒有什么實(shí)際價(jià)值的。
圖片
主流程數(shù)據(jù)應(yīng)用已落地三類場景:
- 航班推薦
針對國際長航線,綜合多重因素實(shí)時(shí)生成個性化航班方案,降低用戶決策難度與出行風(fēng)險(xiǎn)。
- 低價(jià)實(shí)時(shí)營銷
基于主流程行為信號,模型即時(shí)判斷價(jià)格敏感人群并觸發(fā)精準(zhǔn)優(yōu)惠,具體策略略。
- 用戶挽留
實(shí)時(shí)預(yù)測離網(wǎng)意圖,立即推送干預(yù)權(quán)益。相較傳統(tǒng)模型,AI 方案鏈路更短、成本更低。
圖片
下一階段目標(biāo)緊扣“業(yè)務(wù) 3.0”數(shù)據(jù)驅(qū)動訴求,以 AI 為牽引,分層推進(jìn)四項(xiàng)建設(shè):
- 數(shù)據(jù)治理
持續(xù)優(yōu)化治理效率,并將治理流程本身數(shù)字化,確保全鏈路高效、可追溯。
- 業(yè)務(wù)數(shù)字化
同步完成各業(yè)務(wù)域的線上化、指標(biāo)化改造,夯實(shí)數(shù)據(jù)底座。
- 深度分析
與商分團(tuán)隊(duì)共建,依托 AI 拓展預(yù)測、歸因、優(yōu)化等高級分析場景,突破 Excel 級統(tǒng)計(jì)局限,輸出可落地的策略建議。
- 體驗(yàn)簡化
迭代“九章 AI”交互,使取數(shù)、用數(shù)、分析全程口語化即可完成,最終實(shí)現(xiàn)“會說話即可享有專屬數(shù)倉/數(shù)分”的數(shù)據(jù)平權(quán)愿景;在長尾需求普遍滿足的同時(shí),把高價(jià)值場景推向更專業(yè)的洞察深度。
Q&A
Q1:老師你們的AI的自然語言處理與結(jié)構(gòu)化查詢是怎樣融合的?
A1:通過和業(yè)務(wù)數(shù)倉配合,提升數(shù)據(jù)質(zhì)量質(zhì)量,基于確認(rèn)后的業(yè)務(wù)和數(shù)據(jù)整體知識庫,包含業(yè)務(wù)術(shù)語、業(yè)務(wù)指標(biāo)、schema說明等核心內(nèi)容,通過問題澄清、歧義消除agent和sql生成和檢查agent來完成自然語言到結(jié)構(gòu)化查詢的轉(zhuǎn)化。
Q2:老師,你們引入agent后遇到的最難解決的問題是啥?
A2:最難的是測試案例集合覆蓋不到生產(chǎn)的全部案例,部分生產(chǎn)的案例解決起來費(fèi)力度很高,需要從底層大模型選型、知識補(bǔ)充和工程優(yōu)化如agent執(zhí)行流程設(shè)計(jì)優(yōu)化等多個手段一起來解決問題。
Q3:知識庫平臺是每個領(lǐng)域搭建一個嗎?數(shù)據(jù)領(lǐng)域的知識庫是不是單獨(dú)搭建的?
A3:每個業(yè)務(wù)子領(lǐng)域都搭建了一個知識庫,這樣既能避免業(yè)務(wù)子領(lǐng)域之間出現(xiàn)交叉歧義,又能很好提升數(shù)據(jù)召回并控制上下文大小
Q4:AI在數(shù)據(jù)分析中是怎樣降低多維度指標(biāo)分析和預(yù)測任務(wù)的難度?
A4:多維度指標(biāo)分析場景下,用AI可以采用暴力分析的方法,將多個維度進(jìn)行排列組合,哪個組合結(jié)果分析結(jié)果有價(jià)值就用哪個。


































