數(shù)據(jù)治理對人工智能的成功至關(guān)重要

自 ChatGPT 發(fā)布以來,大語言模型 (LLM) 已進(jìn)入主流,促使各行各業(yè)和公司紛紛探索其在業(yè)務(wù)轉(zhuǎn)型中的潛力。此后,許多技術(shù)應(yīng)運而生,幫助團隊構(gòu)建更強大的 AI 系統(tǒng):RAG、向量數(shù)據(jù)庫、重排序器、推理模型、工具使用、MCP、代理框架等等。這些工具和技術(shù)顯然很有用;然而,提升 AI 系統(tǒng)業(yè)務(wù)影響力的最有效方法依然是數(shù)據(jù)。
人工智能系統(tǒng)需要訪問公司數(shù)據(jù)
在企業(yè)中,AI需要輸入數(shù)據(jù)才能發(fā)揮作用。這催生了RAG(檢索增強生成)架構(gòu)。根據(jù)不同用例,輸入數(shù)據(jù)可以是任何內(nèi)容;可以是合同、采購訂單、工程文檔、制造流程等等。
現(xiàn)在假設(shè)我們想要實現(xiàn)一個在航空公司提供客戶服務(wù)的人工智能聊天機器人,這是一個典型的用例。讓我們從這個用例的基本 RAG 架構(gòu)開始,并將其分解為主要步驟:
通過收集執(zhí)行客戶服務(wù)所需的文件(如公司退款政策、航班重新安排指南以及規(guī)則或客戶忠誠度計劃)來構(gòu)建知識庫。
- 索引和分塊文檔,生成嵌入并將其存儲在向量數(shù)據(jù)庫中
- 根據(jù)與用戶查詢的相似性,在推理時檢索前 k 個文檔塊
- 使用這些文檔塊來增強提示并生成顯示給用戶的響應(yīng)
你需要管理這些數(shù)據(jù),以確保高質(zhì)量的人工智能輸出和數(shù)據(jù)保護
我們上面解釋的 RAG 流水線非常簡單。你可以添加許多花哨的功能來讓它更加精美,這從 AI 工程的角度來看非常誘人。然而,從業(yè)務(wù)角度來看,在數(shù)據(jù)層工作更為合理和有效。以數(shù)據(jù)為先的方法構(gòu)建企業(yè)級 AI,將打造一個對最終用戶和整個企業(yè)都有用的系統(tǒng)。知識存儲可能是許多 AI 響應(yīng)質(zhì)量低下的根本原因,如下圖所示。

從該圖中我們可以看到,知識庫中提供的文檔可能存在幾個問題,即:
所提供的文檔可能與用例/任務(wù)無關(guān),對用戶查詢毫無價值,只會提供噪音。這種情況可能發(fā)生在文檔批量提供且未經(jīng)用例和數(shù)據(jù)部門業(yè)務(wù)團隊細(xì)粒度審查的情況下。
相反,可能會缺少解決當(dāng)前任務(wù)所需的文檔,但這些文檔并未包含在知識庫中。這種情況通常發(fā)生在構(gòu)建知識庫的業(yè)務(wù)團隊對公司或特定業(yè)務(wù)領(lǐng)域內(nèi)可用/使用的文檔缺乏詳盡的了解時。
文檔可能已經(jīng)過時,這種情況經(jīng)常發(fā)生在特定文檔有版本控制,并且舊版本沒有系統(tǒng)地從知識庫中刪除時。
由于版本控制或公司政策和規(guī)則不一致,文檔可能會發(fā)生沖突。
文檔可能包含敏感信息,這是迄今為止最糟糕的故障模式,因為它涉及數(shù)據(jù)保護問題。如果相同的知識存儲用于不同的領(lǐng)域和用戶角色,且缺乏適當(dāng)?shù)乃饕蜋?quán)限管理,則可能會發(fā)生這種情況(例如,財務(wù)文檔和制造文檔存儲在同一個知識存儲中)。
數(shù)據(jù)治理角色正在不斷發(fā)展壯大,以支持人工智能系統(tǒng)治理和非結(jié)構(gòu)化數(shù)據(jù)治理
下面的例子說明了建立強有力的治理的重要性。
數(shù)據(jù)治理將確保企業(yè)內(nèi)部開發(fā)的人工智能系統(tǒng)實用且真實,并確保公司數(shù)據(jù)得到保護。傳統(tǒng)上,數(shù)據(jù)治理主要關(guān)注結(jié)構(gòu)化數(shù)據(jù)、表格和數(shù)據(jù)庫,而較少關(guān)注 PDF 文件、PPT 演示文稿和圖像等非結(jié)構(gòu)化數(shù)據(jù)。但 GenAI 的出現(xiàn)正在改變和擴展這一角色,使其涵蓋非結(jié)構(gòu)化數(shù)據(jù)和大規(guī)模人工智能系統(tǒng)治理。通過與用例的業(yè)務(wù)負(fù)責(zé)人、人工智能技術(shù)和數(shù)據(jù)團隊協(xié)同工作,數(shù)據(jù)治理可以對構(gòu)建安全、準(zhǔn)確且可擴展的人工智能系統(tǒng)產(chǎn)生重大影響,從而真正實現(xiàn)業(yè)務(wù)運營的轉(zhuǎn)型。

我們使用關(guān)系數(shù)據(jù)庫已經(jīng)很久了。您可能是關(guān)系數(shù)據(jù)庫設(shè)計和建模方面的專家。我見過大多數(shù)設(shè)計師/開發(fā)人員在建模No SQL數(shù)據(jù)庫時都使用關(guān)系型方法。甚至在為NoSQL數(shù)據(jù)庫建模時,對我來說,改變關(guān)系型思維模式也有點困難。
是的,如果你用關(guān)系型數(shù)據(jù)庫建模,那沒什么壞處。但如果這樣做,那就錯了。據(jù)你所知,NoSQL 數(shù)據(jù)庫有多種類型,每種類型都有各自的用途。在設(shè)計特定類型的數(shù)據(jù)庫時,務(wù)必仔細(xì)考慮。


























