人工智能時代的數(shù)據(jù)平臺架構模式

數(shù)據(jù)時代的往事:打造人工智能家居
還記得數(shù)據(jù)發(fā)展的早期嗎?感覺更簡單,或許只是表面看起來簡單。企業(yè)主要想知道已經(jīng)發(fā)生了什么?!鞍l(fā)貨了多少件?”“上個月的銷售額是多少?”為了回答這些問題,我們構建了數(shù)字世界中第一個重要的解決方案:數(shù)據(jù)倉庫。
精心組織的圖書館(數(shù)據(jù)倉庫時代)
傳統(tǒng)的數(shù)據(jù)倉庫就像一個宏偉而精心組織的圖書館。來自運營系統(tǒng)(銷售、財務、庫存)的數(shù)據(jù)并非只是被堆放在那里。它們要經(jīng)過一個稱為 ETL(提取、轉(zhuǎn)換、加載)的嚴格流程。數(shù)據(jù)經(jīng)過清洗、標準化,并被構建成預定義的格式(模式),然后才被放置在特定的、有標簽的架子上。您確切地知道在哪里可以找到季度銷售數(shù)據(jù),因為它們總是以相同的方式分類。
這個系統(tǒng)非常出色,因為它的目標就是提供可靠、一致的商業(yè)智能報告。決策者可以信賴這些數(shù)字(大多數(shù)情況下?。?。但圖書館墻外的世界開始變得復雜起來。

我們不再只是處理整齊的行列。突然之間,網(wǎng)站點擊數(shù)據(jù)、電子郵件中非結構化的客戶反饋、機器的傳感器讀數(shù)、社交媒體流,甚至圖片和視頻都如潮水般涌來。我們原本井然有序的圖書館,原本是為固定的書籍而建,卻無法輕松應對這種混亂的涌入。試圖強行將一條推文或視頻腳本通過僵硬的 ETL 流程,就像試圖將瀑布擱置起來——緩慢、昂貴,而且通常無法完全容納。對復雜數(shù)據(jù)科學和機器學習探索的需求也使其僵硬的結構不堪重負。
一切皆可擺脫(數(shù)據(jù)湖的興起)
面對數(shù)據(jù)洪流和新的分析的需要,我們構建了一個截然不同的東西:數(shù)據(jù)湖。忘掉那些嚴格的擺放規(guī)則吧。數(shù)據(jù)湖被設想為一個龐大且經(jīng)濟高效的存儲空間,通常使用 Hadoop HDFS 或云對象存儲(例如 Amazon S3 或 Azure Data Lake Storage)等技術。其理念發(fā)生了巨大轉(zhuǎn)變:“先獲取所有數(shù)據(jù),然后再考慮如何使用?!?原始數(shù)據(jù)以其原生格式(結構化、半結構化、完全非結構化)直接加載(通常使用 ELT【提取、加載、轉(zhuǎn)換】方法)。結構是在讀取數(shù)據(jù)時應用的,而不是在寫入數(shù)據(jù)時應用的(讀取時模式)。

這提供了令人難以置信的靈活性和可擴展性。數(shù)據(jù)科學家終于可以訪問和探索全部原始信息。然而,這種自由是有代價的。缺乏強有力的組織和治理,許多數(shù)據(jù)湖最終演變成了可怕的“數(shù)據(jù)沼澤”。尋找可靠、高質(zhì)量的數(shù)據(jù)變成了一場尋寶之旅。這個數(shù)據(jù)集干凈嗎?它值得信賴嗎?它在其他地方重復了嗎?性能可能會很差,而且缺乏事務保證(ACID 合規(guī)性,在數(shù)據(jù)庫中很常見),這使得構建可靠的鏈式數(shù)據(jù)管道(對于生產(chǎn)系統(tǒng)和值得信賴的 AI 至關重要)變得非常具有挑戰(zhàn)性。
數(shù)據(jù)湖屋(Lakehouse 模式)
我們需要找到一個更好的平衡點:既要擁有湖的規(guī)模和靈活性,又要擁有更接近數(shù)倉的可靠性和性能。這催生了Lakehouse的誕生。
其核心理念并非要取代經(jīng)濟高效的湖存儲,而是在其基礎上構建智能和結構。Delta Lake、Apache Iceberg 和 Apache Hudi 等技術成為關鍵的推動因素。它們將類似數(shù)據(jù)庫的功能(ACID 事務、數(shù)據(jù)版本控制、模式實施和性能優(yōu)化)直接引入到數(shù)據(jù)湖中的文件中。

Lakehouse 中一種流行的組織模式是Medallion 架構。它強制執(zhí)行邏輯流程和質(zhì)量進度:
青銅區(qū):獲取的原始數(shù)據(jù),基本未經(jīng)修改——歷史檔案。
白銀區(qū):數(shù)據(jù)經(jīng)過清理、過濾、合并或標準化,更加可靠,更適用于分析和特征工程。
黃金區(qū):數(shù)據(jù)經(jīng)過聚合、功能設計和業(yè)務就緒,通常針對特定的 BI 儀表板或 ML 應用程序進行優(yōu)化。
Lakehouse 代表著一次重大的飛躍。它提供了一個統(tǒng)一的平臺,能夠支持傳統(tǒng)的 BI 報告(通常來自 Gold 表)和許多數(shù)據(jù)科學/機器學習工作負載(通常利用 Silver 和 Gold 數(shù)據(jù)),所有這些都基于同一個底層存儲。它解決了原始數(shù)據(jù)湖的諸多問題。
然而,就在我們感到安心之時,人工智能的格局再次發(fā)生了翻天覆地的變化。強大的基礎模型、生成式人工智能(例如 ChatGPT、DeepSeek)、復雜的推薦系統(tǒng)以及自主人工智能代理概念的興起,帶來了新的、更嚴苛的要求。這些系統(tǒng)需要的不僅僅是干凈的批量數(shù)據(jù);它們需要實時上下文、理解非結構化數(shù)據(jù)含義的專門方法,以及與整個機器學習生命周期的無縫集成。
人工智能時代的數(shù)據(jù)架構(現(xiàn)代數(shù)據(jù)平臺)
這就引出了我們對AI 時代現(xiàn)代數(shù)據(jù)平臺的需求。它并非必然要完全取代 Lakehouse 的基礎架構;通常,它是在 Lakehouse 基礎上的演進和整合。可以將其想象成將井井有條的 Lakehouse 工棚升級為一個先進的、互聯(lián)互通的車間,專門用于構建、部署和運行復雜的 AI 系統(tǒng)。

現(xiàn)代數(shù)據(jù)和人工智能平臺框架:Databricks
這個“現(xiàn)代”平臺有何不同?它集成了以下關鍵功能:
1.實時與流式集成:人工智能通常需要實時更新的數(shù)據(jù)。流式技術(例如 Apache Kafka、Pulsar,以及 Flink 或 Spark Streaming 等處理引擎)深度嵌入,可實現(xiàn)低延遲數(shù)據(jù)提取和處理,為分析模型和實時 AI 模型提供數(shù)據(jù)。
2.無縫 MLOps 集成:數(shù)據(jù)團隊和 ML 團隊之間的脫節(jié)是一個主要瓶頸。該平臺緊密集成了整個 ML 生命周期的工具:
特征存儲:用于精選的、版本化的 ML 特征的集中存儲庫,可以低延遲訪問模型訓練和實時推理,從而減少訓練服務偏差。
模型注冊表:對已部署的模型進行版本控制、管理和跟蹤。
實驗跟蹤:記錄參數(shù)、指標和代碼以實現(xiàn)可重復性。
部署和監(jiān)控:將模型推入生產(chǎn)并持續(xù)監(jiān)控其性能和偏差的管道。
3.對向量和矢量數(shù)據(jù)庫的原生支持:這對于現(xiàn)代人工智能至關重要。除了存儲文本或圖像之外,平臺還需要處理向量向量——意義的數(shù)學表示。平臺集成了專用的矢量數(shù)據(jù)庫(例如 Pinecone、Weaviate、Milvus 或現(xiàn)有數(shù)據(jù)庫中的功能),以實現(xiàn)高效的相似性搜索,并為 LLM 的檢索增強生成 (RAG)、語義搜索和高級推薦提供支持。
4.穩(wěn)健的治理與可觀察性:隨著人工智能承擔起越來越關鍵的任務,信任至關重要。嵌入式數(shù)據(jù)質(zhì)量檢查、沿襲追蹤(了解數(shù)據(jù)的來源和轉(zhuǎn)換方式)、訪問控制以及覆蓋整個平臺的全面監(jiān)控(可觀察性)都至關重要。
5.可擴展性和成本效益:利用云原生設計、無服務器組件和自動擴展來有效處理 AI 工作負載經(jīng)常突發(fā)的計算需求。

為什么這對人工智能代理很重要
自主人工智能代理旨在感知、推理和行動,嚴重依賴于這種現(xiàn)代基礎設施:
情境理解:他們需要即時訪問相關信息。這需要查詢結構化數(shù)據(jù)、利用實時數(shù)據(jù)流,以及至關重要的是,通過矢量數(shù)據(jù)庫使用 RAG 提取相關文檔或過往交互信息以獲取上下文。
一致的決策:他們從特征存儲訪問特征,確保用于實時決策的數(shù)據(jù)與用于訓練其底層模型的數(shù)據(jù)相匹配。
記憶與學習:該平臺作為他們的知識庫和長期記憶,記錄他們的行動和結果,并通過 MLOps 管道提供持續(xù)改進所需的反饋循環(huán)。
驅(qū)動人工智能引擎:多樣化數(shù)據(jù)源
這個現(xiàn)代化的平臺要能存儲多樣化的數(shù)據(jù):事務數(shù)據(jù)庫(通常通過變更數(shù)據(jù)捕獲)、應用程序日志、用戶交互流、物聯(lián)網(wǎng)傳感器數(shù)據(jù)、非結構化文本、圖像、音頻、視頻、第三方 API、公共數(shù)據(jù)集,以及越來越多的用于處理邊緣情況或隱私問題的綜合生成的數(shù)據(jù)。
該平臺必須善于采集、處理、管理和轉(zhuǎn)換所有這些,將原始輸入轉(zhuǎn)化為可用于人工智能的燃料,包括那些重要的向量嵌入。
故事還在繼續(xù)……
我們數(shù)據(jù)架構的歷程反映了我們不斷發(fā)展的愿景。從數(shù)據(jù)倉庫的結構化報告,到早期數(shù)據(jù)湖的靈活混亂,再到湖屋的有序可靠性,我們一直在不斷適應。
當前的人工智能革命對實時數(shù)據(jù)、語義理解和集成操作有著獨特的需求,因此需要邁出下一步:構建現(xiàn)代數(shù)據(jù)平臺。它不再僅僅關乎單一技術,更在于構建一個集成、智能、可靠的生態(tài)系統(tǒng)。對于致力于真正駕馭人工智能力量的組織而言,構建這種先進的數(shù)據(jù)基礎正變得至關重要。


























