AI 驅(qū)動的數(shù)據(jù)分析:Data Agent
原創(chuàng)數(shù)據(jù)曾被譽為新的石油,但這種說法正在演變。隨著人工智能的興起,算力已經(jīng)成為企業(yè)推動創(chuàng)新和成功的關(guān)鍵資源。生成式人工智能所涉及到知識工作和創(chuàng)造性工作的領(lǐng)域 ,如果生成式人工智能可以讓這些人至少提高 10% 的效率和 / 或創(chuàng)造力, 他們不僅變得更快、更有效率,而且比以前更有能力。因此,生成式人工智能具有創(chuàng)造數(shù)萬億美元經(jīng)濟價值的潛力。
顯然,與先前發(fā)明的相似之處和潛在影響是確定的。與互聯(lián)網(wǎng)和移動電話的進(jìn)行比較,人們希望通過這種比較來捕捉這種新技術(shù)的誘惑力和時刻。
那么人工智能將如何影響 “知識工作” 呢?尤其是數(shù)據(jù)分析在短時間內(nèi)經(jīng)歷了快速增長,引發(fā)了人們對數(shù)據(jù)分析所提供價值的質(zhì)疑。這導(dǎo)致人們越來越希望有更好的標(biāo)準(zhǔn)和工具來滿足交付價值的需要,采用軟件工程實踐為數(shù)據(jù)分析帶來了長足的進(jìn)步。引入人工智能這樣的新變量似乎令人望而生畏,并伴隨著過多的考量。然而,將人工智能整合到一家公司的數(shù)據(jù)戰(zhàn)略中是至關(guān)重要的,忽視它將錯失良機。
1. 關(guān)于數(shù)據(jù)分析
數(shù)據(jù)分析市場增長迅速,并繼續(xù)增長,預(yù)計到 20302 年,北美市場的復(fù)合年增長率將達(dá)到 27.3%。
圖片
在數(shù)據(jù)科學(xué)和數(shù)據(jù)分析學(xué)位出現(xiàn)之前,從其他分析領(lǐng)域過渡到數(shù)據(jù)分析要容易得多,例如物理,數(shù)學(xué),會計,經(jīng)濟等等。但在過去的幾年里,情況已經(jīng)發(fā)生了根本性的變化。高等教育學(xué)位的增長反映了人們對這個領(lǐng)域的興趣,數(shù)據(jù)科學(xué)學(xué)士學(xué)位增長了數(shù)倍。
從廣義上看,數(shù)據(jù)分析由來已久,例如,會計和財務(wù)就是分析性很強的領(lǐng)域,在向公眾報告有關(guān)公司財務(wù)狀況的指標(biāo)時有嚴(yán)格的定義和規(guī)定。現(xiàn)代意義上的數(shù)據(jù)分析滿足了從有限信息中獲取盡可能多信息的愿望,并提出了一系列挑戰(zhàn),需要與傳統(tǒng)軟件工程不同的思維方式。雖然軟件工程創(chuàng)建的代碼片段是確定的,并且可能是冪等的,但是數(shù)據(jù)流水線可以并且確實會隨著數(shù)據(jù)采集過程的變化而變化。
數(shù)據(jù)分析需要與軟件工程類似的標(biāo)準(zhǔn),但需要新的工具。這就是為什么當(dāng)數(shù)據(jù)網(wǎng)格出現(xiàn)時,它引起了數(shù)據(jù)社區(qū)的共鳴,讓人想起了軟件工程的敏捷宣言。數(shù)據(jù)網(wǎng)格解決了分散在整個組織中的不可信和分散的數(shù)據(jù)這一痛點。聯(lián)邦產(chǎn)品所有權(quán)的想法也很誘人,由于集中的提取 - 轉(zhuǎn)換 - 加載 (ETL) 過程已經(jīng)變得過于繁瑣和遲緩,以至于無法快速滿足組織的分析需求。
這引發(fā)了對從 ETL 到 ELT 的轉(zhuǎn)換,其中數(shù)據(jù)轉(zhuǎn)換是最后一步,由數(shù)據(jù)分析師或分析工程師負(fù)責(zé)。以獲得授權(quán)的數(shù)據(jù)團隊創(chuàng)建自己的數(shù)據(jù)模型,而不是依賴數(shù)據(jù)架構(gòu)師來構(gòu)建,這減少了數(shù)據(jù)消費端等待獲取數(shù)據(jù)的時間。
圖片
然而,隨著速度的提高,來自多個來源的數(shù)據(jù)表也隨之增多,需要考慮將數(shù)據(jù)呈現(xiàn)給最終用戶的 “最終負(fù)載”。ETL 流水線通常直接采用可視化工具 (如 Tableau或PowerBI等) 或電子表格,而不是作為建模數(shù)據(jù)返回到數(shù)據(jù)庫。
圖片
考慮到向用戶交付最終價值通常需要最后的負(fù)載,一個更準(zhǔn)確的縮寫詞可能是 ELTL,還需注意的是最后一次加載之前的數(shù)據(jù)治理步驟。
2. 數(shù)據(jù)治理、數(shù)據(jù)建模和語義層
忽略數(shù)據(jù)治理而直接交付給業(yè)務(wù)用戶的數(shù)據(jù)會引起許多問題。在用戶比較儀表盤時,并意識到相似的指標(biāo)可能產(chǎn)生了不同的結(jié)果。錯誤會呈現(xiàn)在最終的產(chǎn)品中,因為測試并沒有得到足夠的重視。這與軟件工程不同,在軟件工程中,測試是質(zhì)量的保證。隨著數(shù)據(jù)分析領(lǐng)域的成熟,軟件工程已經(jīng)經(jīng)歷的這種坑正在重復(fù)。
為了提高準(zhǔn)確性,人們嘗試使用數(shù)據(jù)的語義層。語義層定義了公共度量,以確保整個組織的數(shù)據(jù)一致性。這是數(shù)據(jù)分析領(lǐng)域添加更多數(shù)據(jù)治理的重要改進(jìn)。此外,還出現(xiàn)了許多強調(diào)數(shù)據(jù)目錄的數(shù)據(jù)治理解決方案。而今,我們有了更多的工具,強調(diào)了與傳統(tǒng)數(shù)據(jù)分析不同的軟件工程原則。
那么,AI會應(yīng)用到數(shù)據(jù)分析領(lǐng)域的哪些方面呢?典型地,AI正被應(yīng)用于數(shù)據(jù)分析的最后一個 “加載” 環(huán)節(jié),即電子表格、可視化和數(shù)據(jù)庫中的人工智能。這些數(shù)據(jù)加載很重要,但是更重要的是在數(shù)據(jù)倉庫建模上添加 AI。
圖片
如果沒有AI輔助的數(shù)據(jù)建模和數(shù)據(jù)治理,整個方案很可能會失敗。
2.1 精確分析
對數(shù)據(jù)建模的重新強調(diào)似乎令數(shù)據(jù)分析領(lǐng)域形成了閉環(huán)。到目前為止,流程中的差異已經(jīng)允許數(shù)據(jù)團隊在創(chuàng)建表格方面擁有比以前更多的自主權(quán),將數(shù)據(jù)傳遞給業(yè)務(wù)用戶的速度有了明顯的提高,但還是太慢了。數(shù)據(jù)團隊是一個瓶頸,向儀表盤添加新的過濾器并不總是向最終用戶提供信息的最佳方法。
這實際上在重復(fù)過去的錯誤,也就是說,這個錯誤就是大規(guī)模的數(shù)據(jù)生成無需考慮數(shù)據(jù)治理。這就是為什么最成功的AI數(shù)據(jù)應(yīng)用程序?qū)〝?shù)據(jù)治理。數(shù)據(jù)治理不是可選項,而是提供一個可靠的人工智能Data Agent的本質(zhì)特征。
因此,我們需要添加 AI能力來提高速度,改善對數(shù)據(jù)建模和數(shù)據(jù)治理的依賴,提升元數(shù)據(jù)和文檔實踐。本質(zhì)上,人們需要需要精確的信息。有些儀表盤存在一個組合問題,太多過濾器和許多不同的選項導(dǎo)致有太多的視圖,以至于很難對其進(jìn)行排序。AI的能力幾乎可以即時訪問數(shù)據(jù)并獲得新的見解。這種能夠精確得到人們所需要的東西的能力稱之為 “精確分析”?!坝辛诉@么多可能的數(shù)據(jù)和度量的組合,精確分析允許AI根據(jù)用例對數(shù)據(jù)進(jìn)行正確的轉(zhuǎn)換。
2.2 數(shù)據(jù)對象
單個查詢結(jié)果的數(shù)據(jù)單元可以視為 “數(shù)據(jù)對象”。使用 AI,用戶可以生成許多不同的、唯一的數(shù)據(jù)對象,這些數(shù)據(jù)對象與儀表盤在不同:
- 它們更容易訪問和比較。
- 比較數(shù)據(jù)對象的能力是內(nèi)置的。
數(shù)據(jù)對象也被稱為數(shù)據(jù)產(chǎn)品和數(shù)據(jù)模型,我們可以使用數(shù)據(jù)對象作為任務(wù)名稱來描述響應(yīng)用戶的提示詞查詢。
數(shù)據(jù)對象目前被定義為以下三種: 度量 (1 行和 1 列)、記錄 (1 行和多列) 和數(shù)據(jù)集 (多行和多列)。建立數(shù)據(jù)類型有助于更容易地組織和共享數(shù)據(jù),并定義如何組織數(shù)據(jù)對象。
當(dāng)前的AI能力和可靠性的改進(jìn)之間需要達(dá)到一個權(quán)衡。目前的AI能力很大程度上依賴于一個文檔化的語義層。這個語義層建立在數(shù)據(jù)庫中關(guān)于表的元數(shù)據(jù)之上。需要對這些表進(jìn)行建模,并描述它們彼此之間的關(guān)系。AI可以幫助發(fā)現(xiàn)這些關(guān)系,但需要人工確認(rèn)這些關(guān)系。
所有元數(shù)據(jù)之所以重要是因為AI需要上下文,一般的AI系統(tǒng)通過 RAG 來構(gòu)建。再將數(shù)據(jù)發(fā)送到正在使用的 AI 模型之前,RAG 允許檢索上下文并將其放入提示詞中。
為了提高這些系統(tǒng)的準(zhǔn)確性,需要通過一些檢查機制來構(gòu)建工作流,例如: 主鍵和連接的檢查。這不僅使 AI 的輸出得到改進(jìn),而且令 SQLMesh 這樣的工具更容易地與審計的輸出集成。在 SQLMesh 中,定義行列組合被稱為 “grain”,連接關(guān)系被稱為 references。這些原型允許AI系統(tǒng)建立護欄,并提高 RAG 的精度。
3. AI 驅(qū)動的數(shù)據(jù)分析
我們能夠利用AI來解決數(shù)據(jù)領(lǐng)域的一些基本問題?,F(xiàn)在有很多工具可用,要么提供可以與數(shù)據(jù)集成的解決方案,要么提供可以從頭開始構(gòu)建的方案。AI驅(qū)動的數(shù)據(jù)分析方案大致分為兩個方向:查詢來自數(shù)據(jù)庫或文檔等來源的數(shù)據(jù)和從已經(jīng)存在的報表中檢索數(shù)據(jù)。
3.1 從現(xiàn)有數(shù)據(jù)源檢索數(shù)據(jù)的 AI
這些工具在分析報告的數(shù)據(jù)目錄之上構(gòu)建一個Data Agent。與原始數(shù)據(jù)源相比,從已經(jīng)存在的報表中檢索數(shù)據(jù)的缺陷是報表之間的不一致。我們可以專注于查詢數(shù)據(jù)并作為一個堅實的起點,然后在此基礎(chǔ)上構(gòu)建現(xiàn)有報告的檢索。我們也可以只專注于從現(xiàn)有來源檢索,并不試圖以任何方式轉(zhuǎn)換數(shù)據(jù),而是提供已經(jīng)轉(zhuǎn)換的信息。因此,提供強大的 AI 數(shù)據(jù)治理和可解釋性的工具將蓬勃發(fā)展。
3.2 從原始數(shù)據(jù)查詢的AI(如,Text2sql)
Text2SQL 真的可以工作嗎?該技術(shù)現(xiàn)在對于企業(yè)解決方案來說是可行的,可以交付準(zhǔn)確和相關(guān)的結(jié)果。這方面的一個指標(biāo)是著名的 Text-to-SQL 基準(zhǔn)測試Spider 的進(jìn)展。Spider 基準(zhǔn)測試是 WikiSQL 基準(zhǔn)測試的繼承者,解決了它的一些缺點。當(dāng)前最佳執(zhí)行模型的準(zhǔn)確率是 91.2% 。另外,人工智能基準(zhǔn)常常有錯誤,某些性能改進(jìn)可能意味著對基準(zhǔn)的過度擬合。作為參考,MMLU 的錯誤率大約為 9% 。
LLM 的出現(xiàn)使得 Spider 基準(zhǔn)測試背后的團隊引入了一個名為 Spider 2.0的新挑戰(zhàn)。這是一個多步驟的工作流,可以用來測試RAG)工作流的性能。這是一個令人興奮的新基準(zhǔn)測試,有助于展示這些系統(tǒng)在生產(chǎn)環(huán)境中的性能。
另外,Text2SQL 需要有適當(dāng)?shù)淖o欄來確保結(jié)果足夠準(zhǔn)確,以產(chǎn)生切實的影響。
3.3 信任、幻覺和人機交互
在構(gòu)建一個成功的Text2SQL 系統(tǒng)時,上下文就是一切。一個常見的問題是,這種準(zhǔn)確性是否足以讓數(shù)據(jù)團隊放心,可信度會不會被一個不準(zhǔn)確的人工智能系統(tǒng)破壞。重要的是要圍繞 AI 構(gòu)建的應(yīng)用程序,我們需要從一開始就考慮對結(jié)果的信任。
除了可信度和元數(shù)據(jù)之外,還需要向數(shù)據(jù)團隊和業(yè)務(wù)用戶提供控制能力。無論采用何種的形式,所提供的控制必須使雙方確信他們了解了信息的來源,并且可以自行審計。一些有利于數(shù)據(jù)團隊的控制方法如下:
- 當(dāng)AI沒有足夠的信心能夠回答一個問題時,需要通知數(shù)據(jù)團隊,以便將該問題轉(zhuǎn)發(fā)給他們。
- 能夠?qū)徲嫷?SQL 查詢和AI的思考方式,以獲得其最終答案。
業(yè)務(wù)用戶也需要通過以下方式實施控制:
- 實時透明地進(jìn)入AI思維鏈路
- 能夠?qū)⒃磾?shù)據(jù)表與最終輸出進(jìn)行比較
- 通過人機交互,給人工智能提供反饋
所有這些組件都只能在Data Agent結(jié)構(gòu)中使用。在 LangChain 的一篇描述認(rèn)知架構(gòu)的文章中,描述了根據(jù)能力水平對 LLM 系統(tǒng)進(jìn)行排名。
圖片
未來的Data Agent可能會更善于提出后續(xù)問題,在元數(shù)據(jù)不足的情況下,Data Agent將能夠收集這些信息。感知架構(gòu)不僅使用Data Agent進(jìn)行查詢和檢索,還將能夠更新由用戶反饋的元數(shù)據(jù)。這個新一代的數(shù)據(jù)分析方案將創(chuàng)建一個飛輪效應(yīng),導(dǎo)致文檔的改進(jìn)和對重要數(shù)據(jù)指標(biāo)的更大共識。
最成功的平臺仍將依靠人機交互,以提高AI的輸出效果。聲稱Data agent是自主的,導(dǎo)致了 一些產(chǎn)品的平庸結(jié)果,但是依賴于人機交互的方式則產(chǎn)生了巨大收益。重要的是,我們應(yīng)該現(xiàn)實地看待當(dāng)前的AI能力,并建立適當(dāng)?shù)姆雷o措施。
3.4 數(shù)據(jù)智能 vs 商業(yè)智能
AI 驅(qū)動的數(shù)據(jù)應(yīng)用所需要的范圍比傳統(tǒng)的 BI 工具更大。為了AI 方案的成功,治理和控制需要作為解決方案的一部分,而不是事后諸葛亮。數(shù)據(jù)智能平臺超越了傳統(tǒng) BI 平臺對可視化的強調(diào),包括:
- 自然語言通達(dá) (即 “認(rèn)知層”)
- 語義編目與發(fā)現(xiàn)
- 自動化管理與優(yōu)化
- 加強管治并保護私隱
有越來越多的工具實現(xiàn) SQL 接口來查詢數(shù)據(jù),任何可以使用 SQL 查詢的數(shù)據(jù)源都可以被Data Agent使用。通過Data Agent 的 API ,我們可以構(gòu)建自己的 UI,并向用戶提供有價值的見解。
4. AI驅(qū)動數(shù)據(jù)分析的收益
那么,誰能從這樣的AI解決方案中受益呢? 主要受益者是數(shù)據(jù)團隊和業(yè)務(wù)用戶 (即數(shù)據(jù)使用者)。
4.1 Data Agent 如何幫助數(shù)據(jù)團隊
Data Agent 通過自動化數(shù)據(jù)處理、實時監(jiān)控數(shù)據(jù)質(zhì)量、智能數(shù)據(jù)發(fā)現(xiàn)和任務(wù)調(diào)度優(yōu)化,幫助數(shù)據(jù)團隊提升效率。它能夠自動執(zhí)行ETL任務(wù),減少人工干預(yù),確保數(shù)據(jù)準(zhǔn)確性;通過機器學(xué)習(xí)發(fā)現(xiàn)數(shù)據(jù)中的模式和趨勢,生成洞察報告;同時優(yōu)化任務(wù)執(zhí)行順序,提升資源利用率。此外,Data Agent 還支持團隊協(xié)作與知識共享,確保數(shù)據(jù)安全與合規(guī)性,為數(shù)據(jù)團隊提供可靠的技術(shù)支持,助力數(shù)據(jù)驅(qū)動決策。
問題 | 對于數(shù)據(jù)團隊 |
工具構(gòu)建需要大量的時間,如UI、安全性、可擴展瓶頸、準(zhǔn)確性問題等 | 容易通過接口構(gòu)建并瀏覽指標(biāo)何其他信息,使用API 完成定制 |
數(shù)據(jù)消費端的請求多樣,容易過載 | 通過數(shù)據(jù)飛輪解決復(fù)雜問題 |
儀表盤存在太多過濾器,太多的視圖 | Data Agent 實現(xiàn)精確分析,按需提供指標(biāo)信息 |
4.2 Data Agent 如何幫助業(yè)務(wù)用戶
Data Agent 通過簡化數(shù)據(jù)訪問和分析流程,幫助業(yè)務(wù)用戶更高效地利用數(shù)據(jù)。它提供直觀的可視化工具和自然語言查詢功能,使非技術(shù)用戶也能輕松獲取所需數(shù)據(jù)并生成報告。Data Agent 還能自動分析業(yè)務(wù)數(shù)據(jù),識別關(guān)鍵趨勢和異常,提供 actionable insights,幫助用戶快速做出數(shù)據(jù)驅(qū)動的決策。此外,它支持個性化數(shù)據(jù)推送,確保用戶及時獲取與其工作相關(guān)的信息,提升業(yè)務(wù)效率和決策質(zhì)量。
問題 | 對于業(yè)務(wù)用戶 |
用戶又太多選項來訪問數(shù)據(jù),學(xué)習(xí)成本較高 | 通過自然語言使用 Data Agent 訪問原始信息和數(shù)據(jù)庫, |
用戶不能直接判斷數(shù)據(jù)源是否可信 | Data Agent 通過指標(biāo)比對的方式完成數(shù)據(jù)治理, 并指出指標(biāo)之間的差異 |
部門間存在數(shù)據(jù)藩籬 | Data Agent 能夠共享不同團隊間的信息 |
用戶希望訪問底層數(shù)據(jù) | Data Agent基于語義層來實現(xiàn)數(shù)據(jù)的準(zhǔn)確性和可靠性 |
在dashboard上增加新的過濾器或視圖需要數(shù)周的時間 | 對于ad hoc 請求可以秒級響應(yīng) |
5. Data Agent 的發(fā)展趨勢
許多產(chǎn)品都在宣傳 “專有的AI數(shù)據(jù)分析師” 或 “專有的AI數(shù)據(jù)科學(xué)家”。然而,未來將是把所有這些數(shù)據(jù)角色集成到一個或多個Data Agent中。這個Data Agent最終將能夠覆蓋數(shù)據(jù)成熟度生命周期的所有方面,包括但不限于:
- Ad Hoc 和 Reactive 查詢
- 描述性報道 (“發(fā)生了什么”)
- 診斷報告 (“為什么會發(fā)生?”)
- 預(yù)測分析 (“會發(fā)生什么?”)
- 規(guī)范性分析 (“如何讓它發(fā)生?”)
大多數(shù)數(shù)據(jù)分析領(lǐng)域的解決方案都涵蓋了數(shù)據(jù)成熟度生命周期的特定方面。然而,Data Agent 的目標(biāo)是最終封裝數(shù)據(jù)分析的所有領(lǐng)域,真正為業(yè)務(wù)交付價值。
【參考資料】
- https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
- https://www.insidehighered.com/news/tech-innovation/teaching-learning/2024/01/25/data-science-major-takes-across-college-campuses
- https://yale-lily.github.io/spider
- Are we Done with MMLU? https://arxiv.org/html/2406.04127v1
- https://blog.langchain.dev/what-is-a-cognitive-architecture/
- https://www.databricks.com/blog/what-is-a-data-intelligence-platform