2024年大數(shù)據(jù)展望:數(shù)據(jù)滿足GenAI
去年初,誰(shuí)能想到GenAI和ChatGPT會(huì)搶占先機(jī)?
一年前,我們預(yù)測(cè)數(shù)據(jù)、分析和AI提供商最終會(huì)抽出時(shí)間來(lái)簡(jiǎn)化和重新思考現(xiàn)代數(shù)據(jù)堆棧,這是一個(gè)我們已經(jīng)接近和熱愛了一段時(shí)間的話題。作為分布式企業(yè)中數(shù)據(jù)治理的解決方案,也有很多關(guān)于數(shù)據(jù)網(wǎng)格的討論和擔(dān)憂,我們還預(yù)測(cè)了數(shù)據(jù)倉(cāng)庫(kù)的崛起。
那么,這一切在2024年將如何發(fā)展呢?在未來(lái)一年里,我們將看到GenAI在向量索引、數(shù)據(jù)發(fā)現(xiàn)、治理和數(shù)據(jù)庫(kù)設(shè)計(jì)方面發(fā)揮重要作用,這并不令人驚訝,但讓我們首先回顧一下AI在過(guò)去一年里是如何影響我們的預(yù)測(cè)的。
那么,2023年的數(shù)據(jù)發(fā)生了什么?
事實(shí)證明,去年的預(yù)測(cè)其中許多都成真了。
我們看到了通過(guò)擴(kuò)展云數(shù)據(jù)倉(cāng)庫(kù)服務(wù)來(lái)集成SAP SE、微軟、甲骨文等公司的交易、數(shù)據(jù)轉(zhuǎn)換管道和可視化,在簡(jiǎn)化和扁平化現(xiàn)代數(shù)據(jù)堆棧方面取得了真正的進(jìn)展,此外,Amazon Web Services Inc.還大幅擴(kuò)展了其zero-ETL (提取/轉(zhuǎn)換/加載)功能,將操作數(shù)據(jù)庫(kù)與RedShift和OpenSearch捆綁在一起,克服了其數(shù)據(jù)庫(kù)產(chǎn)品組合中的一個(gè)關(guān)鍵弱點(diǎn)。
正如我們所預(yù)期的那樣,現(xiàn)實(shí)檢查打擊了數(shù)據(jù)網(wǎng)格,因?yàn)槠髽I(yè)正在努力應(yīng)對(duì)使聯(lián)合數(shù)據(jù)治理成為現(xiàn)實(shí)的復(fù)雜性,現(xiàn)在有了一種將數(shù)據(jù)視為產(chǎn)品的新意識(shí),但數(shù)據(jù)產(chǎn)品的定義仍在旁觀者的眼中。
至于我們稱之為“the revenge of the SQL nerds”的數(shù)據(jù)倉(cāng)庫(kù),Apache Iceberg成為了連接數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的事實(shí)上的標(biāo)準(zhǔn)開放表格格式,就連Databricks Inc.也打開了大門。
在第一季度,幾乎沒有提到GenAI,但奇怪的是,4月1日左右,科技界發(fā)生了180度大轉(zhuǎn)彎,正如我們?cè)诮衲晗奶彀l(fā)布的Gen AI Trip報(bào)告中所指出的那樣,自去年11月發(fā)布以來(lái),OpenAI的ChatGPT在短短幾個(gè)月內(nèi)就獲得了1億用戶,這比Facebook、Instagram和Twitter快得多。
突然之間,每個(gè)數(shù)據(jù)、分析和AI解決方案提供商都必須有一個(gè)GenAI故事,矢量數(shù)據(jù)支持成為操作數(shù)據(jù)庫(kù)的一個(gè)復(fù)選框功能,英語(yǔ)(以及越來(lái)越多的其他流行語(yǔ)言)正迅速成為世界上最受歡迎的應(yīng)用程序編程接口和軟件開發(fā)工具包,盡管存在知識(shí)產(chǎn)權(quán)問(wèn)題,但人們對(duì)Gen AI自動(dòng)生成代碼的潛力非常感興趣。
當(dāng)然,生成性模型不僅僅與語(yǔ)言有關(guān),他們還可以將像素組裝成圖片,為所需功能吐出樣板代碼,拼湊音符形成歌曲,并利用分子結(jié)構(gòu)、地理空間和幾乎任何其他形式的數(shù)據(jù)來(lái)尋找概率聯(lián)系,但大多數(shù)人的注意力都集中在大型語(yǔ)言模型上。
在幕后,硬件變得和Jensen Huang的商標(biāo)黑色皮革轟炸機(jī)夾克一樣酷,這位NVIDIA的CEO幾乎無(wú)處不在地出現(xiàn)在我們舉辦的幾乎每一場(chǎng)云會(huì)議上,如果Huang沒有在舞臺(tái)上露面,那么他的主旨演講就不完整。
盡管每個(gè)人都想成為NVIDIA的好朋友,但爭(zhēng)奪第二來(lái)源的競(jìng)賽已經(jīng)開始,圖形處理單元的稀缺已經(jīng)到了企業(yè)只能通過(guò)長(zhǎng)期、一到三年的硅片承諾才能獲得訪問(wèn)的地步,以備不時(shí)之需,平均利用率可能只有20%左右。在這里,我們可以看到為AI工作帶來(lái)了一個(gè)未使用的GPU周期的售后市場(chǎng)。
這里是數(shù)據(jù)的角度:每一個(gè)AI模型的成功——生成性或經(jīng)典ML——取決于模型的相關(guān)性、性能和準(zhǔn)確性,當(dāng)然還有數(shù)據(jù)的相關(guān)性和質(zhì)量。在新的生成世界中,“垃圾輸入,垃圾輸出”仍然一如既往地切合實(shí)際。
為2024年做好準(zhǔn)備
十年前,數(shù)據(jù)是風(fēng)險(xiǎn)投資的中心。瀏覽一下2010年代Strata舊大數(shù)據(jù)會(huì)議的會(huì)議日程,我們的議程上擠滿了提供大量輔助工具和服務(wù)的初創(chuàng)公司,這些工具和服務(wù)以Hadoop、流媒體、目錄和數(shù)據(jù)爭(zhēng)論為中心。
可以說(shuō),那里有相當(dāng)高的死亡率,這是達(dá)爾文主義的秩序。快進(jìn)到今天,AI已經(jīng)取代數(shù)據(jù)成為風(fēng)險(xiǎn)投資的熱點(diǎn)。根據(jù)經(jīng)濟(jì)合作與發(fā)展公司的數(shù)據(jù),在過(guò)去十年中,AI一直是同期風(fēng)險(xiǎn)融資增長(zhǎng)最快的行業(yè)。經(jīng)合公司的一個(gè)相關(guān)有趣事實(shí)是,在此期間,實(shí)際的AI風(fēng)險(xiǎn)投資增長(zhǎng)了28倍。
誠(chéng)然,過(guò)去幾年的情況更加低迷,但如果OECD的圖表更新,我們預(yù)計(jì)風(fēng)險(xiǎn)投資比例和AI倍數(shù)的增長(zhǎng)將會(huì)繼續(xù)。
根據(jù)PitchBook的數(shù)據(jù),2023年第三季度,整體風(fēng)險(xiǎn)融資降至2017年以來(lái)的最低水平,早期融資與五年低點(diǎn)同步,但富人們正在變得越來(lái)越富有,微軟100億美元的支持下,開放AI顯然是一個(gè)典型,然后是Anthropic PBC,它得到了來(lái)自AWS和谷歌有限責(zé)任公司的約50億美元的支持,最近又獲得了7.5億美元的融資,其估值達(dá)到了相當(dāng)高的150億美元,相當(dāng)于收入的75倍。
問(wèn)題不是這個(gè)泡沫是否會(huì)破滅,而是何時(shí)破滅。由于2024年利率可能會(huì)下降,這一清算時(shí)刻不太可能立即到來(lái),這項(xiàng)技術(shù)太新了,客戶不會(huì)失望。
但請(qǐng)稍等,OpenAI、Anthropic、Cohere Inc.或其他公司,2024年可能會(huì)被標(biāo)記為寒武紀(jì)適合用途的、更緊湊的基礎(chǔ)模型或FM的開始。我們預(yù)計(jì),這一類別的融資將上升到較長(zhǎng)尾的公司。
這些適合用途的FM的增長(zhǎng)將受到對(duì)運(yùn)營(yíng)GPT等大型模型的巨額支出的強(qiáng)烈反對(duì)。有了學(xué)習(xí)曲線,數(shù)據(jù)科學(xué)家將在優(yōu)化生成模型的合適大小的訓(xùn)練數(shù)據(jù)庫(kù)方面變得更有先見之明。
正如我們幾個(gè)月前指出的那樣,GenAI可能是市場(chǎng)上閃閃發(fā)光的新事物,但在幕后,“經(jīng)典”ML模型將繼續(xù)發(fā)揮重要作用。當(dāng)塵埃落定時(shí),為任務(wù)的正確部分使用正確的模型,將會(huì)有更多的平衡。
在數(shù)據(jù)庫(kù)方面,我們看到了一種安全的逃亡。在一個(gè)仍有數(shù)百個(gè)引擎的環(huán)境中,人們對(duì)新的數(shù)據(jù)庫(kù)初創(chuàng)公司幾乎沒有興趣,但顯示最受歡迎的10個(gè)引擎基本保持穩(wěn)定。
Couchbase Inc.是一個(gè)很好的例子,它從失去的十年中恢復(fù)過(guò)來(lái),勉強(qiáng)實(shí)現(xiàn)了可觀的增長(zhǎng),但它的市場(chǎng)份額永遠(yuǎn)不會(huì)達(dá)到與MongoDB持平的水平,后者曾是它的競(jìng)爭(zhēng)對(duì)手。除了這一群體,我們認(rèn)為2010年代的前景渺?!雽?shí)驗(yàn)室公司、Yuabyte公司或Aerospike Inc.等老牌初創(chuàng)公司取代了現(xiàn)有的秩序。
那么,我們應(yīng)該在2024年的數(shù)據(jù)庫(kù)環(huán)境中尋找什么呢?一個(gè)廣泛的暗示是,其中很大一部分將與支持和內(nèi)部利用AI有關(guān)。
向量索引和BI整合
向量指數(shù)不會(huì)成為頭條新聞,也不會(huì)是GenAI-商業(yè)智能集成,但這將是2024年最重大的數(shù)據(jù)庫(kù)創(chuàng)新。數(shù)據(jù)庫(kù)供應(yīng)商今天將擴(kuò)展他們的通用向量索引產(chǎn)品,提供更多的優(yōu)化選擇,他們將加入編排,允許使用表格、BI風(fēng)格的結(jié)果豐富Gen AI查詢。
回到基本問(wèn)題,那么GenAI與數(shù)據(jù)庫(kù)有什么關(guān)系呢?對(duì)于運(yùn)行例程查詢,持久化數(shù)據(jù)比按需填充數(shù)據(jù)更有效。對(duì)于生成性模型,能夠訪問(wèn)新的或更相關(guān)的數(shù)據(jù)是使它們?cè)谀P陀?xùn)練所依據(jù)的數(shù)據(jù)語(yǔ)料庫(kù)之外保持最新的關(guān)鍵,這就是檢索增強(qiáng)生成(RAG)和向量的用武之地。
毫不奇怪,數(shù)據(jù)庫(kù)部門去年的回應(yīng)是增加了存儲(chǔ)向量嵌入的能力。對(duì)于現(xiàn)有的操作數(shù)據(jù)庫(kù),這幾乎是不費(fèi)吹灰之力的,因?yàn)橄蛄恐皇橇硪环N要添加到混合中的數(shù)據(jù)類型。AWS、DataSTax Inc.、微軟、MongoDB Inc.、Snowflake Inc.和各種PostgreSQL變種也加入了這一潮流。
我們還看到了專門的病媒數(shù)據(jù)庫(kù)的出現(xiàn),例如來(lái)自松果系統(tǒng)公司和Zillis公司及其Milvus的數(shù)據(jù)庫(kù)。我們預(yù)計(jì)矢量數(shù)據(jù)庫(kù)環(huán)境將以與圖形相同的方式發(fā)展:出現(xiàn)了幾個(gè)專門的數(shù)據(jù)庫(kù),用于服務(wù)于涉及極端規(guī)模和復(fù)雜性的用例,其中大部分操作來(lái)自我們已經(jīng)使用的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)正在或正在將矢量數(shù)據(jù)支持添加為一項(xiàng)功能。
隨著大多數(shù)操作數(shù)據(jù)庫(kù)添加向量存儲(chǔ),我們將索引視為下一個(gè)前沿,這也是GenAI支持方面的大部分差異化之處。大多數(shù)添加向量存儲(chǔ)的數(shù)據(jù)庫(kù)都是從基本的索引開始的,該索引沒有針對(duì)特定的服務(wù)級(jí)別協(xié)議進(jìn)行優(yōu)化,這種情況即將改變。
原因如下:向量索引不是平等創(chuàng)建的。向量索引搜索標(biāo)識(shí)相似項(xiàng)目的“最近鄰居”(也稱為“相似性搜索”),但有不同的方法來(lái)優(yōu)化相似性搜索,這反過(guò)來(lái)又會(huì)根據(jù)它們支持的索引類型來(lái)決定使用什么數(shù)據(jù)庫(kù)。
向量索引的變量包括查找率,它衡量為特定查詢檢索到的相關(guān)數(shù)據(jù)實(shí)體或項(xiàng)的比例。從本質(zhì)上說(shuō),有兩種選擇,一種是低召回率,一種是快速而骯臟的方法,運(yùn)行起來(lái)更經(jīng)濟(jì),提供的是大體情況,另一種是高召回率,它更全面,對(duì)結(jié)果更嚴(yán)格。
因此,用于生成營(yíng)銷內(nèi)容的生成性應(yīng)用程序可能會(huì)使用低召回率向量索引,而與合規(guī)相關(guān)的用例將需要更全面、更昂貴、更高召回率的搜索。向量索引中還有針對(duì)速度(性能)或比例等參數(shù)進(jìn)行優(yōu)化的其他變體。
例如,Milvus提供了近12種不同的向量索引類型,它們針對(duì)數(shù)據(jù)集的大小、速度、召回率、內(nèi)存占用和維度(查詢復(fù)雜性的衡量標(biāo)準(zhǔn))進(jìn)行了優(yōu)化,而Oracle提供了內(nèi)存中索引的選擇,以實(shí)現(xiàn)更緊湊的搜索,以及一種旨在跨多個(gè)分區(qū)并行擴(kuò)展的索引。
硬幣的另一面是能夠?qū)⑾蛄坎樵兊慕Y(jié)果與表格數(shù)據(jù)混合和匹配。從字面上看,這將是GenAI數(shù)據(jù)庫(kù)創(chuàng)新的明顯一面,例如,一家為商業(yè)客戶提供市場(chǎng)情報(bào)的提供商,它為關(guān)鍵字搜索提供了一種自然語(yǔ)言替代方案,將矢量商店中關(guān)于客戶情緒的匯總數(shù)據(jù)與來(lái)自文檔數(shù)據(jù)庫(kù)(如MongoDB)的異類數(shù)據(jù)關(guān)聯(lián)起來(lái)。
這里有另一個(gè)用例:制造商使用GenAI對(duì)產(chǎn)品質(zhì)量問(wèn)題進(jìn)行根本原因分析,可以與跟蹤保修和服務(wù)成本的關(guān)系數(shù)據(jù)庫(kù)中的表格數(shù)據(jù)相關(guān)聯(lián)。我們希望在能夠協(xié)調(diào)這種復(fù)合查詢的數(shù)據(jù)庫(kù)平臺(tái)中看到更好的結(jié)締公司。
數(shù)據(jù)和AI治理開始走到一起
今天,數(shù)據(jù)治理和AI治理是獨(dú)立的工具鏈,由不同的從業(yè)者運(yùn)行:一端是數(shù)據(jù)庫(kù)管理員和數(shù)據(jù)管家,另一端是AI開發(fā)人員和數(shù)據(jù)科學(xué)家,這個(gè)問(wèn)題并不局限于GenAI,而是適用于所有類型的AI模型,而且早該融合了。我們預(yù)計(jì)在未來(lái)一年將開始看到通過(guò)跟蹤和關(guān)聯(lián)譜系將數(shù)據(jù)和AI治理結(jié)合在一起的運(yùn)動(dòng)。
這是一個(gè)棘手的挑戰(zhàn),僅以數(shù)據(jù)治理為例:在大多數(shù)公司中,它很難說(shuō)是鐵板一塊。通常,不同的團(tuán)隊(duì)和參與者在數(shù)據(jù)質(zhì)量、安全和隱私、合規(guī)性和風(fēng)險(xiǎn)管理以及整體生命周期管理方面處于領(lǐng)先地位,這些工作往往是重疊的,因?yàn)榇蠖鄶?shù)公司都有多個(gè)工具,如數(shù)據(jù)目錄,來(lái)執(zhí)行相同的任務(wù)。
數(shù)據(jù)治理中的脫節(jié)引發(fā)了關(guān)于數(shù)據(jù)網(wǎng)格的討論,這是關(guān)于在數(shù)據(jù)產(chǎn)品的整個(gè)生命周期中協(xié)調(diào)數(shù)據(jù)所有權(quán)與責(zé)任的問(wèn)題,這在2022年的數(shù)據(jù)討論中占據(jù)了主導(dǎo)地位。
與此同時(shí),隨著ML的采用從孤立的概念證明擴(kuò)展到常規(guī)地嵌入預(yù)測(cè)性和規(guī)范性分析,AI治理迅速出現(xiàn),它通常側(cè)重于跟蹤模型譜系、審計(jì)、風(fēng)險(xiǎn)管理、合規(guī)性,在某些情況下,還關(guān)注可解釋性。GenAI加劇了這一挑戰(zhàn),需要更多地關(guān)注數(shù)據(jù)源的引用,同時(shí)引入新的問(wèn)題,如檢測(cè)(并允許刪除)有毒或誹謗性語(yǔ)言,幻覺(當(dāng)然),以及版權(quán)和知識(shí)產(chǎn)權(quán)問(wèn)題。
當(dāng)然,挑戰(zhàn)在于,在AI領(lǐng)域,模型和數(shù)據(jù)交織在一起,模型的性能、安全性和合規(guī)性與用于生成答案的訓(xùn)練和生產(chǎn)數(shù)據(jù)集直接相關(guān),這就是為什么,當(dāng)檢測(cè)模型偏差時(shí),問(wèn)題可能很容易出在數(shù)據(jù)上,或者出在邏輯或算法上,或者兩者兼而有之。
例如,有充分的文件證明,面部識(shí)別系統(tǒng)的可靠性很容易受到不同種族和國(guó)籍的過(guò)度或不足抽樣的影響。當(dāng)不同的人口普查區(qū)域或人口隊(duì)列以不同的比率進(jìn)行抽樣時(shí),對(duì)產(chǎn)品或社會(huì)服務(wù)的需求分析也是如此。
然后是漂移的問(wèn)題,數(shù)據(jù)和模型可以獨(dú)立漂移,也可以相互依賴,數(shù)據(jù)來(lái)源可能會(huì)改變,數(shù)據(jù)揭示的趨勢(shì)也可能要求模型反過(guò)來(lái)調(diào)整其算法。你不會(huì)想用今天的數(shù)據(jù)來(lái)解決昨天的問(wèn)題,反之亦然。
在接下來(lái)的一年里,我們預(yù)計(jì)AI治理工具將開始關(guān)注數(shù)據(jù)譜系,它是審計(jì)跟蹤可以開始的邏輯點(diǎn),評(píng)估哪個(gè)模型的哪個(gè)版本針對(duì)什么數(shù)據(jù)的哪個(gè)版本進(jìn)行了培訓(xùn),以及誰(shuí)是擁有和擔(dān)保這些更改的責(zé)任方。
從那時(shí)起,以后可能會(huì)出現(xiàn)更復(fù)雜的能力,跟蹤和關(guān)聯(lián)數(shù)據(jù)質(zhì)量、準(zhǔn)確性、合規(guī)性等。隨著許多ML模型在數(shù)據(jù)庫(kù)中執(zhí)行,我們看到了數(shù)據(jù)目錄合并模型資產(chǎn)的巨大機(jī)會(huì),并由此成為應(yīng)用治理的點(diǎn)。
我們很感興趣地看到,IBM完成了對(duì)Manta Software Inc.的收購(gòu),以實(shí)現(xiàn)數(shù)據(jù)沿襲,同時(shí)也揭開了AI治理領(lǐng)域Watsonx.治理的面紗。雖然IBM的時(shí)機(jī)是巧合的,但我們希望它最終會(huì)利用這個(gè)偶然的機(jī)會(huì)。
GenAI豐富了數(shù)據(jù)發(fā)現(xiàn)和治理
不足為奇的是,Gen AI最受歡迎的用例一直圍繞著從查詢到編碼的各種任務(wù)的自然或?qū)υ捳Z(yǔ)言界面。我們預(yù)計(jì),數(shù)據(jù)發(fā)現(xiàn)和治理將是未來(lái)一年GenAI增強(qiáng)的主要目標(biāo)。
讓我們從自然語(yǔ)言或會(huì)話查詢開始,一些很好的早期例子包括QuickSight中的ThoughtSpot Sage、Databricks Lakehouse IQ和Amazon Q,它們繼承了Tableau Ask Data等面向關(guān)鍵字的前輩的做法。我們預(yù)計(jì)Tableaus和Qlik將在2024年做出回應(yīng)。
我們還預(yù)計(jì),自然語(yǔ)言將圍繞數(shù)據(jù)生命周期中涉及的阻塞和處理發(fā)揮各種功能,從編目數(shù)據(jù)到發(fā)現(xiàn)、管理、管理和保護(hù)數(shù)據(jù)。Atlan是一家專注于DataOps的數(shù)據(jù)目錄提供商,它提供了我們預(yù)計(jì)今年會(huì)看到更多內(nèi)容的一瞥。Atlan從一個(gè)常見的自然語(yǔ)言搜索功能開始,該功能與越來(lái)越多的BI工具提供的自然語(yǔ)言查詢功能非常相似。
但它進(jìn)一步改進(jìn)了數(shù)據(jù)庫(kù)元數(shù)據(jù)的自動(dòng)發(fā)現(xiàn)(例如,數(shù)據(jù)資產(chǎn)的表名和列名、模式規(guī)范和譜系),以生成簡(jiǎn)單英語(yǔ)的文檔。作為自然語(yǔ)言SQL代碼生成的鏡像,Atlan可以將現(xiàn)有的SQL轉(zhuǎn)換為純語(yǔ)言描述。
這只是冰山一角,對(duì)這些自動(dòng)文檔功能的邏輯擴(kuò)展將從業(yè)務(wù)術(shù)語(yǔ)表中提取數(shù)據(jù),并將它們與表元數(shù)據(jù)相關(guān)聯(lián),反之亦然。GenAI的自動(dòng)匯總能力可以指向書面政策、規(guī)則和事件,以記錄對(duì)風(fēng)險(xiǎn)管理護(hù)欄的遵守情況。讀取表元數(shù)據(jù)和SQL轉(zhuǎn)換可以豐富或生成參考數(shù)據(jù),以協(xié)調(diào)數(shù)據(jù)庫(kù)和應(yīng)用程序之間的數(shù)據(jù),并找出差距或遺漏,這些只是我們預(yù)計(jì)今年會(huì)出現(xiàn)的幾種可能性。
GenAI與數(shù)據(jù)庫(kù)設(shè)計(jì)
追隨自動(dòng)代碼生成或指導(dǎo)的腳步,GenAI還可以幫助數(shù)據(jù)庫(kù)設(shè)計(jì)人員簡(jiǎn)化數(shù)據(jù)庫(kù)的開發(fā)和部署,當(dāng)然,這將繼續(xù)需要人類參與——我們不應(yīng)該讓一個(gè)聰明的機(jī)器人在沒有干預(yù)的情況下設(shè)計(jì)數(shù)據(jù)庫(kù),但語(yǔ)言模型掃描、匯總和突出顯示數(shù)據(jù)語(yǔ)料庫(kù)的能力,可能使其成為數(shù)據(jù)庫(kù)開發(fā)的主要生產(chǎn)力工具。
誠(chéng)然,AI已經(jīng)被用于數(shù)據(jù)庫(kù)操作的許多方面,從查詢優(yōu)化到索引創(chuàng)建、自動(dòng)調(diào)優(yōu)、配置、修補(bǔ)等,Oracle自治數(shù)據(jù)庫(kù)是完全自動(dòng)駕駛自動(dòng)化的典范。盡管在一些運(yùn)營(yíng)領(lǐng)域,ML已經(jīng)被用來(lái)優(yōu)化或提供可以由GenAI補(bǔ)充的建議,但我們相信,最大的回報(bào)將是數(shù)據(jù)庫(kù)處理數(shù)據(jù)內(nèi)容的方面,這也是我們預(yù)計(jì)2024年下一波AI創(chuàng)新將發(fā)生的地方。正如前面提到的,我們已經(jīng)略微了解了自然語(yǔ)言查詢和SQL代碼生成。
在短期內(nèi),我們預(yù)計(jì)將看到GenAI數(shù)據(jù)庫(kù)創(chuàng)新專注于數(shù)據(jù)的結(jié)構(gòu)化。利用轉(zhuǎn)換器模型用于匯總和提取文檔亮點(diǎn)的相同類型的功能,我們可以看到,通過(guò)輸出E-R圖、模式生成和基于實(shí)際數(shù)據(jù)的特征生成合成數(shù)據(jù),可以將其應(yīng)用于掃描用于數(shù)據(jù)建模的應(yīng)用程序的需求文檔。利用代碼生成能力和檢測(cè)隱式數(shù)據(jù)結(jié)構(gòu)的能力,我們可以看到GenAI被應(yīng)用于創(chuàng)建數(shù)據(jù)轉(zhuǎn)換管道。
從長(zhǎng)遠(yuǎn)來(lái)看,我們可以看到GenAI的出現(xiàn),以補(bǔ)充已經(jīng)應(yīng)用于ML的任務(wù),例如創(chuàng)建索引、錯(cuò)誤和離群值檢測(cè)以及性能調(diào)優(yōu),但我們不認(rèn)為這些功能是2024年數(shù)據(jù)庫(kù)提供商的首要任務(wù),因?yàn)槟抢锏暮锰帉⑹菨u進(jìn)的,而不是變革性的。對(duì)于任何閃亮的新事物,讓我們不要得意忘形。