2022 年下半年數(shù)據(jù)和人工智能技術(shù)預(yù)測(cè)
根據(jù)我們?cè)?2022 年到目前為止的情況,Datanami 有信心在今年余下的時(shí)間里做出這五個(gè)預(yù)測(cè)。
數(shù)據(jù)可觀察性繼續(xù)運(yùn)行
今年上半年對(duì)于數(shù)據(jù)可觀察性來(lái)說(shuō)意義重大,這讓客戶(hù)可以更好地了解數(shù)據(jù)流的情況并制定相關(guān)指標(biāo)。隨著數(shù)據(jù)對(duì)于決策制定變得越來(lái)越重要,該數(shù)據(jù)的健康和可用性也變得越來(lái)越重要。
我們看到許多數(shù)據(jù)可觀察性初創(chuàng)公司獲得了數(shù)億美元的風(fēng)險(xiǎn)投資,其中包括Cribl(價(jià)值 1.5 億美元的 D 輪融資);蒙特卡洛(D 系列價(jià)值 1.35 億美元);Coralogix(D 系列價(jià)值 1.42 億美元);和別的。其他制造新聞的公司包括推出元數(shù)據(jù)指標(biāo)的Bigeye;StreamSets,被Software AG以 5.8 億美元收購(gòu);IBM上個(gè)月收購(gòu)了可觀察性初創(chuàng)公司 Databand 。
這種勢(shì)頭將在 2022 年下半年繼續(xù),因?yàn)樵絹?lái)越多的數(shù)據(jù)可觀察性初創(chuàng)公司走出困境,現(xiàn)有的初創(chuàng)公司尋求鞏固其在這個(gè)新興市場(chǎng)中的地位。
實(shí)時(shí)數(shù)據(jù)彈出
實(shí)時(shí)數(shù)據(jù)多年來(lái)一直處于次要地位,服務(wù)于一些小眾用例,但實(shí)際上并未在常規(guī)企業(yè)中得到廣泛使用。但是,由于過(guò)去幾年的新冠疫情和相關(guān)的商業(yè)計(jì)劃重組,實(shí)時(shí)數(shù)據(jù)進(jìn)入主流科技圈的條件現(xiàn)在已經(jīng)成熟。
“我認(rèn)為流媒體終于發(fā)生了,” Databricks首席執(zhí)行官 Ali Ghodsi 在最近的 Data + AI 峰會(huì)上表示,并指出該公司基于云的數(shù)據(jù)平臺(tái)上的流媒體工作負(fù)載增長(zhǎng)了 2.5 倍。“他們有越來(lái)越多的 AI 用例需要實(shí)時(shí)?!?/p>
內(nèi)存數(shù)據(jù)庫(kù)和內(nèi)存數(shù)據(jù)網(wǎng)格也準(zhǔn)備從實(shí)時(shí)復(fù)興中受益(如果是這樣的話)。RocksDB是一個(gè)快速分析數(shù)據(jù)庫(kù),它增強(qiáng)了 Kafka 等基于事件的系統(tǒng),現(xiàn)在有一個(gè)名為 Speedb 的替代品。SingleStore在一個(gè)單一的關(guān)系框架中結(jié)合了 OLTP 和 OLAP 功能,在上個(gè)月的一輪融資中達(dá)到了 13 億美元的估值。
還有StarRocks ,它最近獲得了基于 Apache Doris的快速新 OLAP 數(shù)據(jù)庫(kù)的資助;Imply于 5 月完成了 1 億美元的 D 輪融資,以繼續(xù)其基于 Apache Druid 的實(shí)時(shí)分析業(yè)務(wù);DataStax將 Apache Pulsar 添加到其 Apache Cassandra 工具包中,籌集了 1.15 億美元用于推動(dòng)實(shí)時(shí)應(yīng)用程序開(kāi)發(fā)。Datanami預(yù)計(jì)這種對(duì)實(shí)時(shí)數(shù)據(jù)分析的關(guān)注將繼續(xù)下去。
監(jiān)管增長(zhǎng)
GDPR生效已經(jīng)四年了,讓大數(shù)據(jù)用戶(hù)受到關(guān)注,并加速了數(shù)據(jù)治理作為負(fù)責(zé)任數(shù)據(jù)計(jì)劃的必要組成部分的興起。在美國(guó),監(jiān)管數(shù)據(jù)訪問(wèn)的任務(wù)已經(jīng)落到各州身上,加利福尼亞州在 CCPA 方面處于領(lǐng)先地位,它在許多方面模仿了 GPDR。但更多的州可能會(huì)效仿,這使美國(guó)公司的數(shù)據(jù)隱私等式變得復(fù)雜。
但 GDPR 和 CCPA 只是法規(guī)的開(kāi)始。我們也處于第三方 cookie 的消亡之中,這使得公司更難跟蹤用戶(hù)的在線行為。谷歌決定將其平臺(tái)上第三方 cookie 的終止時(shí)間推遲到 2023 年 1 月 1 日,這給了營(yíng)銷(xiāo)人員一些額外的時(shí)間來(lái)適應(yīng),但來(lái)自 cookie 的信息將難以復(fù)制。
除了數(shù)據(jù)法規(guī)之外,我們還處于關(guān)于使用人工智能的新法規(guī)的風(fēng)口浪尖。歐盟于 2021 年推出了人工智能法案,專(zhuān)家預(yù)測(cè)它可能會(huì)在 2022 年底或 2023 年初成為法律。
數(shù)據(jù)表格式之戰(zhàn)
一場(chǎng)經(jīng)典的技術(shù)大戰(zhàn)正在形成新的數(shù)據(jù)表格式,這將決定數(shù)據(jù)如何存儲(chǔ)在大數(shù)據(jù)系統(tǒng)中,誰(shuí)可以訪問(wèn)它,以及用戶(hù)可以用它做什么。
最近幾個(gè)月, Apache Iceberg作為數(shù)據(jù)表格式的潛在新標(biāo)準(zhǔn)獲得了熱潮。云數(shù)據(jù)倉(cāng)庫(kù)巨頭Snowflake和AWS今年年初出來(lái)支持 Iceberg,后者提供交易和其他數(shù)據(jù)控制,并從 Netflix 和 Apple 的工作中脫穎而出。前 Hadoop 分銷(xiāo)商Cloudera在 6 月份也支持了 Iceberg。
但是 Databricks 的人們提供了 Delta Lake 表格式的替代方案,它提供了與 Iceberg 類(lèi)似的功能。Apache Spark 支持者最初以專(zhuān)有方式開(kāi)發(fā)了 Delta Lake 表格式,這導(dǎo)致指責(zé) Databricks 為客戶(hù)設(shè)置鎖定。但在 6 月的數(shù)據(jù) + AI 峰會(huì)上,該公司宣布將把整個(gè)格式都開(kāi)源,從而讓任何人都可以使用它。
在洗牌中迷失的是Apache Hudi,它還提供了數(shù)據(jù)的一致性,因?yàn)樗挥诖髷?shù)據(jù)存儲(chǔ)庫(kù)中并且可以被各種計(jì)算引擎訪問(wèn)。Onehouse是一家由 Apache Hudi 的創(chuàng)建者支持的企業(yè),今年早些時(shí)候推出了一個(gè)基于 Hudi 的 Lakehouse 平臺(tái)。
大數(shù)據(jù)生態(tài)系統(tǒng)喜歡競(jìng)爭(zhēng),因此在 2022 年剩余時(shí)間里觀察這些格式的演變和競(jìng)爭(zhēng)將會(huì)很有趣。
語(yǔ)言 AI 繼續(xù)令人驚嘆
人工智能的前沿逐月變得越來(lái)越鋒利,而今天,人工智能的矛頭是大語(yǔ)言模型,它越來(lái)越好。事實(shí)上,大型語(yǔ)言模型已經(jīng)變得如此出色,以至于 6 月份的一位Google工程師聲稱(chēng)該公司的 LaMDA 會(huì)話系統(tǒng)已經(jīng)變得有感知力。
人工智能還沒(méi)有感知能力,但這并不意味著它們對(duì)企業(yè)沒(méi)有用處。提醒我們,Salesforce有一個(gè)名為 CodeGen 的大型語(yǔ)言模型 (LLM) 項(xiàng)目,該項(xiàng)目旨在理解源代碼,甚至以不同的編程語(yǔ)言生成自己的代碼。
上個(gè)月,Meta(Facebook 的母公司)推出了一個(gè)可以翻譯 200 種語(yǔ)言的大型語(yǔ)言模型。我們還看到了通過(guò) BigScience 大型開(kāi)放科學(xué)開(kāi)放訪問(wèn)多語(yǔ)言語(yǔ)言模型或BLOOM等項(xiàng)目使 AI 民主化的努力。