偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型時(shí)代,新一代向量數(shù)據(jù)庫的探索應(yīng)用-DingoDB

數(shù)據(jù)庫 其他數(shù)據(jù)庫
本文將從具體的技術(shù)角度,介紹 DingoDB 多模向量數(shù)據(jù)庫,及其應(yīng)用場(chǎng)景。DingoDB 支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),提供與 MySQL 兼容的協(xié)議和優(yōu)化器。數(shù)據(jù)庫底層支持鍵值對(duì)(KV)和向量的存儲(chǔ),并采用分布式存儲(chǔ)架構(gòu),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合存儲(chǔ)和分析。

一、DingoDB 的設(shè)計(jì)理念

圖片

2015 年前,數(shù)據(jù)架構(gòu)以數(shù)據(jù)倉(cāng)庫(Data Warehouse)為主,專注于結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)。到 2016-2022 年期間,流行數(shù)據(jù)湖(Data Lake)的概念,擴(kuò)展了數(shù)據(jù)維度并管理了更多類型的數(shù)據(jù)。最近一年,AIGC 飛速發(fā)展,數(shù)據(jù)生態(tài)隨之演進(jìn)到了新的數(shù)據(jù)棧時(shí)代,隨著數(shù)據(jù)分析復(fù)雜度的不斷提升,由最初的查詢處理需求,擴(kuò)展到機(jī)器學(xué)習(xí)和深度學(xué)習(xí),又發(fā)展到了現(xiàn)在的自助分析、生成式內(nèi)容創(chuàng)作(AIGC)、自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)(AutoML、GPT)等場(chǎng)景。這些都離不開對(duì)現(xiàn)實(shí)世界中的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高效管理。需求的增長(zhǎng)催生了新的數(shù)據(jù)生態(tài)。

圖片

在新的數(shù)據(jù)棧時(shí)代,原有數(shù)據(jù)處理流程基本不變,包括數(shù)據(jù)的來源、獲取、轉(zhuǎn)化、存儲(chǔ)和計(jì)算以及利用數(shù)據(jù)進(jìn)行分析預(yù)測(cè)和構(gòu)建應(yīng)用。未來趨勢(shì)是走向"向量海",所有非結(jié)構(gòu)化數(shù)據(jù)最終會(huì)被轉(zhuǎn)化為向量進(jìn)行存儲(chǔ),基于數(shù)據(jù)結(jié)構(gòu)構(gòu)建實(shí)時(shí)分析處理流程,在此基礎(chǔ)上再構(gòu)建出各種數(shù)據(jù)應(yīng)用。

九章云極 DataCanvas 在數(shù)據(jù)生態(tài)方面積累了豐富的經(jīng)驗(yàn),提出一站式解決方案,涵蓋了數(shù)據(jù)攝取到數(shù)據(jù)應(yīng)用的全過程,并推出了相應(yīng)的成熟軟件和產(chǎn)品來滿足客戶需求。DingoDB 是其中的多模向量數(shù)據(jù)庫,主要目標(biāo)是處理數(shù)據(jù)存儲(chǔ)和計(jì)算,以及部分分析和預(yù)測(cè)的功能。

除了 DingoDB,還推出更多相關(guān)產(chǎn)品,如 TableAgent 數(shù)據(jù)分析智能體以及自有的人工智能平臺(tái)和大模型。這一系列工具的目的是為了能夠串聯(lián)起數(shù)據(jù)處理的全流程,為用戶提供一站式的解決方案,有效滿足大規(guī)模數(shù)據(jù)的存儲(chǔ)、分析和應(yīng)用需求。

圖片

在"Vector Ocean"時(shí)代,數(shù)據(jù)生態(tài)融合了多樣化的數(shù)據(jù)類型,如圖像、文檔、音頻和視頻。這些多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)通過向量化后,成為不同維度的向量集合,進(jìn)而存儲(chǔ)于大規(guī)模、高效的向量數(shù)據(jù)庫中。這個(gè)數(shù)據(jù)庫內(nèi)部采用多種不同的數(shù)據(jù)組織形式,包括傳統(tǒng)的數(shù)據(jù)庫表結(jié)構(gòu)、鍵值對(duì)(KV)存儲(chǔ),甚至可能包括文檔型數(shù)據(jù)庫(Document DB)。存儲(chǔ)這些數(shù)據(jù)之后,可以支持多種應(yīng)用場(chǎng)景,如商業(yè)智能(BI)、數(shù)據(jù)流分析、人工智能(AI)、數(shù)據(jù)科學(xué)等。

DingoDB 致力于創(chuàng)建一個(gè)多模態(tài)向量數(shù)據(jù)庫,能夠整合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、分析與查詢。滿足用戶對(duì)向量查詢的需求,也能夠保護(hù)和利用其現(xiàn)有數(shù)據(jù),并強(qiáng)化對(duì)向量查詢的支持。

二、DingoDB 的產(chǎn)品優(yōu)勢(shì)和架構(gòu)介紹

1. DingoDB 概覽

DingoDB 支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),提供與 MySQL 兼容的協(xié)議和優(yōu)化器。數(shù)據(jù)庫底層支持鍵值對(duì)(KV)和向量的存儲(chǔ),并采用分布式存儲(chǔ)架構(gòu),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合存儲(chǔ)和分析。用戶可以通過 SQL 指令和 API 訪問數(shù)據(jù),并支持服務(wù)器端運(yùn)算。整體上是一個(gè)完整的多模態(tài)向量數(shù)據(jù)庫。

DingoDB 致力于解決大規(guī)模、多模態(tài)數(shù)據(jù)存儲(chǔ)和分析的問題,提供海量存儲(chǔ)能力和聯(lián)合分析服務(wù)。面臨的挑戰(zhàn)包括多模態(tài)數(shù)據(jù)的統(tǒng)一分析和融合存儲(chǔ)的難度、數(shù)據(jù)的高可用性以及服務(wù)計(jì)算與存儲(chǔ)的一體化問題。DingoDB 旨在簡(jiǎn)化系統(tǒng)之間的復(fù)雜度,提供更有效的存儲(chǔ)方案,為用戶保障數(shù)據(jù)的可靠性和完整性,同時(shí)不斷研究和解決業(yè)界面臨的問題。

圖片

作為中國(guó)信通院首批認(rèn)證通過的向量數(shù)據(jù)庫,DingoDB 以卓越的產(chǎn)品能力完成測(cè)試,通過包括 27 個(gè)必選項(xiàng)在內(nèi)的共計(jì) 39 個(gè)測(cè)試項(xiàng)目,通過數(shù)量遠(yuǎn)超同期測(cè)評(píng)廠商,成為當(dāng)前通過項(xiàng)目最多的向量數(shù)據(jù)庫。

當(dāng)前,DingoDB 已成為 Langchain 項(xiàng)目官方支持的后端存儲(chǔ)。

2. DingoDB 特點(diǎn)

DingoDB 的產(chǎn)品特點(diǎn)主要集中在四個(gè)方面:存儲(chǔ)、SQL 處理、API 支持和數(shù)據(jù)分析。

  • 在存儲(chǔ)方面,DingoDB 基于工業(yè)級(jí)的 Raft 協(xié)議實(shí)現(xiàn)多副本策略,確保了數(shù)據(jù)的強(qiáng)一致性和安全性。這種設(shè)計(jì)也使得數(shù)據(jù)庫容易擴(kuò)容,降低了用戶的成本并提高了性能與可靠性。
  • 在 SQL 處理方面,DingoDB 提供了統(tǒng)一的 SQL 處理能力,支持 MySQL 協(xié)議和索引管理。數(shù)據(jù)庫支持監(jiān)控化和分解化的融合分析,允許對(duì)數(shù)據(jù)進(jìn)行更復(fù)雜的查詢操作。
  • API 層面,DingoDB 支持多種高性能 API 接口,滿足如決策制定等高頻業(yè)務(wù)需求,便于用戶直接進(jìn)行數(shù)據(jù)分析。
  • 在數(shù)據(jù)分析能力上,DingoDB 通過 Python SDK 支持多模態(tài)數(shù)據(jù)的混合分析,包括向量和標(biāo)量索引的混合檢索。數(shù)據(jù)庫同時(shí)兼容多種處理器并支持算子下推,這是一項(xiàng)增強(qiáng)查詢效率和性能的強(qiáng)大功能。

3. DingoDB 架構(gòu)

圖片

DingoDB 的邏輯架構(gòu)被分為多個(gè)層次。最上層是各種應(yīng)用場(chǎng)景,涵蓋了傳統(tǒng)關(guān)系數(shù)據(jù)庫分析、語義搜索、結(jié)構(gòu)化和分解化數(shù)據(jù)分析等方面,以及實(shí)時(shí)數(shù)據(jù)決策支持、提示詞管理、大模型記憶體等現(xiàn)代火熱場(chǎng)景。

在接口層,DingoDB 提供了與 MySQL 協(xié)議兼容的 SQL 支持、高性能的 Serving API 以及原生向量 API 的支持。在 API 下面一層提供了高效的元數(shù)據(jù)存儲(chǔ)和資源管理能力,緊接著是查詢優(yōu)化器和事務(wù)管理器,負(fù)責(zé)查詢和寫入調(diào)度的實(shí)現(xiàn)。

在執(zhí)行層,DingoDB 具有一個(gè)多模態(tài)執(zhí)行引擎。

在存儲(chǔ)層,DingoDB 支持關(guān)系型表、向量表,并能夠?qū)悠渌愋偷拇鎯?chǔ)如對(duì)象存儲(chǔ)或分布式文件系統(tǒng)。

圖片

上圖清晰展示了 DingoDB 從應(yīng)用層到底層存儲(chǔ)的架構(gòu)設(shè)計(jì)。

應(yīng)用層:DingoDB 支持多種應(yīng)用場(chǎng)景。

協(xié)議層:包括三個(gè)接入入口,一是支持 MySQL 客戶端和 JDBC Driver 的 SQL 入口;二是提供高性能的 Java SDK,可以直接連接到存儲(chǔ)層,滿足實(shí)時(shí)訪問需求;三是適應(yīng) Python 環(huán)境的大模型需求,通過 Python 或 C++ SDK 實(shí)現(xiàn)快速接入。

計(jì)算層:主要由兩部分構(gòu)成——Executor 是處理分布式事務(wù)和查詢優(yōu)化的分布式支撐引擎;Coordinator 作為協(xié)調(diào)器,負(fù)責(zé)元數(shù)據(jù)管理和資源管理。

存儲(chǔ)層:底層是核心的存儲(chǔ)架構(gòu),包括原始數(shù)據(jù)存儲(chǔ)以及向量索引和標(biāo)量索引的存儲(chǔ)。此外,DingoDB 還支持向量的動(dòng)態(tài)構(gòu)建和計(jì)算功能。

4. DingoDB 產(chǎn)品優(yōu)勢(shì)

DingoDB 的產(chǎn)品優(yōu)勢(shì)主要體現(xiàn)在五個(gè)方面:

  • 全面的訪問接口:提供 SQL、SDK、API 等多種訪問模式,支持表格和向量作為一等公民的數(shù)據(jù)模型,允許用戶靈活選擇和使用。
  • 內(nèi)建的數(shù)據(jù)高可用:所有功能和高可用性都是內(nèi)建的,不需要部署外部組件,極大降低了部署和運(yùn)維成本。
  • 全自動(dòng)彈性數(shù)據(jù)分片:支持動(dòng)態(tài)配置數(shù)據(jù)分片大小,能夠根據(jù)用戶設(shè)置的閾值自動(dòng)進(jìn)行數(shù)據(jù)分片的分類和合并,無需用戶擔(dān)心分布式數(shù)據(jù)管理。
  • 標(biāo)量和向量的聯(lián)合查詢:支持傳統(tǒng)索引類型以及主流向量索引類型,無縫銜接標(biāo)量和向量混合檢索,使得檢索能力在業(yè)界領(lǐng)先。
  • 內(nèi)建實(shí)時(shí)索引構(gòu)建優(yōu)化:根據(jù)數(shù)據(jù)規(guī)模變化和計(jì)算資源配置,自動(dòng)重新構(gòu)建索引以優(yōu)化數(shù)據(jù)結(jié)構(gòu),提高訪問效率,用戶無感知地體驗(yàn)到索引更新的效果。

三、應(yīng)用場(chǎng)景介紹

DingoDB 被應(yīng)用于多種場(chǎng)景,包括企業(yè)知識(shí)庫建設(shè)、作為大型模型的記憶體、實(shí)時(shí)決策的指標(biāo)分析,并且支持 VectorOcean 數(shù)據(jù)支撐平臺(tái)等應(yīng)用。

圖片

在賦能大模型應(yīng)用方面,DingoDB 的應(yīng)用被分為四個(gè)不同的層次,涵蓋了從數(shù)據(jù)到 Embedding Model的整個(gè)流程。包括使用業(yè)界公開或自研的大型模型和 Embedding 模型來實(shí)現(xiàn)數(shù)據(jù)的向量化。在向量存儲(chǔ)層面用 DingoDB 支撐各種場(chǎng)景,然后再去對(duì)接大語言模型去實(shí)現(xiàn)各種應(yīng)用。

圖片

知識(shí)管家是大模型時(shí)代,基于向量數(shù)據(jù)庫和大模型的一個(gè)新的應(yīng)用方向。DingoDB 為知識(shí)管家提供了強(qiáng)有力的支撐。知識(shí)管家主要負(fù)責(zé)企業(yè)的知識(shí)管理和創(chuàng)造,應(yīng)用場(chǎng)景包括智能問答、內(nèi)容創(chuàng)作助手、智能化工作流程、企業(yè)決策輔助等等。

關(guān)于DingoDB的進(jìn)一步信息和開源代碼可以通過 GitHub 獲取。

http://github. com/dingodb/dingo。

https://github. com/dingodb/dingo-store。

https://www. dingodb. com/。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-10-06 13:52:40

數(shù)據(jù)庫模型

2020-08-07 14:05:02

垃圾回收器ZGC

2021-09-06 16:00:39

Serverless當(dāng)當(dāng)Knative

2023-11-01 18:59:31

2015-06-26 16:31:21

數(shù)據(jù)中心

2012-09-18 11:10:10

數(shù)據(jù)中心新一代數(shù)據(jù)中心數(shù)據(jù)中心特征

2017-09-30 10:41:22

數(shù)據(jù)庫PolarDB關(guān)系

2024-06-11 12:35:50

2021-12-16 12:42:18

AIoT人工智能物聯(lián)網(wǎng)

2009-02-26 21:11:18

VTL數(shù)據(jù)保護(hù)虛擬磁帶庫

2016-03-11 10:09:29

2012-12-03 22:05:51

ERP

2024-12-13 09:52:15

2010-02-07 15:50:33

Android手機(jī)

2020-05-14 13:40:40

SparkFlink大數(shù)據(jù)

2022-05-25 11:11:02

Abase架構(gòu)字節(jié)跳動(dòng)

2009-09-02 16:10:40

ADSL技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)