偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

初識向量數(shù)據(jù)庫與pgvector實(shí)踐

原創(chuàng) 精選
數(shù)據(jù)庫 其他數(shù)據(jù)庫
在數(shù)學(xué)中,向量是有大小和方向的量,可以使用帶箭頭的線段表示,箭頭指向即為向量的方向,線段的長度表示向量的大小。兩個向量的距離或者相似性可以通過歐式距離、余弦距離等得到。

隨著大語言模型的興起,向量數(shù)據(jù)庫正愈發(fā)受到人們的關(guān)注。作為對向量數(shù)據(jù)庫的一名小白,近期簡單對這一新技術(shù)方向做了些了解,特分享給大家。

1. 大火的向量數(shù)據(jù)庫

1)什么是向量

在數(shù)學(xué)中,向量是有大小和方向的量,可以使用帶箭頭的線段表示,箭頭指向即為向量的方向,線段的長度表示向量的大小。兩個向量的距離或者相似性可以通過歐式距離、余弦距離等得到。

圖片圖片

2)什么是向量數(shù)據(jù)

向量數(shù)據(jù)是一種數(shù)學(xué)表示,用一組(多個維度)有序的數(shù)值表示一個對象或數(shù)據(jù)點(diǎn)。在向量數(shù)據(jù)中,每個維度代表了向量的一個特征或?qū)傩?。例如,如果考慮一個二維向量數(shù)據(jù)集,每個向量可以表示平面上的一個點(diǎn),其中第一個維度表示橫坐標(biāo),第二個維度表示縱坐標(biāo)。實(shí)際只要維度夠多,就能夠?qū)⑺惺挛锒紖^(qū)分開來,世間萬物都可以用一個多維坐標(biāo)系來表示,它們都在一個高維的特征空間中對應(yīng)著一個坐標(biāo)點(diǎn)。在生活中,向量數(shù)據(jù)在各種領(lǐng)域中得到廣泛應(yīng)用,特別是在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識別等領(lǐng)域。它可以表示各種類型的數(shù)據(jù),如圖像、音頻、文本、用戶行為、傳感器數(shù)據(jù)等。

圖片圖片

簡而言之,向量表示是一種將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為嵌入向量的技術(shù),通過多維度向量數(shù)值表述某個對象或事物的屬性或者特征。通過嵌入技術(shù),任何圖像、聲音、文本都可以被表達(dá)為一個高維的向量。

3)什么是向量數(shù)據(jù)庫

圖片圖片

如果鍵值、文檔、圖數(shù)據(jù)一樣,向量數(shù)據(jù)也需要一種專門的載體來承擔(dān)。向量數(shù)據(jù)庫是一種專門用于存儲、管理和搜索向量數(shù)據(jù)的數(shù)據(jù)庫。它以向量的形式存儲數(shù)據(jù),其中向量是抽象實(shí)體(如圖像、音頻文件、文本等)的數(shù)學(xué)表示;并支持使用專門的算法來支持向量數(shù)據(jù)搜索和分析。與傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫使用向量化計算,能夠高速地處理大規(guī)模的復(fù)雜數(shù)據(jù);并可以處理高維數(shù)據(jù),例如圖像、音頻和視頻等,解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫中的痛點(diǎn)。

4)向量數(shù)據(jù)庫技術(shù)特點(diǎn)

向量數(shù)據(jù)庫,具有如下核心特點(diǎn):

  • 向量表示向量數(shù)據(jù)庫將復(fù)雜的數(shù)據(jù)類型轉(zhuǎn)換為向量表示,使得高維數(shù)據(jù)能夠以多維空間中的點(diǎn)的形式表示。向量數(shù)據(jù)庫采用嵌入向量(embedding vector)技術(shù),對非結(jié)構(gòu)化數(shù)據(jù)(包括文本、圖片、視頻、音頻等)進(jìn)行特征抽象。數(shù)學(xué)上,嵌入向量是一個浮點(diǎn)數(shù)或二進(jìn)制數(shù)的數(shù)組,即 N 維特征向量空間中的向量。
  • 向量檢索向量數(shù)據(jù)庫擅長在海量數(shù)據(jù)中根據(jù)向量表示搜索與給定查詢相似的數(shù)據(jù)項。為了提高效率,向量庫支持使用如歐氏距離、余弦相似度或曼哈頓距離等相似性度量來確定多維空間中數(shù)據(jù)點(diǎn)之間的接近程度,從而找到最相關(guān)和最相似的結(jié)果。
  • 海量規(guī)模向量數(shù)據(jù)庫被設(shè)計成能夠處理大規(guī)模的數(shù)據(jù)集,并且在數(shù)據(jù)集大小增長時能夠保持高搜索精度和響應(yīng)時間。此外,它們通常提供并行處理和分布式計算的機(jī)制,以滿足不斷增長的數(shù)據(jù)需求。
  • AI 支持隨著人工智能和機(jī)器學(xué)習(xí)應(yīng)用的迅速增長,向量數(shù)據(jù)庫的采用也在增加。將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為向量表示可以與這些算法無縫集成,從而獲得規(guī)?;挠袃r值洞見和預(yù)測。

5)為什么向量數(shù)據(jù)庫大火

向量數(shù)據(jù)之前已經(jīng)得到廣泛應(yīng)用,包括:推薦系統(tǒng)、圖像檢索、自然語言處理、人臉識別和圖像搜索、音頻識別、實(shí)時數(shù)據(jù)分析、物聯(lián)網(wǎng)以及生物信息學(xué)等諸多場景。ChatGPT的橫空出世,帶動了新一波生成式AI的投資浪潮,也帶火了向量數(shù)據(jù)庫。2023年3月, 英偉達(dá)CEO黃仁勛首次提及向量數(shù)據(jù)庫,強(qiáng)調(diào)了向量數(shù)據(jù)庫對于構(gòu)建專有大模型的重要性,也催生了一波投資浪潮。

2. 向量數(shù)據(jù)庫生態(tài)及發(fā)展

1)產(chǎn)品路線:專有化 vs 插件化

目前,市場上的涌現(xiàn)出一批向量數(shù)據(jù)庫。技術(shù)原理上,一種是關(guān)系型數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫,增加向量嵌入存儲,但它們最初都沒有設(shè)計用于存儲和提供這種類型的數(shù)據(jù)。例如最為常見的pgvector插件,可以通過嵌入方式在PostgreSQL 數(shù)據(jù)支持存儲和使用。另一種是原生的向量數(shù)據(jù)庫,即在誕生之初就定位為專項數(shù)據(jù)庫產(chǎn)品。Milvus 是一個于 2019 年首次發(fā)布的開源矢量數(shù)據(jù)庫。

圖片圖片

那上述兩種路線未來發(fā)展如何呢?一種觀點(diǎn)認(rèn)為向量數(shù)據(jù)庫的核心技術(shù)核心向量索引技術(shù)成熟,進(jìn)入壁壘低,因此市場認(rèn)為向量數(shù)據(jù)庫核心技術(shù)缺少壁壘,傳統(tǒng)數(shù)據(jù)庫實(shí)現(xiàn)向量搜索功能簡單,將替代向量數(shù)據(jù)庫滿足大部分市場需求,專業(yè)向量數(shù)據(jù)庫將被“傳統(tǒng)向量數(shù)據(jù)庫”取代。另一種觀點(diǎn)認(rèn)為,專業(yè)的向量數(shù)據(jù)庫仍具有不可替代性,其在檢索性能、數(shù)據(jù)規(guī)模、接口豐富度、性價比等方面具有一定優(yōu)勢。個人認(rèn)為,從長期角度來看,上述兩種路線都具有存在意義,雙方也都有各自所長及適應(yīng)場景。特別是近年來,向量數(shù)據(jù)庫也在不斷向傳統(tǒng)數(shù)據(jù)庫學(xué)習(xí),進(jìn)而滿足AI場景化在通用性、穩(wěn)定性等方面的要求。

2)資本如何看待向量庫發(fā)展

從近期的融資來看,資本角度非常看好這一領(lǐng)域(如下圖)。向量數(shù)據(jù)庫正在被定義為一種“AI 基礎(chǔ)設(shè)施”。從市場空間來看,AI技術(shù)的發(fā)展將推動向量數(shù)據(jù)應(yīng)用與存儲需求加速增長:一方面隨著AI應(yīng)用場景不斷豐富,向量數(shù)據(jù)庫的下游客戶數(shù)量隨著AI發(fā)展而飛速增長;另一方面AIGC正推動著非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用飛速增長,AIGC帶來了跨模態(tài)數(shù)據(jù)分析的需求浪潮,只有向量數(shù)據(jù)庫才能實(shí)時快速地處理這些海量的向量數(shù)據(jù)。

圖片圖片

3. 向量數(shù)據(jù)庫實(shí)踐:pgvector

在所有現(xiàn)有向量數(shù)據(jù)庫中,pgvector 是一個獨(dú)特的存在 —— 它選擇了在現(xiàn)有的世界上最強(qiáng)大的開源關(guān)系型數(shù)據(jù)庫 PostgreSQL 上以插件的形式添磚加瓦,而不是另起爐灶做成另一個專用的"數(shù)據(jù)庫" 。目前很多 PostgreSQL 生態(tài)產(chǎn)品和云產(chǎn)品,都推出了對 pgvector 的支持。

圖片圖片

1)pgvector 特點(diǎn)

pgvector 是一個基于 PostgreSQL 的擴(kuò)展,為用戶提供了一套強(qiáng)大的功能,用于高效地存儲、查詢和處理向量數(shù)據(jù)。它具有以下特點(diǎn):

  • 直接集成:pgvector 可以作為擴(kuò)展直接添加到現(xiàn)有的 PostgreSQL 環(huán)境中,方便新用戶和長期用戶獲得矢量數(shù)據(jù)庫的好處,無需進(jìn)行重大系統(tǒng)更改。
  • 支持多種距離度量:pgvector 內(nèi)置支持多種距離度量,包括歐幾里德距離、余弦距離和曼哈頓距離。這樣的多功能性使得可以根據(jù)具體應(yīng)用需求進(jìn)行高度定制的基于相似性的搜索和分析。
  • 索引支持:pgvector 擴(kuò)展為矢量數(shù)據(jù)提供高效的索引選項,例如 k-最近鄰 (k-NN) 搜索。即使數(shù)據(jù)集大小增長,用戶也可以實(shí)現(xiàn)快速查詢執(zhí)行,并保持較高的搜索準(zhǔn)確性。
  • 易于查詢語言訪問:作為 PostgreSQL 的擴(kuò)展,pgvector 使用熟悉的 SQL 查詢語法進(jìn)行向量操作。這簡化了具有 SQL 知識和經(jīng)驗的用戶使用矢量數(shù)據(jù)庫的過程,并避免了學(xué)習(xí)新的語言或系統(tǒng)。
  • 積極的開發(fā)和支持:pgvector 經(jīng)常更新,以確保與最新的 PostgreSQL 版本和功能兼容,并且開發(fā)者社區(qū)致力于增強(qiáng)其功能。用戶可以期待一個受到良好支持的解決方案,滿足其矢量數(shù)據(jù)的需求。
  • 穩(wěn)健性和安全性:通過與 PostgreSQL 的集成,pgvector 繼承了相同級別的穩(wěn)健性和安全性功能,使用戶能夠安全地存儲和管理其矢量數(shù)據(jù)。

2)pgvector 計算

在 pgvector 中,可以使用各種查詢運(yùn)算符對向量數(shù)據(jù)進(jìn)行不同的操作。這些運(yùn)算符主要用于計算向量之間的相似度或距離,其中一些運(yùn)算符使用不同的距離度量。以下是一些常用的 pgvector 查詢運(yùn)算符:

  • <->:該運(yùn)算符計算兩個向量之間的歐幾里德距離。歐幾里德距離是多維空間中向量表示的點(diǎn)之間的直線距離。較小的歐幾里德距離表示向量之間的相似性較大,因此該運(yùn)算符在查找和排序相似項目時非常有用。
  • <=>:該運(yùn)算符計算兩個向量之間的余弦相似度。余弦相似度比較兩個向量的方向而不是它們的大小。余弦相似度的范圍在 -1 到 1 之間,1 表示向量相同,0 表示無關(guān),-1 表示向量指向相反方向。
  • <#>:該運(yùn)算符計算兩個向量之間的曼哈頓距離(也稱為 L1 距離或城市街區(qū)距離)。曼哈頓距離是每個維度對應(yīng)坐標(biāo)差的絕對值之和。相對于歐幾里德距離而言,曼哈頓距離更加強(qiáng)調(diào)沿著維度的較小移動。

在選擇適當(dāng)?shù)倪\(yùn)算符時,您應(yīng)該考慮您的應(yīng)用需求和數(shù)據(jù)特性。這可能涉及保持相對距離、強(qiáng)調(diào)大小或方向以及關(guān)注特定維度等因素。請注意,根據(jù)您的數(shù)據(jù)和用例,運(yùn)算符的選擇可能會對搜索結(jié)果的質(zhì)量以及最終應(yīng)用程序的有效性產(chǎn)生重大影響。

3)pgvector 索引

pgvector 提供了 ivfflat 算法以近似搜索,它的工作原理是將相似的向量聚類為區(qū)域,并建立一個倒排索引,將每個區(qū)域映射到其向量。這使得查詢可以集中在數(shù)據(jù)的一個子集上,從而實(shí)現(xiàn)快速搜索。通過調(diào)整列表和探針參數(shù),ivfflat 可以平衡數(shù)據(jù)集的速度和準(zhǔn)確性,使 PostgreSQL 有能力對復(fù)雜數(shù)據(jù)進(jìn)行快速的語義相似性搜索。通過簡單的查詢,應(yīng)用程序可以在數(shù)百萬個高維向量中找到與查詢向量最近的鄰居。對于自然語言處理、信息檢索等,ivfflat 是一個比較好的解決方案。

4)pgvector 實(shí)踐

下面構(gòu)建一個測例,在 PostgreSQL 中使用 pgvector 插件測試對向量數(shù)據(jù)的檢索。向量數(shù)據(jù)集采用公開的國內(nèi)省市位置數(shù)據(jù),將經(jīng)緯度作為向量維度存儲。通過歐幾里德距離計算向量數(shù)據(jù)間距離(即城市間距離)。

圖片圖片

圖片圖片


責(zé)任編輯:武曉燕 來源: 韓鋒頻道
相關(guān)推薦

2023-11-27 00:58:00

數(shù)據(jù)庫AI

2024-09-02 10:13:54

2024-03-07 10:09:42

向量數(shù)據(jù)庫

2025-05-26 02:44:00

向量數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫向量化

2023-07-28 08:00:00

人工智能向量數(shù)據(jù)庫

2022-05-09 15:54:44

平安科技TiDB云原生

2017-06-10 11:13:39

數(shù)據(jù)庫架構(gòu)數(shù)據(jù)庫集群

2010-02-01 10:10:41

Oracle數(shù)據(jù)庫優(yōu)化

2011-07-06 14:12:20

MySQLPercona

2011-07-06 10:49:50

MySQL優(yōu)化

2023-07-20 20:54:09

2024-05-22 12:07:12

向量數(shù)據(jù)庫AI

2023-01-05 08:00:00

2017-06-08 11:06:03

數(shù)據(jù)庫架構(gòu)分組

2025-01-22 08:19:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號