偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="l8ph5"><menu id="l8ph5"><input id="l8ph5"></input></menu></var><pre id="l8ph5"><b id="l8ph5"></b></pre>

<code id="l8ph5"><legend id="l8ph5"></legend></code>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

基于milvus向量數(shù)據(jù)庫(kù)的相似度檢索問題——稀疏-密集向量檢索和混合搜索原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-5-12 08:42

瀏覽

0收藏

“ 不同的向量類型可能會(huì)得到不同的檢索結(jié)果，因此需要根據(jù)不同的場(chǎng)景選擇合適的檢索策略 ”

相似度檢索是目前人工智能領(lǐng)域一個(gè)非常重要的應(yīng)用場(chǎng)景，其不僅僅應(yīng)用于人工智能技術(shù)，同樣應(yīng)用于搜索技術(shù)；比如搜索引擎，電商搜索等多種技術(shù)領(lǐng)域。

因此，向量數(shù)據(jù)庫(kù)也成為現(xiàn)在技術(shù)領(lǐng)域不可缺少的一個(gè)中間件；雖然說向量檢索主要就是進(jìn)行向量計(jì)算，不管是余弦，還是歐式距離等算法，目的都是通過計(jì)算向量之間的位置關(guān)系來確定相似度。

但這里就產(chǎn)生了一個(gè)問題，使用稠密向量和稀疏向量檢索會(huì)得到不一樣的結(jié)果；而使用混合搜索技術(shù)又會(huì)產(chǎn)生另一種結(jié)果。

因此，這里就涉及到向量數(shù)據(jù)庫(kù)在不同的應(yīng)用場(chǎng)景下的檢索策略的選擇；什么情況下應(yīng)該選擇稠密向量，什么情況下應(yīng)該選擇稀疏向量，而什么情況下又應(yīng)該選擇混合搜索。

相似度檢索的策略問題

milvus向量數(shù)據(jù)庫(kù)支持多種類型的度量方式，常見的有余弦和歐式距離；使用不同的度量算法其結(jié)果也不盡相同，而且有的算法是值越大越好，而有的算法卻是值越小越好。

而我們今天討論的不是值大小問題，而是不同向量類型之間的檢索策略問題。

在Milvus中有兩種經(jīng)典的向量類型，稠密向量和稀疏向量；不同類型的向量可以表示不同的信息，使用不同的嵌入模型可以更全面地表示數(shù)據(jù)的不同特征和方面。

而稠密向量和稀疏向量的主要區(qū)別是，表示語(yǔ)義的密集向量和表示句子中詞頻的稀疏向量。

因此，稠密向量類型和稀疏向量類型，使用的是兩種完全不同的搜索方式；稠密向量一般使用機(jī)器學(xué)習(xí)模型，也就是Embedding模型生成語(yǔ)義相關(guān)的向量數(shù)據(jù)；而稀疏向量一般使用的是詞袋模型或BM25算法。

基于milvus向量數(shù)據(jù)庫(kù)的相似度檢索問題——稀疏-密集向量檢索和混合搜索-AI.x社區(qū)

在milvus向量檢索中，返回值中會(huì)有一個(gè)距離值(distance)，在某些情況下使用稠密向量，稀疏向量或者混合搜索的方式可能搜索到的結(jié)構(gòu)都是一樣的。

但其距離值distance的值卻是不一樣的，在某些情況下可能混合搜索策略的距離值更大，而某些情況下普通檢索的距離值更大；當(dāng)然，前提是使用了同樣的計(jì)算策略，比如說余弦函數(shù)。

基于milvus向量數(shù)據(jù)庫(kù)的相似度檢索問題——稀疏-密集向量檢索和混合搜索-AI.x社區(qū)

那么什么情況下應(yīng)該選擇稠密向量類型，什么情況下應(yīng)該選擇稀疏向量類型？

由于稠密向量主要進(jìn)行的是語(yǔ)義檢索，而稀疏向量主要進(jìn)行的關(guān)鍵詞匹配；所以，在選擇上我們需要從多個(gè)方面進(jìn)行考慮。

核心對(duì)比：稠密向量 vs 稀疏向量

維度	稠密向量	稀疏向量
生成方式	深度學(xué)習(xí)模型（如 BERT、ResNet）	詞頻統(tǒng)計(jì)方法（如 TF-IDF、BM25）
維度	低維（如 384、768 維）	高維（如 10萬+ 維，大部分為0）
語(yǔ)義理解	?????（捕捉上下文語(yǔ)義）	?（僅關(guān)鍵詞匹配）
關(guān)鍵詞敏感度	??（可能忽略術(shù)語(yǔ)細(xì)節(jié)）	?????（精確匹配關(guān)鍵詞）
計(jì)算開銷	高（需模型推理）	低（直接統(tǒng)計(jì)計(jì)算）
適用場(chǎng)景	語(yǔ)義搜索、跨模態(tài)檢索、長(zhǎng)文本理解	短文本搜索、精確術(shù)語(yǔ)匹配、日志分析
Milvus 索引支持	IVF_FLAT, HNSW, DISKANN 等	SPARSE_INVERTED_INDEX

當(dāng)然，稠密向量搜索和稀疏向量搜索并不是非此即彼的關(guān)系，在某些場(chǎng)景下可以使用混合搜索的方式，也就是同時(shí)使用稠密向量和稀疏向量進(jìn)行搜索。

總結(jié)建議

場(chǎng)景	推薦方案	案例
長(zhǎng)文本、語(yǔ)義理解	純稠密向量	法律文檔語(yǔ)義檢索
短文本、精確關(guān)鍵詞匹配	純稀疏向量	商品型號(hào)搜索
復(fù)雜需求、混合意圖	混合搜索	電商搜索（“性價(jià)比 5G 手機(jī)”）
資源有限、延遲敏感	稀疏向量	日志實(shí)時(shí)分析

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/UBoECVdbJx4MG-gz7Jn9Kg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

向量數(shù)據(jù)庫(kù)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

怎么看大模型、RAG、Agent、知識(shí)庫(kù)、向量數(shù)據(jù)庫(kù)、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 8044瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識(shí)庫(kù)、向量數(shù)據(jù)庫(kù)、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系??！

玄姐聊AGI ? 5311瀏覽 ? 0回復(fù)
利用多向量和高級(jí)搜索數(shù)據(jù)模型設(shè)計(jì)城市數(shù)據(jù)

51CTO內(nèi)容精選 ? 4053瀏覽 ? 0回復(fù)
RAG真正的難點(diǎn)不是向量數(shù)據(jù)庫(kù)，而是實(shí)時(shí)企業(yè)數(shù)據(jù)管道！這家公司做到了

51CTO技術(shù)棧 ? 3521瀏覽 ? 0回復(fù)
LangChain-RAG必備：向量數(shù)據(jù)庫(kù)如何CRUD

ermulong ? 4008瀏覽 ? 0回復(fù)
RAG與本地知識(shí)庫(kù)，向量數(shù)據(jù)庫(kù)，以及知識(shí)圖譜的聯(lián)系與區(qū)別

AI探索時(shí)代 ? 7340瀏覽 ? 0回復(fù)
利用Milvus向量數(shù)據(jù)庫(kù)，帶你實(shí)現(xiàn)GraphRAG

AI科技論談 ? 4304瀏覽 ? 0回復(fù)
基于LangChain和云原生向量數(shù)據(jù)庫(kù)Milvus開發(fā)混合搜索AI程序

51CTO內(nèi)容精選 ? 4658瀏覽 ? 0回復(fù)
再談大模型向量，由向量檢索引起的思考

AI探索時(shí)代 ? 3516瀏覽 ? 0回復(fù)
大模型檢索增強(qiáng)生成之向量數(shù)據(jù)庫(kù)的問題

AI探索時(shí)代 ? 3653瀏覽 ? 0回復(fù)
LanceDB：為 AI 應(yīng)用打造的高效嵌入式向量數(shù)據(jù)庫(kù)

Syrupup ? 1.3w瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫(kù)的召回準(zhǔn)確率

AI探索時(shí)代 ? 4318瀏覽 ? 0回復(fù)
向量數(shù)據(jù)庫(kù)真的能滿足所有 AI Agent 的記憶需求嗎？

Baihai_IDP ? 3917瀏覽 ? 0回復(fù)
RAG：七種用于向量數(shù)據(jù)庫(kù)+相似性搜索的索引方法

Halo咯咯 ? 5885瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)搜索方式！向量相似性與圖數(shù)據(jù)庫(kù)的強(qiáng)強(qiáng)聯(lián)合

Halo咯咯 ? 4349瀏覽 ? 0回復(fù)
RAG實(shí)戰(zhàn) | 向量數(shù)據(jù)庫(kù)LanceDB指南

周末程序猿 ? 3769瀏覽 ? 0回復(fù)
當(dāng)AI邂逅向量數(shù)據(jù)庫(kù)：重新定義智能時(shí)代的數(shù)據(jù)檢索

51CTO內(nèi)容精選 ? 1920瀏覽 ? 0回復(fù)
為什么向量數(shù)據(jù)庫(kù)不使用 SQL 查詢？

玄姐聊AGI ? 1261瀏覽 ? 0回復(fù)
AI 智能體應(yīng)用的向量數(shù)據(jù)庫(kù)如何選型？

玄姐聊AGI ? 2907瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

讓AI像人一樣動(dòng)手！大模型是怎么學(xué)會(huì)使用工具的？ 3天前發(fā)布
大模型應(yīng)用技術(shù)是一項(xiàng)重實(shí)操輕理論的技術(shù) 4天前發(fā)布

熱門推薦

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

上一篇：關(guān)于人工智能應(yīng)用場(chǎng)景中前期數(shù)據(jù)處理的業(yè)務(wù)場(chǎng)景和技術(shù)分析——包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

下一篇：我們需要學(xué)會(huì)對(duì)大模型祛魅，大模型沒有大家想象中的那么復(fù)雜

社區(qū)精華內(nèi)容

目錄

<form id="zlk5z"></form>

<blockquote id="zlk5z"><delect id="zlk5z"></delect></blockquote>