偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="l9qyu"><rp id="l9qyu"><delect id="l9qyu"></delect></rp></dfn>

<pre id="l9qyu"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

面向RAG與LLM的分塊策略權威指南：從基礎原理到高級實踐

作者：大模型之路 2025-06-30 04:15:00

從固定大小分塊的簡單性，到語義分塊的細微差別，再到層次結構的系統(tǒng)性，分塊技術塑造了知識呈現(xiàn)給模型的方式。選擇的策略將決定系統(tǒng)是精確檢索還是泛泛而談，是生成有根有據(jù)的見解還是自信的幻覺。

在現(xiàn)代人工智能系統(tǒng)架構中，當大型語言模型（LLMs）和向量數(shù)據(jù)庫吸引著大部分目光時，一個更為基礎的處理過程正在幕后默默工作——它最終決定了系統(tǒng)輸出的質量、可靠性和相關性。這個過程就是分塊（Chunking）：在信息到達模型之前對其進行策略性分割的關鍵步驟。作為RAG（檢索增強生成）系統(tǒng)的"隱藏架構"，分塊技術的優(yōu)劣直接影響著LLM的理解、推理和回答能力，堪稱AI應用的"智能基石"。

分塊的核心價值與三元挑戰(zhàn)

分塊的本質是將大型文檔分解為更小、更易管理的"塊"，再將其嵌入向量數(shù)據(jù)庫。這就像給模型提供易于消化的故事片段，而非一次性灌輸完整手稿。這些塊經(jīng)過嵌入、存儲后，可基于語義相關性進行檢索。優(yōu)質的分塊能讓AI響應更精準，而拙劣的分塊則會導致幻覺、片面回答或無關結果。

分塊過程面臨著三個相互競爭的核心目標，構成了獨特的"三元挑戰(zhàn)"：

塊大?。狠^大的塊提供更豐富的上下文，但難以精確檢索；較小的塊更適合查詢，但可能缺乏完整性
上下文豐富度：每個塊需要包含足夠的周邊信息，使LLM能夠清晰推理
檢索精度：塊必須在語義上緊湊，以確保向量搜索時的正確匹配

這種"精度-豐富度-大小"的三角平衡，使分塊既是科學也是藝術。從自然語言處理的發(fā)展歷程看，分塊技術已從 rigid 的固定長度分割，發(fā)展到遞歸分塊器，再到如今模仿人類認知策略的語義和智能體感知方法。

基礎分塊策略：從簡單到智能的演進

固定大小分塊：入門級解決方案

固定大小分塊如同工具箱中的錘子，不考慮文本內(nèi)容或結構，僅基于字符或token計數(shù)定期分割文檔。例如將文檔按每500個token或1000個字符進行等長劃分，具有一致性、可預測性和高速處理的優(yōu)點。

但其簡單性也是最大缺點：由于不關注句子或段落邊界，常導致思想被截斷、語法破碎和尷尬的塊過渡，增加檢索器和LLM的處理難度。關鍵參數(shù)包括：

chunk_size：每個塊的最大字符或token數(shù)，用于平衡上下文與精度
chunk_overlap：設置塊之間的重疊部分（通常為塊大小的10-20%），如滑動窗口般平滑過渡并防止重要思想被分割

使用LangChain的CharacterTextSplitter實現(xiàn)固定大小分塊：

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator=" ",
    chunk_size=200,
    chunk_overlap=20
)
chunks = text_splitter.split_text(sample_text)

遞歸字符分割：更智能的基線方法

遞歸字符分割超越了機械分割，嘗試在最有意義的邊界處拆分文檔——先按段落，再按句子，然后按單詞，最后才是任意字符斷點。這種策略基于分隔符的層次結構，例如LangChain的RecursiveCharacterTextSplitter常用的分隔符列表為["\n\n", "\n", " ", ""]，處理流程如下：

首先嘗試使用列表中的第一個分隔符（雙換行符\n\n，通常對應段落分隔）分割整個文檔
檢查生成的塊是否仍大于指定的chunk_size
對超大塊，遞歸使用下一個分隔符（單換行符\n）繼續(xù)分割
沿分隔符層次結構持續(xù)處理，直到所有塊小于chunk_size或分隔符用盡

遞歸分塊確保首先尊重段落邊界，然后是行分隔等，生成語義更清晰、LLM更易理解的塊：

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=150,
    separators=["\n\n", "\n", " ", ""]
)
chunks = text_splitter.create_documents([sample_text])

內(nèi)容感知分塊：利用文檔固有結構

當文檔已具有清晰結構（如Markdown標題、HTML標簽或代碼塊）時，內(nèi)容感知分塊直接利用這些結構標記進行分割。這種策略特別適用于：

Markdown文檔：使用LangChain的MarkdownHeaderTextSplitter按#、##、###等標題級別分塊，保留文件的邏輯層次
HTML/XML內(nèi)容：以<div>、<section>等標簽作為分割點
源代碼：尊重函數(shù)或類邊界，確保每個塊在語法上有效且有意義

以Markdown分塊為例：

from langchain.text_splitter import MarkdownHeaderTextSplitter
headers = [("#", "Header 1"), ("##", "Header 2"), ("###", "Header 3")]
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_notallow=headers)
chunks = markdown_splitter.split_text(md_content)

每個塊不僅保留章節(jié)內(nèi)容，還攜帶元數(shù)據(jù)（如{'Header 1': 'Introduction'}），便于檢索時的過濾或重排序。

策略選擇指南：

高度結構化數(shù)據(jù)（Markdown/HTML）→ 內(nèi)容感知分塊
干凈的散文（博客/文章）→ 遞歸分割
雜亂的非結構化文本（原始日志/粘貼內(nèi)容）→ 固定大小分塊

語義連貫的高級分塊策略

語義分塊：基于意義而非標點的分組

傳統(tǒng)分塊方法不關注內(nèi)容含義，而語義分塊通過分析連續(xù)句子的相似度來識別主題變化點。其核心流程為：

句子分割：將文檔拆分為句子
嵌入生成：使用文本嵌入模型（如text-embedding-3-small或SentenceTransformers）將每個句子轉換為向量
相似度評分：計算每對相鄰句子向量的余弦相似度
斷點檢測：當相似度低于定義閾值（如所有降幅的第5百分位）時引入分割

這種方法能檢測真實的主題轉換點，生成語義內(nèi)聚的塊，顯著提升復雜查詢的檢索相關性。但需注意其計算成本較高，且需要對閾值、緩沖區(qū)大小和嵌入模型進行調(diào)優(yōu)。

LangChain的SemanticChunker實現(xiàn)：

from langchain_experimental.text_splitter import SemanticChunker
from langchain.embeddings import OpenAIEmbeddings
text_splitter = SemanticChunker(
    OpenAIEmbeddings(),
    breakpoint_threshold_type="percentile"
)
docs = text_splitter.create_documents([sample_text])

層次與關系分塊："從小到大"的范式

RAG系統(tǒng)中存在一個根本矛盾：小塊檢索更精準，但大塊生成效果更佳。層次分塊通過LangChain的ParentDocumentRetriever解決這一問題，創(chuàng)建文檔的多級表示：

子塊：針對檢索優(yōu)化的小而精的塊，存入向量存儲
父塊：針對生成優(yōu)化的大上下文塊，存入單獨的文檔存儲

檢索時先對小子塊進行相似度搜索，再獲取包含這些子塊的父文檔，實現(xiàn)"精確檢索+廣泛生成"的平衡：

from langchain.retrievers import ParentDocumentRetriever
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
vectorstore = Chroma(embedding_functinotallow=OpenAIEmbeddings())
store = InMemoryStore()
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)
retriever.add_documents(docs)

層次分塊超越了線性分塊，構建了文檔內(nèi)部的結構關系（段落屬于章節(jié)，章節(jié)屬于文檔），為更高級的知識圖譜（如GraphRAG）奠定基礎。

分塊策略的評估藝術

四步評估框架

由于沒有放之四海而皆準的分塊策略，科學評估至關重要：

創(chuàng)建黃金數(shù)據(jù)集：基于文檔構建或生成具有代表性的問答對，可由領域專家手動制作或使用LLM合成
隔離變量：僅改變分塊策略，保持嵌入模型、檢索器設置、生成LLM等其他因素不變
運行基準測試：在黃金數(shù)據(jù)集上運行不同分塊策略的RAG管道，記錄檢索上下文和生成答案
測量與比較：使用RAGAS等框架評分，獲取具體指標

關鍵評估指標

檢索質量

上下文精度：檢索到的塊中真正相關的比例
上下文召回：可用相關塊中被找到的比例

生成質量

忠實度：答案是否基于檢索上下文，而非LLM虛構
回答相關性：答案是否真正有用且切題

使用RAGAS進行評估的示例：

from ragas import evaluate
from ragas.metrics import context_precision, context_recall, faithfulness, answer_relevancy
results_data = {
    'question': [...],
    'answer': [...],
    'contexts': [[...], ...],
    'ground_truth': [...]
}
dataset = Dataset.from_dict(results_data)
result = evaluate(
    dataset=dataset,
    metrics=[context_precision, context_recall, faithfulness, answer_relevancy],
)

精度-召回-忠實度的權衡

選擇大塊（如2048 tokens）可能提高召回率（捕獲所有相關信息），但會引入大量無關內(nèi)容，導致LLM產(chǎn)生幻覺或離題回答（忠實度降低）。理想的分塊應實現(xiàn)平衡的上下文：足夠豐富以覆蓋需求，同時足夠專注以保持模型的準確性。

分塊作為智能的隱藏架構

從固定大小分塊的簡單性，到語義分塊的細微差別，再到層次結構的系統(tǒng)性，分塊技術塑造了知識呈現(xiàn)給模型的方式。選擇的策略將決定系統(tǒng)是精確檢索還是泛泛而談，是生成有根有據(jù)的見解還是自信的幻覺。

在構建RAG系統(tǒng)時，分塊不應被視為低級預處理步驟，而應作為智能架構的核心。通過理解數(shù)據(jù)特性、任務需求和評估反饋，精心設計的分塊策略能為LLM提供優(yōu)質的"思考材料"，釋放AI系統(tǒng)的真正潛力。隨著技術發(fā)展，分塊將與知識圖譜、動態(tài)檢索策略進一步融合，推動AI從信息處理向真正的認知智能演進。

責任編輯：武曉燕來源：大模型之路

RAG LLM 分塊策略

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<em id="j9xoe"><b id="j9xoe"><nobr id="j9xoe"></nobr></b></em><samp id="j9xoe"></samp>