偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rp id="w45u4"><label id="w45u4"></label></rp>

<style id="w45u4"></style>

<em id="w45u4"></em>

<em id="w45u4"></em>

<tt id="w45u4"><nobr id="w45u4"></nobr></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RAG 調(diào)優(yōu)核心：文本切分決定 70% 的性能表現(xiàn)

PyTorch研習(xí)社

發(fā)布于 2025-10-23 07:48

瀏覽

0收藏

分塊（Chunking）是構(gòu)建高效RAG（檢索增強生成）系統(tǒng)的核心。從固定分塊、遞歸分塊到語義分塊、結(jié)構(gòu)化分塊和延遲分塊，每種方法都在優(yōu)化上下文理解和準確性上扮演了關(guān)鍵角色。這些技術(shù)能大幅提升檢索質(zhì)量，減少“幻覺”（hallucination），并充分發(fā)揮你的RAG pipeline的潛力。

在我近一年構(gòu)建可擴展AI系統(tǒng)的經(jīng)驗中，我發(fā)現(xiàn)RAG系統(tǒng)的成功大多取決于檢索（retrieval）。你如何切分和存儲文檔——也就是分塊（chunking）——往往是成功背后的隱形推手。

引言

RAG（Retrieval-Augmented Generation）pipeline的性能很大程度上取決于你如何切分文檔（分塊）。在這篇文章中，我會帶你了解RAG的流程，重點講講分塊在其中的位置，然后深入探討固定分塊、遞歸分塊、語義分塊、基于結(jié)構(gòu)的分塊和延遲分塊這五種技術(shù)，包括它們的定義、權(quán)衡和偽代碼，幫你選擇適合自己場景的方法。

RAG工作流程（高層次概覽）

標準流程如下：

RAG 調(diào)優(yōu)核心：文本切分決定 70% 的性能表現(xiàn)-AI.x社區(qū)

文檔攝取與分塊
拿來大份文檔（PDF、HTML、純文本） → 切分成小塊（chunk） → 計算embeddings → 存儲到vector DB中。
查詢與檢索
用戶輸入查詢 → 將查詢轉(zhuǎn)為embedding → 檢索top-k最相似的塊（通過cosine similarity）。
增強與提示構(gòu)建
將檢索到的塊（加上metadata）注入到LLM的提示中，通常會用模板和過濾器。
生成
LLM基于檢索到的上下文和模型先驗知識生成答案。

因為生成器（generator）只能看到你喂給它的內(nèi)容，檢索質(zhì)量直接決定了結(jié)果。如果分塊不合理或無關(guān)緊要，哪怕最好的LLM也救不回來。這就是為什么很多人說RAG的成功70%靠檢索，30%靠生成。

在深入探討技術(shù)之前，先說說為什么好的分塊不是可有可無的：

Embedding和LLM模型有context window限制，你沒法直接處理超大文檔。
分塊需要語義連貫。如果你在句子或概念中間切開，embedding會變得雜亂或誤導(dǎo)。
如果分塊太大，系統(tǒng)可能會漏掉細粒度的相關(guān)內(nèi)容。
反過來，如果分塊太小或重疊太多，你會存儲冗余內(nèi)容，浪費計算和存儲資源。

接下來，我們來探索五種主流的分塊技術(shù)，從最簡單到最復(fù)雜。

1. 固定分塊（Fixed Chunking）

按固定大?。ò磘oken、單詞或字符）把文本切成等大的塊，通常塊之間會有重疊。

這是RAG項目的良好起點，適合文檔結(jié)構(gòu)未知或內(nèi)容單一的場景（比如日志、純文本）。

實現(xiàn)代碼示例：

def fixed_chunk(text, max_tokens=512, overlap=50):
    tokens = tokenize(text)
    chunks = []
    i = 0
    while i < len(tokens):
        chunk = tokens[i : i + max_tokens]
        chunks.append(detokenize(chunk))
        i += (max_tokens - overlap)
    return chunks

2. 遞歸分塊（Recursive Chunking）

先按高層邊界（比如段落或章節(jié)）切分。如果某個塊還是太大（超過限制），就遞歸地進一步切分（比如按句子），直到所有塊都在限制范圍內(nèi)。

適合半結(jié)構(gòu)化文檔（有章節(jié)、段落），你想盡量保留語義邊界，同時控制塊大小。

它能盡量保留邏輯單元（段落），避免不自然的切分，生成適合內(nèi)容變化的多種塊大小。

遞歸分塊示例（LangChain）：

from langchain.text_splitter import RecursiveCharacterTextSplitter

# 示例文本
text = """
輸入文本占位符...
"""

# 定義遞歸分塊器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,           # 每個塊的目標大小
    chunk_overlap=50,         # 塊之間的重疊以保持上下文連貫
    separators=["\n\n", "\n", " ", ""]  # 遞歸切分的優(yōu)先級
)

# 切分文本
chunks = text_splitter.split_text(text)

# 顯示結(jié)果
for i, chunk inenumerate(chunks, 1):
    print(f"Chunk {i}:\n{chunk}\n{'-'*40}")

這能確保后續(xù)embedding和檢索時，不會丟失邊界處的關(guān)鍵上下文。

3. 語義分塊（Semantic Chunking）

根據(jù)語義變化來切分文本。用embeddings（比如sentence embeddings）決定一個塊的結(jié)束和下一個塊的開始。如果相鄰段落的相似度很高，就把它們放在一起；當相似度下降時，就切分。

適合需要高檢索精度的場景（法律文本、科學(xué)文章、支持文檔），但要注意embedding和相似度計算的成本，定義相似度閾值也需要仔細調(diào)整。

實現(xiàn)代碼示例：

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("all-MiniLM-L6-v2")

defsemantic_chunk(text, sentence_list, sim_threshold=0.7):
    embeddings = model.encode(sentence_list)
    chunks = []
    current = [sentence_list[0]]
    for i inrange(1, len(sentence_list)):
        sim = util.cos_sim(embeddings[i-1], embeddings[i]).item()
        if sim < sim_threshold:
            chunks.append(" ".join(current))
            current = [sentence_list[i]]
        else:
            current.append(sentence_list[i])
    chunks.append(" ".join(current))
    return chunks

4. 基于結(jié)構(gòu)的分塊（Structure-based Chunking）

利用文檔的固有結(jié)構(gòu)（比如標題、副標題、HTML標簽、表格、列表項）作為自然的切分邊界。
比如，每個章節(jié)或標題可以成為一個塊（或者再遞歸切分）。
適合HTML頁面、技術(shù)文檔、類似Wikipedia的內(nèi)容，或任何有語義標記的內(nèi)容。

根據(jù)我的經(jīng)驗，這種策略效果最好，尤其是結(jié)合遞歸分塊時。
但它需要解析和理解文檔格式，如果章節(jié)太大，可能會超過token限制，可能需要結(jié)合遞歸切分。

實現(xiàn)提示：

用HTML/Markdown/PDF結(jié)構(gòu)解析庫。
以章節(jié)/等作為塊的根。
如果某部分太大，就回退到遞歸切分。
對于表格/圖片，要么單獨作為一個塊，要么總結(jié)其內(nèi)容。

5. 延遲分塊（Late Chunking / 動態(tài)/查詢時分塊）

定義
延遲分塊是指推遲文檔的切分，直到查詢時才決定。不是提前把所有內(nèi)容切好，而是存儲更大的段落甚至整個文檔。收到查詢時，只對相關(guān)段落動態(tài)切分（或過濾）。這樣做的目的是在embedding時保留完整上下文，只在必要時切分。

Weaviate將延遲分塊描述為“顛倒傳統(tǒng)的embedding和chunking順序”。

先用長上下文模型對整個文檔（或大段）做embedding。
然后池化并創(chuàng)建塊的embeddings（基于token范圍或邊界線索）。

概念流程：

在索引中存儲大段或整個文檔。
查詢時，檢索1-2個最相關(guān)的段落。
在這些段落中，動態(tài)切分（比如語義或重疊）出匹配查詢的部分。
過濾或排序這些塊，喂給生成器。

這種方法就像編程中的late binding，推遲到有更多上下文時再決定。

RAG 調(diào)優(yōu)核心：文本切分決定 70% 的性能表現(xiàn)-AI.x社區(qū)

適用場景：

大型文檔集（技術(shù)報告、長篇內(nèi)容），跨段落的上下文很重要。
文檔內(nèi)容經(jīng)常變化的系統(tǒng)，避免重新切分節(jié)省時間。
高風(fēng)險或精度敏感的RAG應(yīng)用（法律、醫(yī)療、監(jiān)管），誤解代詞或引用可能代價高昂。

聽起來很高級，但它也有成本。
對整個文檔（或大段）做embedding計算成本高，可能需要支持長token限制的模型。
查詢時的計算成本和潛在延遲也會更高。

本文轉(zhuǎn)載自??PyTorch研習(xí)社??，作者：AI研究生

標簽

已于2025-10-23 11:17:43修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

小模型性能飽和、表現(xiàn)不佳，根源是因為Softmax?

輕薄滴假象 ? 3233瀏覽 ? 0回復(fù)
本地使用Groq Llama 3 70B的逐步指南

51CTO內(nèi)容精選 ? 4938瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？

AI探索時代 ? 1.0w瀏覽 ? 0回復(fù)
谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu)，減少多模態(tài)模型幻覺

Aceryt ? 4019瀏覽 ? 0回復(fù)
如何獲取高質(zhì)量數(shù)據(jù)進行代碼指令調(diào)優(yōu)？

NLP工作站 ? 3950瀏覽 ? 0回復(fù)
RAG文本切分LV3：輕松定制Markdown切分

恰似驚鴻 ? 7123瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？

AI探索時代 ? 1.2w瀏覽 ? 0回復(fù)
如何改進RAG模型的性能？

51CTO內(nèi)容精選 ? 3823瀏覽 ? 0回復(fù)
混合RAG系統(tǒng)，提升復(fù)雜推理任務(wù)表現(xiàn)

大模型自然語言處理 ? 3845瀏覽 ? 0回復(fù)
Prompt調(diào)優(yōu)

ermulong ? 4339瀏覽 ? 0回復(fù)
從推理到編程，詳細比較DeepSeek 32B、70B、R1實踐性能

小虎哦哦 ? 1.6w瀏覽 ? 0回復(fù)
視覺指令調(diào)優(yōu)

AIRoobt ? 3177瀏覽 ? 0回復(fù)
基于 Spring AI Alibaba 的 RAG 架構(gòu)調(diào)優(yōu)實踐

玄姐聊AGI ? 4876瀏覽 ? 0回復(fù)
機器學(xué)習(xí)超參數(shù)：用大白話講清楚模型調(diào)優(yōu)的秘密

FairyGirlhub ? 3034瀏覽 ? 0回復(fù)
基于 Spring AI Alibaba 的 RAG 架構(gòu)調(diào)優(yōu)實踐

玄姐聊AGI ? 5904瀏覽 ? 0回復(fù)
RAG調(diào)優(yōu)進階：21種切塊策略，不光有代碼，更有超詳細場景、優(yōu)缺點分析！

Halo咯咯 ? 3142瀏覽 ? 0回復(fù)
ICML'25南洋理工+阿里：反事實RL實現(xiàn)VLM智能體高效在線調(diào)優(yōu)，成功率漲12%

十一月雨_55 ? 4832瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)模型調(diào)優(yōu)指南

每天五分鐘玩轉(zhuǎn)人工智能 ? 883瀏覽 ? 0回復(fù)
為什么 Chunking 決定了 LLM 的性能？窗口、檢索與成本全解析

AI大模型觀察站 ? 773瀏覽 ? 0回復(fù)

PyTorch研習(xí)社

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

面向 Agentic AI 的編程基礎(chǔ)知識 2025-10-23 07:50:47發(fā)布
AI 不再“亂跑”：LangChain × LangGraph 打造可控多階段智能流程 2025-10-23 07:49:43發(fā)布

熱門推薦

AI 不再“亂跑”：LangChain × LangGraph 打造可控多階段智能流程 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： OpenAI發(fā)布AgentKit，幫開發(fā)者更快打造AI Agent

下一篇： AI 不再“亂跑”：LangChain × LangGraph 打造可控多階段智能流程

社區(qū)精華內(nèi)容

目錄