偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="qzinp"><form id="qzinp"></form></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

文檔太長(zhǎng)模型“吃不下”？試試這15種Chunking策略，輕松搞定RAG！原創(chuàng) 精華

發(fā)布于 2025-7-14 08:47

瀏覽

0收藏

RAG系統(tǒng)也能“切塊”？15種Chunking技巧讓你的檢索生成更聰明！

你知道嗎？在構(gòu)建一個(gè)強(qiáng)大的RAG（Retrieval-Augmented Generation）系統(tǒng)時(shí)，決定其“聰明程度”的，可能不是模型本身，而是——你怎么“切塊”你的文檔。

在NLP領(lǐng)域，RAG系統(tǒng)已經(jīng)成為處理復(fù)雜問答、文檔摘要、知識(shí)庫(kù)檢索等任務(wù)的利器。但面對(duì)動(dòng)輒上萬(wàn)字的文檔，如何在不丟失上下文的前提下，把它們“切”成模型能消化的“小塊”，就成了關(guān)鍵。

今天這篇文章，我們就來(lái)系統(tǒng)聊聊：15種Chunking技巧，幫你打造一個(gè)既快又準(zhǔn)的RAG系統(tǒng)。無(wú)論你是做問答系統(tǒng)、文檔檢索，還是構(gòu)建企業(yè)知識(shí)庫(kù)，這篇文章都值得你收藏。

01｜什么是Chunking？為什么它這么重要？

在RAG系統(tǒng)中，Chunking（切塊）指的是：把大文檔拆分成小塊，以便模型更好地理解和檢索信息。

你可能會(huì)問：為什么不能直接把整篇文檔丟給模型？原因很簡(jiǎn)單：

大模型有token限制（比如GPT-4最多支持8K tokens）；
文檔太長(zhǎng)，模型容易“看漏”關(guān)鍵信息；
不切塊，檢索系統(tǒng)很難精準(zhǔn)定位答案。

所以，Chunking不是簡(jiǎn)單的“切”，而是要在“保留上下文”和“適配模型能力”之間找到平衡。

02｜Chunking的三大核心考量

在正式介紹15種技巧之前，我們先來(lái)理解Chunking的三個(gè)關(guān)鍵因素：

1. 塊的大?。–hunk Size）

太大：容易超token限制，檢索慢；
太小：上下文丟失，生成質(zhì)量差；
建議：根據(jù)模型token上限，控制在100~500 tokens之間。

2. 上下文保留（Context Preservation）

切塊不能“斷句斷意”，否則模型會(huì)“看不懂”；
使用滑動(dòng)窗口、語(yǔ)義切塊等方式，能有效保留上下文。

3. 多模態(tài)處理（Modality Handling）

文檔中可能包含表格、圖片、代碼塊；
不同內(nèi)容類型需要不同的切塊策略。

03｜15種Chunking技巧全解析（附代碼）

接下來(lái)，我們進(jìn)入正題：15種Chunking技巧，每種都配有使用場(chǎng)景、優(yōu)缺點(diǎn)和代碼示例，建議收藏！

1. 固定大小切塊（Fixed-Size Chunking）

原理：按固定詞數(shù)或token數(shù)切分。

適用場(chǎng)景：結(jié)構(gòu)簡(jiǎn)單的小文檔。

優(yōu)點(diǎn)：實(shí)現(xiàn)簡(jiǎn)單，速度快。

缺點(diǎn)：可能切斷句子，丟失語(yǔ)義。

def fixed_size_chunk(text, max_words=100):
    words = text.split()
    return [' '.join(words[i:i + max_words]) for i in range(0, len(words), max_words)]

2. 句子切塊（Sentence-Based Chunking）

原理：按句子邊界切分。

適用場(chǎng)景：需要保留語(yǔ)義完整性的文檔。

優(yōu)點(diǎn)：語(yǔ)義清晰，上下文連貫。

缺點(diǎn)：句子長(zhǎng)度不一，chunk大小不穩(wěn)定。

import spacy
nlp = spacy.load("en_core_web_sm")

def sentence_chunk(text):
    doc = nlp(text)
    return [sent.text for sent in doc.sents]

3. 段落切塊（Paragraph-Based Chunking）

原理：按段落切分。

適用場(chǎng)景：結(jié)構(gòu)清晰的文檔，如論文、報(bào)告。

優(yōu)點(diǎn)：自然分段，語(yǔ)義完整。

缺點(diǎn)：段落長(zhǎng)度不一，可能超token限制。

def paragraph_chunk(text):
    return text.split('\n\n')

4. 語(yǔ)義切塊（Semantic Chunking）

原理：基于語(yǔ)義相似度進(jìn)行切塊。

適用場(chǎng)景：技術(shù)文檔、復(fù)雜文本。

優(yōu)點(diǎn)：上下文保留好。

缺點(diǎn)：實(shí)現(xiàn)復(fù)雜，需依賴模型。

def semantic_chunk(text, max_len=200):
    doc = nlp(text)
    chunks = []
    current_chunk = []
    for sent in doc.sents:
        current_chunk.append(sent.text)
        if len(' '.join(current_chunk)) > max_len:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    return chunks

5. 模態(tài)感知切塊（Modality-Specific Chunking）

原理：文本、表格、圖片分別處理。

適用場(chǎng)景：PDF、技術(shù)手冊(cè)等混合內(nèi)容文檔。

優(yōu)點(diǎn)：保留多種模態(tài)信息。

缺點(diǎn)：實(shí)現(xiàn)復(fù)雜。

def modality_chunk(text, images=None, tables=None):
    text_chunks = paragraph_chunk(text)
    return {'text_chunks': text_chunks, 'images': images, 'tables': tables}

6. 滑動(dòng)窗口切塊（Sliding Window Chunking）

原理：相鄰chunk之間有重疊。

適用場(chǎng)景：法律、學(xué)術(shù)文檔。

優(yōu)點(diǎn)：上下文連貫。

缺點(diǎn)：內(nèi)容重復(fù)，處理量大。

def sliding_window_chunk(text, chunk_size=100, overlap=20):
    tokens = text.split()
    chunks = []
    for i in range(0, len(tokens), chunk_size - overlap):
        chunk = ' '.join(tokens[i:i + chunk_size])
        chunks.append(chunk)
    return chunks

7. 層級(jí)切塊（Hierarchical Chunking）

原理：按章節(jié)、段落、子段落分層切塊。

適用場(chǎng)景：結(jié)構(gòu)化文檔，如論文、合同。

優(yōu)點(diǎn)：保留文檔結(jié)構(gòu)。

缺點(diǎn)：實(shí)現(xiàn)復(fù)雜。

def hierarchical_chunk(text, section_keywords):
    sections = []
    current_section = []
    for line in text.splitlines():
        if any(keyword in line for keyword in section_keywords):
            if current_section:
                sections.append("\n".join(current_section))
            current_section = [line]
        else:
            current_section.append(line)
    if current_section:
        sections.append("\n".join(current_section))
    return sections

8. 內(nèi)容感知切塊（Content-Aware Chunking）

原理：根據(jù)內(nèi)容特征動(dòng)態(tài)調(diào)整切塊策略。

適用場(chǎng)景：電子書、技術(shù)文檔。

優(yōu)點(diǎn)：靈活適應(yīng)不同內(nèi)容。

缺點(diǎn)：邏輯復(fù)雜。

def content_aware_chunk(text):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if line.startswith(('##', '###', 'Introduction', 'Conclusion')):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks

9. 表格感知切塊（Table-Aware Chunking）

原理：將表格獨(dú)立切塊。

適用場(chǎng)景：財(cái)務(wù)報(bào)表、技術(shù)文檔。

優(yōu)點(diǎn)：保留表格結(jié)構(gòu)。

缺點(diǎn)：格式可能丟失。

import pandas as pd

def table_aware_chunk(table):
    return table.to_markdown()

10. Token級(jí)切塊（Token-Based Chunking）

原理：按token數(shù)切塊，適配Transformer模型。

適用場(chǎng)景：GPT、BERT等模型。

優(yōu)點(diǎn)：適配模型限制。

缺點(diǎn)：可能切斷句子。

from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

def token_based_chunk(text, max_tokens=200):
    tokens = tokenizer(text)["input_ids"]
    chunks = [tokens[i:i + max_tokens] for i in range(0, len(tokens), max_tokens)]
    return [tokenizer.decode(chunk) for chunk in chunks]

11. 實(shí)體感知切塊（Entity-Based Chunking）

原理：基于NER識(shí)別實(shí)體進(jìn)行切塊。

適用場(chǎng)景：簡(jiǎn)歷、合同、法律文檔。

優(yōu)點(diǎn)：保留實(shí)體信息。

缺點(diǎn)：需訓(xùn)練NER模型。

def entity_based_chunk(text):
    doc = nlp(text)
    return [ent.text for ent in doc.ents]

12. 主題切塊（Topic-Based Chunking）

原理：使用LDA等主題模型進(jìn)行切塊。

適用場(chǎng)景：新聞、研究論文等多主題文檔。

優(yōu)點(diǎn)：按主題聚合信息。

缺點(diǎn)：需額外建模。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

def topic_based_chunk(text, num_topics=3):
    sentences = text.split('. ')
    vectorizer = CountVectorizer()
    sentence_vectors = vectorizer.fit_transform(sentences)
    lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
    lda.fit(sentence_vectors)
    # 省略主題分配邏輯
    return sentences

13. 頁(yè)面切塊（Page-Based Chunking）

原理：按PDF頁(yè)面切塊。

適用場(chǎng)景：PDF文檔。

優(yōu)點(diǎn)：實(shí)現(xiàn)簡(jiǎn)單。

缺點(diǎn)：可能斷句。

def page_based_chunk(pages):
    return pages

14. 關(guān)鍵詞切塊（Keyword-Based Chunking）

原理：按關(guān)鍵詞切分。

適用場(chǎng)景：結(jié)構(gòu)清晰的文檔。

優(yōu)點(diǎn)：符合文檔結(jié)構(gòu)。

缺點(diǎn)：需預(yù)定義關(guān)鍵詞。

def keyword_based_chunk(text, keywords):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if any(keyword in line for keyword in keywords):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks

15. 混合切塊（Hybrid Chunking）

原理：結(jié)合多種策略。

適用場(chǎng)景：復(fù)雜文檔。

優(yōu)點(diǎn)：靈活強(qiáng)大。

缺點(diǎn)：實(shí)現(xiàn)復(fù)雜。

def hybrid_chunk(text):
    paragraphs = paragraph_chunk(text)
    hybrid_chunks = []
    for paragraph in paragraphs:
        hybrid_chunks += sentence_chunk(paragraph)
    return hybrid_chunks

04｜不同場(chǎng)景下如何選擇Chunking策略？

場(chǎng)景類型	推薦策略
FAQ、客服系統(tǒng)	句子切塊、關(guān)鍵詞切塊
學(xué)術(shù)論文	層級(jí)切塊、語(yǔ)義切塊
技術(shù)文檔	表格感知切塊、內(nèi)容感知切塊
多模態(tài)文檔	模態(tài)感知切塊、混合切塊
法律文檔	滑動(dòng)窗口切塊、實(shí)體感知切塊

05｜結(jié)語(yǔ)：Chunking不是“切”，是“設(shè)計(jì)”

Chunking不是簡(jiǎn)單的“把文檔切碎”，而是一種信息架構(gòu)設(shè)計(jì)。不同的切塊策略，直接決定了RAG系統(tǒng)的檢索精度、生成質(zhì)量和響應(yīng)速度。

希望這篇文章能幫你找到最適合你業(yè)務(wù)的Chunking策略。如果你正在構(gòu)建RAG系統(tǒng)，不妨從這些小技巧開始，逐步優(yōu)化你的文檔處理流程。

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

信息架構(gòu)設(shè)計(jì)

已于2025-7-14 08:47:35修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 5687瀏覽 ? 0回復(fù)
Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 5458瀏覽 ? 0回復(fù)
利用LlamaIndex和本地PDF文檔，輕松打造知識(shí)圖譜GraphRAG

小虎哦哦 ? 4536瀏覽 ? 0回復(fù)
介紹一種實(shí)用的RAG技術(shù)：父文檔檢索（PDR）

51CTO內(nèi)容精選 ? 3037瀏覽 ? 0回復(fù)
告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧

探索AGI ? 3680瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

玄姐聊AGI ? 2996瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具

恰似驚鴻 ? 4113瀏覽 ? 0回復(fù)
改進(jìn)RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 2951瀏覽 ? 0回復(fù)
邊看文檔邊開發(fā)太慢，試試這款A(yù)I文檔智能體

小虎哦哦 ? 2636瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

Halo咯咯 ? 2552瀏覽 ? 0回復(fù)
15種典型RAG框架：卡內(nèi)基梅隆大學(xué)最新RAG綜述

大語(yǔ)言模型論文跟蹤 ? 6876瀏覽 ? 0回復(fù)
RAG 應(yīng)用效果不太理想？試試以下RAG優(yōu)化策略大幅提升問答效果

AI博物院 ? 9100瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強(qiáng)RAG

大模型自然語(yǔ)言處理 ? 2619瀏覽 ? 0回復(fù)
讓大模型寫小說(shuō)太難？試試雪花十步寫作法，輕松突破瓶頸！

草臺(tái)AI ? 6273瀏覽 ? 0回復(fù)
RAG項(xiàng)目必備！文檔解析神器MinerU：2.5萬(wàn)星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 8274瀏覽 ? 0回復(fù)
RAG常見13種分塊策略大總結(jié)（一覽表）

大模型自然語(yǔ)言處理 ? 2659瀏覽 ? 0回復(fù)
一文讀懂 15 種注意力機(jī)制

智駐未來(lái) ? 3854瀏覽 ? 0回復(fù)
基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 1733瀏覽 ? 0回復(fù)
RAG進(jìn)階技術(shù)！這十種方法你一定要知道

Halo咯咯 ? 2022瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI 時(shí)代的“插頭”與“插座”——一文看懂 MCP、A2A 與 ACP 1天前發(fā)布
Kimi K2發(fā)布：1萬(wàn)億參數(shù)，128K上下文，還能跑17個(gè)工具流程？ 1天前發(fā)布

熱門推薦

RAG：7個(gè)檢索增強(qiáng)生成技術(shù)的解析（含實(shí)現(xiàn)代碼） 0回復(fù)

2025年必讀的人工智能書籍清單：從入門到進(jìn)階，一網(wǎng)打盡！ 0回復(fù)

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對(duì)華銷售，并計(jì)劃推出全新GPU 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

將智能植根于運(yùn)動(dòng)之中——從AI模型到具身智能的下一個(gè)躍遷 0回復(fù)

上一篇：多模態(tài)分析的魔力：如何讓數(shù)據(jù)“說(shuō)話”，并驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)

下一篇： RAG：7個(gè)檢索增強(qiáng)生成技術(shù)的解析（含實(shí)現(xiàn)代碼）

社區(qū)精華內(nèi)容

目錄

<center id="fsro0"><tbody id="fsro0"></tbody></center><ol id="fsro0"></ol>