偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一個(gè)輕量級(jí)RAG文本切塊項(xiàng)目Chonkie

發(fā)布于 2024-11-13 15:17
瀏覽
0收藏

Chonkie:實(shí)用的RAG分塊庫(kù),輕量級(jí)、速度快,可隨時(shí)對(duì)文本進(jìn)行分塊。

一個(gè)輕量級(jí)RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)圖片

支持的方法

Chonkie 提供了多個(gè)分塊器,可高效地為RAG應(yīng)用程序拆分文本。以下是可用分塊器的簡(jiǎn)要概述:

  • TokenChunker:將文本分割成固定大小的標(biāo)記塊。
  • WordChunker:根據(jù)單詞將文本分成塊。
  • SentenceChunker:根據(jù)句子將文本分成塊。
  • SemanticChunker:根據(jù)語(yǔ)義相似性將文本分成塊。
  • SDPMChunker:使用語(yǔ)義雙重合并方法分割文本。

基準(zhǔn)(VS LangChain LlamaIndex)

尺寸

  • 默認(rèn)安裝: 9.7MB(其他版本為 80-171MB)
  • 具有語(yǔ)義:仍然比競(jìng)爭(zhēng)對(duì)手更輕!

一個(gè)輕量級(jí)RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)圖片

速度

  • token分塊:比最慢的替代方案快 33 倍
  • 句子分塊:比競(jìng)爭(zhēng)對(duì)手快近 2 倍
  • 語(yǔ)義分塊:比其他方法快 2.5 倍

一個(gè)輕量級(jí)RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)

####
pip install chonkie


# First import the chunker you want from Chonkie 
from chonkie import TokenChunker


# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer 
tokenizer = Tokenizer.from_pretrained("gpt2")


# Initialize the chunker
chunker = TokenChunker(tokenizer)


# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")


# Access chunks
for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")

https://github.com/bhavnicksm/chonkie
https://pypi.org/project/chonkie/

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦