偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="iquey"></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備原創(chuàng) 精華

發(fā)布于 2024-11-13 09:10

瀏覽

0收藏

前言

在私有領(lǐng)域知識(shí)問答和企業(yè)知識(shí)管理領(lǐng)域，結(jié)合檢索增強(qiáng)型生成模型（Retrieval-Augmented Generation, RAG）大模型（Large Language Model, LLM）已成為一種趨勢(shì)。然而，在RAG系統(tǒng)的文檔預(yù)處理階段和檢索階段，經(jīng)常碰到三個(gè)主要問題。

企業(yè)內(nèi)部常常積累了大量包含PDF格式的文檔，這些文檔的解析精度不足，嚴(yán)重制約了基于專業(yè)知識(shí)的問答系統(tǒng)的性能。因此，提高這些PDF文件的解析質(zhì)量，對(duì)于構(gòu)建高效的RAG系統(tǒng)至關(guān)重要。
構(gòu)建起一個(gè)完備的智能文檔解析服務(wù)后，需要一個(gè)有效的評(píng)測(cè)工具來(lái)有評(píng)測(cè)文檔的解析質(zhì)量，而不是主觀的通過肉眼感知。
用戶查詢通過text embedding向量模型快速、準(zhǔn)確、有效從知識(shí)庫(kù)中檢索出相關(guān)知識(shí)片段，使得LLM回答準(zhǔn)確。

本文將先探討下文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)的影響；然后介紹下智能文檔解析關(guān)鍵技術(shù)，并介紹閉源的通用文檔解析服務(wù)——TextIn，還介紹了一款開源的文檔解析質(zhì)量評(píng)測(cè)工具-Markdown Tester，最后介紹下合合信息開發(fā)的向量表征模型-acge_text_embedding。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

RAG一般流程

一、文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)的影響

在RAG的預(yù)處理階段，文檔解析的準(zhǔn)確性是至關(guān)重要的。如果文檔解析不準(zhǔn)確，這將直接影響到后續(xù)的檢索和生成階段，導(dǎo)致整個(gè)RAG系統(tǒng)的性能下降。以下是文檔解析不準(zhǔn)確可能帶來(lái)的具體問題及其影響：

內(nèi)容識(shí)別錯(cuò)誤：如果文檔中的文本、圖像或格式被錯(cuò)誤識(shí)別，將導(dǎo)致原始信息的丟失或錯(cuò)誤。例如：（1）表格數(shù)據(jù)可能被錯(cuò)誤地解析為普通文本，表格的行列關(guān)系混亂等：導(dǎo)致表格數(shù)值類問題無(wú)法進(jìn)行精準(zhǔn)的回答和RAG系統(tǒng)可能無(wú)法正確理解數(shù)據(jù)間的關(guān)聯(lián)性。（2）圖像中的文字（OCR）被錯(cuò)誤識(shí)別：如果文檔中的文本或圖像被錯(cuò)誤識(shí)別，系統(tǒng)接收到的數(shù)據(jù)質(zhì)量會(huì)下降，這將影響系統(tǒng)生成的輸出質(zhì)量。
布局信息丟失：PDF文件的布局信息，如頁(yè)面布局、段落、標(biāo)題層級(jí)等，在解析過程中可能會(huì)丟失，這會(huì)影響對(duì)文檔結(jié)構(gòu)的把握，進(jìn)而影響分塊（chunks）。為了適應(yīng)模型的輸入要求，文檔需要被分割成小塊。如果分塊策略不當(dāng)，可能會(huì)導(dǎo)致語(yǔ)義信息的丟失，影響模型對(duì)文檔內(nèi)容的理解。
編碼問題：PDF文件可能包含多種字符編碼、水印等，一些pdf解析工具不能正確處理這些編碼，可能會(huì)導(dǎo)致亂碼。亂碼的文本內(nèi)容如果解析出來(lái)混合在文本中，會(huì)給知識(shí)庫(kù)帶來(lái)大量的噪聲，這也會(huì)影響RAG系統(tǒng)的性能。
文檔復(fù)雜性：（1）復(fù)雜的文檔結(jié)構(gòu)，如多欄布局、閱讀順序恢復(fù)、混合文本和圖像等，可能會(huì)給解析帶來(lái)額外的挑戰(zhàn)，增加解析錯(cuò)誤的風(fēng)險(xiǎn)。（2）文檔元素的復(fù)雜性：文檔中包含各種元素類型，如：段落、表格、公式和圖表。錯(cuò)誤的解析這些元素內(nèi)容，也會(huì)給RAG系統(tǒng)的知識(shí)庫(kù)帶來(lái)大量噪聲。

因此，對(duì)于C端文檔問答的RAG系統(tǒng)應(yīng)用產(chǎn)品，迫切的需要對(duì)文檔進(jìn)行精準(zhǔn)解析。理想情況下，文檔解析器應(yīng)具備以下關(guān)鍵特征：

文檔結(jié)構(gòu)識(shí)別：能夠靈活地將頁(yè)面劃分為不同類型的內(nèi)容塊，如標(biāo)題、段落、表格、公式和圖表。這確保了劃分的文本塊是完整和獨(dú)立的語(yǔ)義單元。
文檔內(nèi)元素準(zhǔn)確解析：在文檔結(jié)構(gòu)識(shí)別之后，識(shí)別出來(lái)的內(nèi)容塊準(zhǔn)確解析，如：OCR準(zhǔn)確無(wú)誤的將標(biāo)題、段落解析成文本內(nèi)容；表格識(shí)別解析精確：尤其是數(shù)值類文檔問答敏感的場(chǎng)景；公式能夠準(zhǔn)確的解析成Latex格式。
在復(fù)雜文檔布局中保持魯棒性：即使是在文檔頁(yè)面布局復(fù)雜的情況下也能保證解析效果，如多列頁(yè)面、無(wú)邊框表格甚至合并單元格的表格。

二、文檔解析的技術(shù)路線

對(duì)于簡(jiǎn)單的文檔解析，langchain 和 llama_index 中集成了各種基于規(guī)則引擎的解析工具（如：解析pdf的pdfplumber，pyPDF2等）或者簡(jiǎn)單的開源的ocr工具（如：paddleocr），能夠?qū)Χ喾N文件類型進(jìn)行解析。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

解析工具常出現(xiàn)的問題

對(duì)于復(fù)雜的文檔解析,常基于深度學(xué)習(xí)的方法進(jìn)行解析，在上篇文章中（《??【文檔智能 & RAG】RAG增強(qiáng)之路：增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??》）也講解了文檔解析的一些關(guān)鍵的開源技術(shù)路徑及方案。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

文檔內(nèi)容解析路徑

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

智能文檔（文本內(nèi)容）技術(shù)路線

然而，對(duì)于通用文檔解析而言還存在著一些挑戰(zhàn)：

2.1 版式分析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

版式分析

版面分析指的是對(duì)文檔進(jìn)行區(qū)域劃分，通過bounding box定位其中的關(guān)鍵區(qū)域，如：文字、標(biāo)題、表格、圖片等。

版式分析的優(yōu)勢(shì)：

1.通過大量標(biāo)注的數(shù)據(jù)，準(zhǔn)確的劃分出文檔關(guān)鍵區(qū)域。如：

文本區(qū)域：頁(yè)眉、頁(yè)腳、標(biāo)題、段落、頁(yè)碼、腳注、圖片標(biāo)題、表格標(biāo)題等
表格
公式
圖片

2.能對(duì)復(fù)雜的版式進(jìn)行區(qū)塊識(shí)別

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

復(fù)雜版式

版式分析的缺點(diǎn)，目前基本都是通過目標(biāo)檢測(cè)的形式進(jìn)行版式分析，因此其挑戰(zhàn)也是伴隨著特定場(chǎng)景的標(biāo)注數(shù)據(jù)，尤其是通用場(chǎng)景的版式分析，難度巨大。

2.2 表格識(shí)別與解析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

表格識(shí)別與解析的難點(diǎn)一般如下：

表格的多樣性和復(fù)雜性：表格的形式多種多樣，包括有線表、無(wú)線表和少線表，這使得檢測(cè)和分割單元格變得復(fù)雜。
表格單元格的合并與拆分：某些表格中的單元格可能跨行或跨列，甚至跨頁(yè)，需要準(zhǔn)確識(shí)別這些合并的單元格并將其恢復(fù)成標(biāo)準(zhǔn)單元格。
表格內(nèi)容的識(shí)別和解析：表格中可能包含圖像、公式、符號(hào)等非文本內(nèi)容，需要將它們轉(zhuǎn)換成文本或保留格式。
表格結(jié)構(gòu)的表示和輸出：不同的應(yīng)用場(chǎng)景可能需要不同的表格結(jié)構(gòu)表示方式，如 HTML、JSON、CSV 等，需要將識(shí)別結(jié)果轉(zhuǎn)換成適合目標(biāo)應(yīng)用的格式，并保留數(shù)據(jù)和樣式信息。

2.3 公式識(shí)別與解析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

公式識(shí)別類型

數(shù)學(xué)公式識(shí)別與解析是一個(gè)技術(shù)挑戰(zhàn)性很高的領(lǐng)域，主要難點(diǎn)包括：

公式結(jié)構(gòu)的復(fù)雜性：數(shù)學(xué)公式往往包含復(fù)雜的嵌套結(jié)構(gòu)，這些結(jié)構(gòu)的識(shí)別需要算法能夠準(zhǔn)確理解公式的層次關(guān)系，例如多層的分?jǐn)?shù)、根號(hào)等。
形近字的識(shí)別難度：在手寫識(shí)別中，相似形狀的字符如大寫X和小寫x，大寫Z和數(shù)字2，希臘字母γ和字母r等容易混淆，增加了識(shí)別的難度。
非常規(guī)符號(hào)的識(shí)別：比賽中添加的非常規(guī)符號(hào)組合可能會(huì)與公式混淆，增加了識(shí)別的復(fù)雜度。

2.4 閱讀順序

由于文檔布局的復(fù)雜性，包括多欄、嵌套表格、不規(guī)則的文本框等，這增加了閱讀順序恢復(fù)的難度。往期中也介紹了閱讀順序相關(guān)內(nèi)容（《??【文檔智能】符合人類閱讀順序的文檔模型-LayoutReader及非官方權(quán)重開源??》）

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

多列布局閱讀順序恢復(fù)

小結(jié)：以上文檔解析的每個(gè)環(huán)節(jié)無(wú)論是數(shù)據(jù)標(biāo)注、模型訓(xùn)練、實(shí)驗(yàn)，都需要投入巨大的成本和精細(xì)化的優(yōu)化，在工業(yè)落地場(chǎng)景，在保證解析效果的同時(shí)，還需要關(guān)注文檔的解析速度。尤其是OCR過程，文字密集型文檔的解析速度影響特別大。

三、TextIn

針對(duì)以上痛點(diǎn)，筆者深度體驗(yàn)了一下合合信息自研文檔解析技術(shù)-TextIn。該技術(shù)深度融合了文字識(shí)別（OCR）、計(jì)算機(jī)圖形圖像技術(shù)以及智能圖像處理引擎，使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計(jì)算機(jī)易于處理的文本格式。

TextIn文檔智能關(guān)鍵技術(shù)如下：

3.1 版面分析關(guān)鍵技術(shù) Layout-engine

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

3.2 文檔樹提取關(guān)鍵技術(shù) Catalog-engine

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

3.3 解析體驗(yàn)

測(cè)試樣例：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn解析輸出：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn解析結(jié)果

可以看到，TextIn將pdf文件解析成markdown格式，并將標(biāo)題、段落、行內(nèi)公式及行間公式準(zhǔn)確解析。

值得關(guān)注的是，標(biāo)題，段落的準(zhǔn)確解析、并按照閱讀順序進(jìn)行輸出，這是生成文檔目錄及文檔樹的基礎(chǔ)。

快速上手代碼：

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class TextinOcr(object):
    def __init__(self, app_id, app_secret):
        self._app_id = app_id
        self._app_secret = app_secret
        self.host = 'https://api.textin.com'

    def recognize_pdf2md(self, image, options):
        """
        pdf to markdown
        :param options: request params
        :param image: file bytes
        :return: response

        options = {
            'pdf_pwd': None,
            'dpi': 72,
            'page_start': 0,
            'page_count': 24,
            'apply_document_tree': 0,
            'markdown_details': 0,
            'table_flavor': 'md',
            'get_image': 'none',
            'parse_mode': 'auto',
        }
        """


        url = self.host + '/ai/service/v1/pdf_to_markdown'
        headers = {
            'x-ti-app-id': self._app_id,
            'x-ti-secret-code': self._app_secret
        }

        return requests.post(url, data=image, headers=headers, params=options)

def write_file(markdown_result, filepath = 'test.md'):
    f = open(filepath, 'w')
    f.write(markdown_result)
    f.close()

if __name__ == "__main__":
    textin = TextinOcr('app-id', 'app-secret')
    image = get_file_content('test.pdf')
    resp = textin.recognize_pdf2md(image, {
        'page_start': 0,
        'page_count': 14,
        'table_flavor': 'html',
        'parse_mode': 'auto',
        'apply_document_tree': 1,
        'markdown_details': 1,
        # 'get_image': 1,
    })
    print("request time: ", resp.elapsed.total_seconds())
    json_data = json.loads(resp.text)
    write_file(json_data['result']['markdown'], 'test2.md')

3.4 一個(gè)解析引擎速度的重要性

目前，基于多模態(tài)大模型技術(shù)的快速發(fā)展，文檔解析可以通過多模態(tài)大模型進(jìn)行解決，如：gpt-4o等，但是，基于多模態(tài)大模型的解決方案，成本大、非常耗時(shí)、容易產(chǎn)生幻覺問題，尤其是表格的解析，數(shù)值上的幻覺問題是災(zāi)難性的。

筆者在體驗(yàn)TextIn時(shí)，感覺解析速度非?？欤@對(duì)于RAG系統(tǒng)的增益可以從離線和在線兩個(gè)方面展開講：

離線模式

數(shù)據(jù)預(yù)處理: 在離線模式下，解析引擎可以預(yù)先處理和索引大量文檔，為在線查詢做好準(zhǔn)備。
定期更新知識(shí)庫(kù)：可以定期更新模型和索引，以適應(yīng)新的數(shù)據(jù)和需求變化。

2. 在線模式

c端用戶通過網(wǎng)頁(yè)知識(shí)空間上傳新的文件時(shí)，在線模式允許解析引擎實(shí)時(shí)響應(yīng)用戶查詢，提供即時(shí)的文檔解析服務(wù)。
用戶體驗(yàn): 用戶期望快速且準(zhǔn)確的響應(yīng)，因此解析引擎的速度和準(zhǔn)確性在在線模式下尤為重要。

4、文檔解析評(píng)測(cè)工具-Markdown Tester

在文檔解析中，有了解析工具后，對(duì)于開發(fā)者，針對(duì)文檔解析的解析效果，需要一款比較好用的評(píng)價(jià)工具來(lái)客觀對(duì)解析效果進(jìn)行評(píng)價(jià)；對(duì)于購(gòu)買解析服務(wù)的c端客戶，同樣也需要評(píng)價(jià)文檔解析服務(wù)的效果，在自建數(shù)據(jù)集上先評(píng)測(cè)一下，然后有針對(duì)性的進(jìn)行解析服務(wù)選購(gòu)。因此，下面介紹一下 Markdown Tester：

該評(píng)測(cè)工具用于評(píng)價(jià)markdown文檔相似性，從段落、標(biāo)題、表格和公式四個(gè)維度進(jìn)行評(píng)價(jià)，相關(guān)評(píng)價(jià)指標(biāo)的定義如下表：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

段落、標(biāo)題、表格和公式四個(gè)維度定義

對(duì)于RAG中文檔解析，必須強(qiáng)調(diào)為什么使用markdown進(jìn)行表示：Markdown格式因其簡(jiǎn)潔性和易于解析的特點(diǎn)，?被廣泛認(rèn)為是LLM（?大型語(yǔ)言模型）?友好的文檔格式。?Markdown通過明確的標(biāo)記語(yǔ)法，?幫助模型更好地理解文檔結(jié)構(gòu)和內(nèi)容，?從而提高信息提取的準(zhǔn)確性和效率。?特別在存在大量公式、?表格的學(xué)術(shù)論文場(chǎng)景下，?Markdown可能是更合適的格式選擇。?這種格式選擇的原因主要包括：?

結(jié)構(gòu)化信息的保留：?Markdown能夠很好地保留結(jié)構(gòu)化信息（非常適合需要保留標(biāo)題層級(jí)、?公式和表格等結(jié)構(gòu)信息的場(chǎng)景），?這對(duì)于需要精確提取和分析文本內(nèi)容的場(chǎng)景尤為重要。?
易于解析：?Markdown的簡(jiǎn)潔性和明確的標(biāo)記語(yǔ)法使得它易于被計(jì)算機(jī)程序解析和處理，?這對(duì)于自動(dòng)化文檔處理和數(shù)據(jù)分析任務(wù)非常有利。?
支持場(chǎng)景多：?Markdown作為一種輕量級(jí)標(biāo)記語(yǔ)言，?被廣泛用于編寫文檔、?筆記、?博客文章、?技術(shù)文檔等場(chǎng)景。

4.1 使用方法

step1:

git clone https://github.com/intsig/markdown_tester.git
cd markdown_tester
./install.sh

step2:
Markdown Tester的倉(cāng)庫(kù)中給出了一些22份文檔的grounding truth用于評(píng)測(cè)各種解析工具效果。待測(cè)評(píng)樣本按照下述方式放置：

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

step3:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4.2 運(yùn)行效果

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

對(duì)比表格

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

對(duì)比雷達(dá)圖-可視化

筆者在評(píng)測(cè)過程中發(fā)現(xiàn)，自研模型對(duì)于識(shí)別準(zhǔn)確率較高，但召回率普遍不行。

五、text embedding在RAG環(huán)節(jié)的作用

由于LLM固有的問題，如：LLM的知識(shí)不是實(shí)時(shí)更新的；LLM無(wú)法回答私域知識(shí)問題。因?yàn)?，LLM的專長(zhǎng)在于生成和理解復(fù)雜的自然語(yǔ)言查詢。嵌入模型（比如Embedding）的專長(zhǎng)在于將文本映射到高維空間中，以便進(jìn)行相似性比較；生成可用于高效檢索的密集向量。

因此，目前主流的實(shí)現(xiàn)方式都是通過RAG的方式對(duì)上述問題進(jìn)行解決。text embedding在RAG中充當(dāng)重要的角色，主要有以下幾個(gè)作用：

捕捉語(yǔ)義信息：文本嵌入將文本轉(zhuǎn)換為數(shù)值向量，這些向量能夠捕捉到文本的語(yǔ)義信息。
增強(qiáng)上下文理解：在RAG系統(tǒng)中，文本嵌入幫助模型掌握輸入查詢的上下文，并在NLP任務(wù)的檢索階段提取相關(guān)信息。通過這種方式，模型能夠更好地理解和處理非結(jié)構(gòu)化文本中的模糊性和可變性。
提高檢索性能：有效的文本嵌入能夠顯著提升RAG系統(tǒng)的性能。例如，不同的嵌入模型帶來(lái)的效果也不盡相同，選擇合適的嵌入模型可以優(yōu)化模型的檢索性能。此外，結(jié)合知識(shí)圖譜和文本嵌入，可以實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)和非結(jié)構(gòu)化文本的無(wú)縫融合，從而產(chǎn)生信息更豐富、上下文相關(guān)的響應(yīng)。并且，文本嵌入增強(qiáng)了對(duì)自然語(yǔ)言中歧義和可變性的適應(yīng)能力，使RAG模型能夠更好地應(yīng)對(duì)模糊和多義的表達(dá)。這在處理開放域問答等復(fù)雜任務(wù)時(shí)尤為重要。

下面介紹一個(gè)效果比較好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研發(fā)的向量表征模型，技術(shù)架構(gòu)上，acge_text_embedding采用了俄羅斯套娃表示學(xué)習(xí)（Matryoshka Representation Learning，MRL）編碼不同粒度的信息，并讓一個(gè)編碼能夠適應(yīng)不同計(jì)算資源的下游任務(wù)。MRL的目的是學(xué)習(xí)許多個(gè)小于等于的前維表征，即總維度的前維。在訓(xùn)練時(shí)，MRL根據(jù)指定維度的向量來(lái)計(jì)算多個(gè)。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

一種比較高效的做法是將每個(gè)投射頭看成是一個(gè)大投射頭的的一部分，即，這種做法在大輸出空間時(shí)尤其重要，稱之為Efficient Matryoshka Representation Learning (MRL–E)。

因此，該表示學(xué)習(xí)框架的核心思想是學(xué)習(xí)不同粒度的信息，允許一個(gè)嵌入向量在保持準(zhǔn)確性和豐富性的同時(shí)，適應(yīng)不同計(jì)算資源的需求，并可以無(wú)縫地適應(yīng)大多數(shù)表示學(xué)習(xí)框架，并且可以擴(kuò)展到多種標(biāo)準(zhǔn)計(jì)算機(jī)視覺和自然語(yǔ)言處理任務(wù)。

acge_text_embedding通過應(yīng)用多模態(tài)表示學(xué)習(xí)（MRL）技術(shù)，能夠?qū)崿F(xiàn)一次訓(xùn)練過程，從而獲得豐富多樣的表征維度。特別值得一提的是，自適應(yīng)粗粒度到細(xì)粒度表示（acge）模型，它采用了一種層次化的方法，從宏觀到微觀逐步深化表征的深度和精度。這種方法不僅在推理和部署階段無(wú)需額外成本，還提供了一種靈活且高效的表征方式。在具體的實(shí)踐應(yīng)用中，為了更好地適應(yīng)不同任務(wù)的需求，acge模型采用了策略學(xué)習(xí)的訓(xùn)練方法。這種方法通過針對(duì)性地調(diào)整學(xué)習(xí)策略，顯著提升了模型在檢索、聚類和排序等任務(wù)上的性能表現(xiàn)。此外，模型還引入了持續(xù)學(xué)習(xí)的訓(xùn)練機(jī)制，有效解決了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中可能出現(xiàn)的災(zāi)難性遺忘問題。這使得模型能夠在訓(xùn)練迭代中達(dá)到更加優(yōu)秀的收斂狀態(tài)，為持續(xù)優(yōu)化和提升模型性能奠定了基礎(chǔ)。

5.2 acge_text_embedding使用

在sentence-transformer庫(kù)中的使用：

from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在sentence-transformer庫(kù)中的使用方法，選取不同的維度：

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

5.3 acge_text_embedding優(yōu)點(diǎn)總結(jié)

性能優(yōu)勢(shì)：

acge模型較小，占用資源少；
模型輸入文本長(zhǎng)度為1024，滿足絕大部分場(chǎng)景的需求
acge模型支持可變輸出維度，能夠根據(jù)具體場(chǎng)景去合理分配資源。

框架優(yōu)勢(shì)：

對(duì)比學(xué)習(xí)技術(shù)，通過最小化正對(duì)之間的距離和最大化負(fù)對(duì)之間的距離來(lái)呈現(xiàn)文本語(yǔ)義表示。
數(shù)據(jù)挖掘，構(gòu)造多場(chǎng)景、數(shù)量龐大的數(shù)據(jù)集提升模型泛化能力，挑選高質(zhì)量數(shù)據(jù)集加快模型收斂。
多任務(wù)混合訓(xùn)練，多l(xiāng)oss適配場(chǎng)景，適應(yīng)各種下游任務(wù)
MRL訓(xùn)練，訓(xùn)練可變維度的嵌入，提高了處理速度，降低了存儲(chǔ)需求
持續(xù)學(xué)習(xí), 改善引入新數(shù)據(jù)后模型災(zāi)難性遺忘問題

總結(jié)

本文主要探討了檢索增強(qiáng)型生成模型（RAG）在私有領(lǐng)域知識(shí)問答和企業(yè)知識(shí)管理中的應(yīng)用，重點(diǎn)分析了文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)性能的影響，介紹了智能文檔解析的關(guān)鍵技術(shù)，并介紹了合合信息自研的文檔解析服務(wù)TextIn，以及開源的文檔解析質(zhì)量評(píng)測(cè)工具M(jìn)arkdown Tester。此外，還介紹了合合信息開發(fā)的文本向量嵌入模型acge_text_embedding，強(qiáng)調(diào)了其在RAG系統(tǒng)中的作用和優(yōu)勢(shì)。整體而言，文檔解析的準(zhǔn)確性、速度和質(zhì)量對(duì)RAG系統(tǒng)的性能至關(guān)重要，而TextIn和acge_text_embedding等工具能夠顯著提升文檔解析的效果和效率。

參考文獻(xiàn)

Markdown Tester：https://github.com/intsig/markdown_tester
TextIn：https://www.textin.com/experience/pdf_to_markdown?from=acg-github
acge_text_embedding：https://huggingface.co/aspire/acge_text_embedding

本文轉(zhuǎn)載自公眾號(hào)哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/T4CU19NeUf9tGNge8ls6Ow??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LangFriend：一款能記住你的日記應(yīng)用

ermulong ? 3659瀏覽 ? 0回復(fù)
四款AI神器點(diǎn)燃你的創(chuàng)意火花

echo_ning ? 2713瀏覽 ? 0回復(fù)
神器Pandas AI: 一款智能做數(shù)據(jù)分析的工具！

開發(fā)者阿橙 ? 4867瀏覽 ? 0回復(fù)
六款超火的AI繪圖軟件推薦！總有一款AI適合你！

行走的小非 ? 7852瀏覽 ? 0回復(fù)
Gptpdf：一個(gè)簡(jiǎn)單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 6090瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 5528瀏覽 ? 0回復(fù)
一款由知識(shí)圖譜引擎驅(qū)動(dòng)的創(chuàng)新Agent框架

探索AGI ? 3483瀏覽 ? 0回復(fù)
一款好用的開源工具，高效實(shí)現(xiàn)Reranker

恰似驚鴻 ? 4081瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 3478瀏覽 ? 0回復(fù)
文檔概要索引，簡(jiǎn)單提升檢索性能的新選擇

恰似驚鴻 ? 2539瀏覽 ? 0回復(fù)
Pandas AI: 一款可以智能做數(shù)據(jù)分析的工具！

Halo咯咯 ? 3984瀏覽 ? 0回復(fù)
Fooocus：一款開箱即用的圖片生成軟件

sword_hero ? 3649瀏覽 ? 0回復(fù)
開發(fā)一款大模型需要經(jīng)過哪些步驟？開發(fā)一款大模型的完整流程

AI探索時(shí)代 ? 4269瀏覽 ? 0回復(fù)
2025年企業(yè)必備的25款AI工具

Halo咯咯 ? 6591瀏覽 ? 0回復(fù)
如何運(yùn)用DeepSeek R1構(gòu)建一款全棧簡(jiǎn)歷篩選應(yīng)用

51CTO內(nèi)容精選 ? 3410瀏覽 ? 0回復(fù)
GPT?4.5發(fā)布：一款迄今為止最大、最貴的模型

Halo咯咯 ? 2743瀏覽 ? 0回復(fù)
RAG項(xiàng)目必備！文檔解析神器MinerU：2.5萬(wàn)星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 7426瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺RAG性能10%

大語(yǔ)言模型論文跟蹤 ? 2369瀏覽 ? 0回復(fù)
有一款神器！深入探索Transformer語(yǔ)言模型的可視化工具BertViz

智駐未來(lái) ? 1543瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

最新總結(jié)，不同抽取任務(wù)哪個(gè)模型最能打 2025-05-22 06:12:50發(fā)布
MCP協(xié)議：AI工具交互新標(biāo)準(zhǔn)，最新綜述 2025-05-22 06:12:30發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

下一篇： LLM-R：基于RAG和層次化Agent落地案例解析

社區(qū)精華內(nèi)容

目錄

<sub id="pmkgw"><p id="pmkgw"></p></sub>