偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備 原創(chuàng) 精華

發(fā)布于 2024-11-13 09:10
瀏覽
0收藏

前言

在私有領(lǐng)域知識(shí)問答和企業(yè)知識(shí)管理領(lǐng)域,結(jié)合檢索增強(qiáng)型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成為一種趨勢(shì)。然而,在RAG系統(tǒng)的文檔預(yù)處理階段和檢索階段,經(jīng)常碰到三個(gè)主要問題。

  1. 企業(yè)內(nèi)部常常積累了大量包含PDF格式的文檔,這些文檔的解析精度不足,嚴(yán)重制約了基于專業(yè)知識(shí)的問答系統(tǒng)的性能。因此,提高這些PDF文件的解析質(zhì)量,對(duì)于構(gòu)建高效的RAG系統(tǒng)至關(guān)重要。
  2. 構(gòu)建起一個(gè)完備的智能文檔解析服務(wù)后,需要一個(gè)有效的評(píng)測(cè)工具來(lái)有評(píng)測(cè)文檔的解析質(zhì)量,而不是主觀的通過肉眼感知。
  3. 用戶查詢通過text embedding向量模型快速、準(zhǔn)確、有效從知識(shí)庫(kù)中檢索出相關(guān)知識(shí)片段,使得LLM回答準(zhǔn)確。

本文將先探討下文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)的影響;然后介紹下智能文檔解析關(guān)鍵技術(shù),并介紹閉源的通用文檔解析服務(wù)——TextIn,還介紹了一款開源的文檔解析質(zhì)量評(píng)測(cè)工具-Markdown Tester,最后介紹下合合信息開發(fā)的向量表征模型-acge_text_embedding

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

RAG一般流程

一、文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)的影響

在RAG的預(yù)處理階段,文檔解析的準(zhǔn)確性是至關(guān)重要的。如果文檔解析不準(zhǔn)確,這將直接影響到后續(xù)的檢索和生成階段,導(dǎo)致整個(gè)RAG系統(tǒng)的性能下降。以下是文檔解析不準(zhǔn)確可能帶來(lái)的具體問題及其影響:

  • 內(nèi)容識(shí)別錯(cuò)誤:如果文檔中的文本、圖像或格式被錯(cuò)誤識(shí)別,將導(dǎo)致原始信息的丟失或錯(cuò)誤。例如:(1)表格數(shù)據(jù)可能被錯(cuò)誤地解析為普通文本,表格的行列關(guān)系混亂等:導(dǎo)致表格數(shù)值類問題無(wú)法進(jìn)行精準(zhǔn)的回答和RAG系統(tǒng)可能無(wú)法正確理解數(shù)據(jù)間的關(guān)聯(lián)性。(2)圖像中的文字(OCR)被錯(cuò)誤識(shí)別:如果文檔中的文本或圖像被錯(cuò)誤識(shí)別,系統(tǒng)接收到的數(shù)據(jù)質(zhì)量會(huì)下降,這將影響系統(tǒng)生成的輸出質(zhì)量。
  • 布局信息丟失:PDF文件的布局信息,如頁(yè)面布局、段落、標(biāo)題層級(jí)等,在解析過程中可能會(huì)丟失,這會(huì)影響對(duì)文檔結(jié)構(gòu)的把握,進(jìn)而影響分塊(chunks)。為了適應(yīng)模型的輸入要求,文檔需要被分割成小塊。如果分塊策略不當(dāng),可能會(huì)導(dǎo)致語(yǔ)義信息的丟失,影響模型對(duì)文檔內(nèi)容的理解。
  • 編碼問題:PDF文件可能包含多種字符編碼、水印等,一些pdf解析工具不能正確處理這些編碼,可能會(huì)導(dǎo)致亂碼。亂碼的文本內(nèi)容如果解析出來(lái)混合在文本中,會(huì)給知識(shí)庫(kù)帶來(lái)大量的噪聲,這也會(huì)影響RAG系統(tǒng)的性能。
  • 文檔復(fù)雜性:(1)復(fù)雜的文檔結(jié)構(gòu),如多欄布局、閱讀順序恢復(fù)、混合文本和圖像等,可能會(huì)給解析帶來(lái)額外的挑戰(zhàn),增加解析錯(cuò)誤的風(fēng)險(xiǎn)。(2)文檔元素的復(fù)雜性:文檔中包含各種元素類型,如:段落、表格、公式和圖表。錯(cuò)誤的解析這些元素內(nèi)容,也會(huì)給RAG系統(tǒng)的知識(shí)庫(kù)帶來(lái)大量噪聲。

因此,對(duì)于C端文檔問答的RAG系統(tǒng)應(yīng)用產(chǎn)品,迫切的需要對(duì)文檔進(jìn)行精準(zhǔn)解析。理想情況下,文檔解析器應(yīng)具備以下關(guān)鍵特征:

  • 文檔結(jié)構(gòu)識(shí)別:能夠靈活地將頁(yè)面劃分為不同類型的內(nèi)容塊,如標(biāo)題、段落、表格、公式和圖表。這確保了劃分的文本塊是完整和獨(dú)立的語(yǔ)義單元。
  • 文檔內(nèi)元素準(zhǔn)確解析:在文檔結(jié)構(gòu)識(shí)別之后,識(shí)別出來(lái)的內(nèi)容塊準(zhǔn)確解析,如:OCR準(zhǔn)確無(wú)誤的將標(biāo)題、段落解析成文本內(nèi)容;表格識(shí)別解析精確:尤其是數(shù)值類文檔問答敏感的場(chǎng)景;公式能夠準(zhǔn)確的解析成Latex格式。
  • 在復(fù)雜文檔布局中保持魯棒性:即使是在文檔頁(yè)面布局復(fù)雜的情況下也能保證解析效果,如多列頁(yè)面、無(wú)邊框表格甚至合并單元格的表格。

二、文檔解析的技術(shù)路線

對(duì)于簡(jiǎn)單的文檔解析,langchain 和 llama_index 中集成了各種基于規(guī)則引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者簡(jiǎn)單的開源的ocr工具(如:paddleocr),能夠?qū)Χ喾N文件類型進(jìn)行解析。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

解析工具常出現(xiàn)的問題

對(duì)于復(fù)雜的文檔解析,常基于深度學(xué)習(xí)的方法進(jìn)行解析,在上篇文章中(《??【文檔智能 & RAG】RAG增強(qiáng)之路:增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??》)也講解了文檔解析的一些關(guān)鍵的開源技術(shù)路徑及方案。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

文檔內(nèi)容解析路徑

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

智能文檔(文本內(nèi)容)技術(shù)路線

然而,對(duì)于通用文檔解析而言還存在著一些挑戰(zhàn):

2.1 版式分析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

版式分析

版面分析指的是對(duì)文檔進(jìn)行區(qū)域劃分,通過bounding box定位其中的關(guān)鍵區(qū)域,如:文字、標(biāo)題、表格、圖片等。

版式分析的優(yōu)勢(shì)

1.通過大量標(biāo)注的數(shù)據(jù),準(zhǔn)確的劃分出文檔關(guān)鍵區(qū)域。如:

  • 文本區(qū)域:頁(yè)眉、頁(yè)腳、標(biāo)題、段落、頁(yè)碼、腳注、圖片標(biāo)題、表格標(biāo)題等
  • 表格
  • 公式
  • 圖片

2.能對(duì)復(fù)雜的版式進(jìn)行區(qū)塊識(shí)別

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

復(fù)雜版式

版式分析的缺點(diǎn),目前基本都是通過目標(biāo)檢測(cè)的形式進(jìn)行版式分析,因此其挑戰(zhàn)也是伴隨著特定場(chǎng)景的標(biāo)注數(shù)據(jù),尤其是通用場(chǎng)景的版式分析,難度巨大。

2.2 表格識(shí)別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

表格識(shí)別與解析的難點(diǎn)一般如下:

  • 表格的多樣性和復(fù)雜性:表格的形式多種多樣,包括有線表、無(wú)線表和少線表,這使得檢測(cè)和分割單元格變得復(fù)雜 。
  • 表格單元格的合并與拆分:某些表格中的單元格可能跨行或跨列,甚至跨頁(yè),需要準(zhǔn)確識(shí)別這些合并的單元格并將其恢復(fù)成標(biāo)準(zhǔn)單元格 。
  • 表格內(nèi)容的識(shí)別和解析:表格中可能包含圖像、公式、符號(hào)等非文本內(nèi)容,需要將它們轉(zhuǎn)換成文本或保留格式 。
  • 表格結(jié)構(gòu)的表示和輸出:不同的應(yīng)用場(chǎng)景可能需要不同的表格結(jié)構(gòu)表示方式,如 HTML、JSON、CSV 等,需要將識(shí)別結(jié)果轉(zhuǎn)換成適合目標(biāo)應(yīng)用的格式,并保留數(shù)據(jù)和樣式信息。

2.3 公式識(shí)別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

公式識(shí)別類型

數(shù)學(xué)公式識(shí)別與解析是一個(gè)技術(shù)挑戰(zhàn)性很高的領(lǐng)域,主要難點(diǎn)包括:

  • 公式結(jié)構(gòu)的復(fù)雜性:數(shù)學(xué)公式往往包含復(fù)雜的嵌套結(jié)構(gòu),這些結(jié)構(gòu)的識(shí)別需要算法能夠準(zhǔn)確理解公式的層次關(guān)系,例如多層的分?jǐn)?shù)、根號(hào)等 。
  • 形近字的識(shí)別難度:在手寫識(shí)別中,相似形狀的字符如大寫X和小寫x,大寫Z和數(shù)字2,希臘字母γ和字母r等容易混淆,增加了識(shí)別的難度 。
  • 非常規(guī)符號(hào)的識(shí)別:比賽中添加的非常規(guī)符號(hào)組合可能會(huì)與公式混淆,增加了識(shí)別的復(fù)雜度。

2.4 閱讀順序

由于文檔布局的復(fù)雜性,包括多欄、嵌套表格、不規(guī)則的文本框等,這增加了閱讀順序恢復(fù)的難度。往期中也介紹了閱讀順序相關(guān)內(nèi)容(《??【文檔智能】符合人類閱讀順序的文檔模型-LayoutReader及非官方權(quán)重開源??》)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

多列布局閱讀順序恢復(fù)

小結(jié):以上文檔解析的每個(gè)環(huán)節(jié)無(wú)論是數(shù)據(jù)標(biāo)注、模型訓(xùn)練、實(shí)驗(yàn),都需要投入巨大的成本和精細(xì)化的優(yōu)化,在工業(yè)落地場(chǎng)景,在保證解析效果的同時(shí),還需要關(guān)注文檔的解析速度。尤其是OCR過程,文字密集型文檔的解析速度影響特別大。

三、TextIn

針對(duì)以上痛點(diǎn),筆者深度體驗(yàn)了一下合合信息自研文檔解析技術(shù)-TextIn。該技術(shù)深度融合了文字識(shí)別(OCR)、計(jì)算機(jī)圖形圖像技術(shù)以及智能圖像處理引擎,使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計(jì)算機(jī)易于處理的文本格式。

TextIn文檔智能關(guān)鍵技術(shù)如下:

3.1 版面分析關(guān)鍵技術(shù) Layout-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.2 文檔樹提取關(guān)鍵技術(shù) Catalog-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.3 解析體驗(yàn)

測(cè)試樣例:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析輸出:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析結(jié)果

可以看到,TextIn將pdf文件解析成markdown格式,并將標(biāo)題、段落、行內(nèi)公式及行間公式準(zhǔn)確解析。

值得關(guān)注的是,標(biāo)題,段落的準(zhǔn)確解析、并按照閱讀順序進(jìn)行輸出,這是生成文檔目錄及文檔樹的基礎(chǔ)。

快速上手代碼:

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class TextinOcr(object):
    def __init__(self, app_id, app_secret):
        self._app_id = app_id
        self._app_secret = app_secret
        self.host = 'https://api.textin.com'

    def recognize_pdf2md(self, image, options):
        """
        pdf to markdown
        :param options: request params
        :param image: file bytes
        :return: response

        options = {
            'pdf_pwd': None,
            'dpi': 72,
            'page_start': 0,
            'page_count': 24,
            'apply_document_tree': 0,
            'markdown_details': 0,
            'table_flavor': 'md',
            'get_image': 'none',
            'parse_mode': 'auto',
        }
        """


        url = self.host + '/ai/service/v1/pdf_to_markdown'
        headers = {
            'x-ti-app-id': self._app_id,
            'x-ti-secret-code': self._app_secret
        }

        return requests.post(url, data=image, headers=headers, params=options)

def write_file(markdown_result, filepath = 'test.md'):
    f = open(filepath, 'w')
    f.write(markdown_result)
    f.close()

if __name__ == "__main__":
    textin = TextinOcr('app-id', 'app-secret')
    image = get_file_content('test.pdf')
    resp = textin.recognize_pdf2md(image, {
        'page_start': 0,
        'page_count': 14,
        'table_flavor': 'html',
        'parse_mode': 'auto',
        'apply_document_tree': 1,
        'markdown_details': 1,
        # 'get_image': 1,
    })
    print("request time: ", resp.elapsed.total_seconds())
    json_data = json.loads(resp.text)
    write_file(json_data['result']['markdown'], 'test2.md')

3.4 一個(gè)解析引擎速度的重要性

目前,基于多模態(tài)大模型技術(shù)的快速發(fā)展,文檔解析可以通過多模態(tài)大模型進(jìn)行解決,如:gpt-4o等,但是,基于多模態(tài)大模型的解決方案,成本大、非常耗時(shí)、容易產(chǎn)生幻覺問題,尤其是表格的解析,數(shù)值上的幻覺問題是災(zāi)難性的。

筆者在體驗(yàn)TextIn時(shí),感覺解析速度非??欤@對(duì)于RAG系統(tǒng)的增益可以從離線和在線兩個(gè)方面展開講:

  1. 離線模式
  • 數(shù)據(jù)預(yù)處理: 在離線模式下,解析引擎可以預(yù)先處理和索引大量文檔,為在線查詢做好準(zhǔn)備。
  • 定期更新知識(shí)庫(kù):可以定期更新模型和索引,以適應(yīng)新的數(shù)據(jù)和需求變化。

2. 在線模式

  • c端用戶通過網(wǎng)頁(yè)知識(shí)空間上傳新的文件時(shí),在線模式允許解析引擎實(shí)時(shí)響應(yīng)用戶查詢,提供即時(shí)的文檔解析服務(wù)。
  • 用戶體驗(yàn): 用戶期望快速且準(zhǔn)確的響應(yīng),因此解析引擎的速度和準(zhǔn)確性在在線模式下尤為重要。

4、文檔解析評(píng)測(cè)工具-Markdown Tester

在文檔解析中,有了解析工具后,對(duì)于開發(fā)者,針對(duì)文檔解析的解析效果,需要一款比較好用的評(píng)價(jià)工具來(lái)客觀對(duì)解析效果進(jìn)行評(píng)價(jià);對(duì)于購(gòu)買解析服務(wù)的c端客戶,同樣也需要評(píng)價(jià)文檔解析服務(wù)的效果,在自建數(shù)據(jù)集上先評(píng)測(cè)一下,然后有針對(duì)性的進(jìn)行解析服務(wù)選購(gòu)。因此,下面介紹一下 Markdown Tester

該評(píng)測(cè)工具用于評(píng)價(jià)markdown文檔相似性,從段落、標(biāo)題、表格和公式四個(gè)維度進(jìn)行評(píng)價(jià),相關(guān)評(píng)價(jià)指標(biāo)的定義如下表:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

段落、標(biāo)題、表格和公式四個(gè)維度定義

對(duì)于RAG中文檔解析,必須強(qiáng)調(diào)為什么使用markdown進(jìn)行表示:Markdown格式因其簡(jiǎn)潔性和易于解析的特點(diǎn),?被廣泛認(rèn)為是LLM(?大型語(yǔ)言模型)?友好的文檔格式。?Markdown通過明確的標(biāo)記語(yǔ)法,?幫助模型更好地理解文檔結(jié)構(gòu)和內(nèi)容,?從而提高信息提取的準(zhǔn)確性和效率。?特別在存在大量公式、?表格的學(xué)術(shù)論文場(chǎng)景下,?Markdown可能是更合適的格式選擇。?這種格式選擇的原因主要包括:?

  • 結(jié)構(gòu)化信息的保留:?Markdown能夠很好地保留結(jié)構(gòu)化信息(非常適合需要保留標(biāo)題層級(jí)、?公式和表格等結(jié)構(gòu)信息的場(chǎng)景),?這對(duì)于需要精確提取和分析文本內(nèi)容的場(chǎng)景尤為重要。?
  • 易于解析:?Markdown的簡(jiǎn)潔性和明確的標(biāo)記語(yǔ)法使得它易于被計(jì)算機(jī)程序解析和處理,?這對(duì)于自動(dòng)化文檔處理和數(shù)據(jù)分析任務(wù)非常有利。?
  • 支持場(chǎng)景多:?Markdown作為一種輕量級(jí)標(biāo)記語(yǔ)言,?被廣泛用于編寫文檔、?筆記、?博客文章、?技術(shù)文檔等場(chǎng)景。

4.1 使用方法

  • step1:

git clone https://github.com/intsig/markdown_tester.git
cd markdown_tester
./install.sh
  • step2:
    Markdown Tester的倉(cāng)庫(kù)中給出了一些22份文檔的grounding truth用于評(píng)測(cè)各種解析工具效果。待測(cè)評(píng)樣本按照下述方式放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/
  • step3:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4.2 運(yùn)行效果

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對(duì)比表格

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對(duì)比雷達(dá)圖-可視化

筆者在評(píng)測(cè)過程中發(fā)現(xiàn),自研模型對(duì)于識(shí)別準(zhǔn)確率較高,但召回率普遍不行。

五、text embedding在RAG環(huán)節(jié)的作用

由于LLM固有的問題,如:LLM的知識(shí)不是實(shí)時(shí)更新的;LLM無(wú)法回答私域知識(shí)問題。因?yàn)?,LLM的專長(zhǎng)在于生成和理解復(fù)雜的自然語(yǔ)言查詢。嵌入模型(比如Embedding)的專長(zhǎng)在于將文本映射到高維空間中,以便進(jìn)行相似性比較;生成可用于高效檢索的密集向量。

因此,目前主流的實(shí)現(xiàn)方式都是通過RAG的方式對(duì)上述問題進(jìn)行解決。text embedding在RAG中充當(dāng)重要的角色,主要有以下幾個(gè)作用:

  1. 捕捉語(yǔ)義信息:文本嵌入將文本轉(zhuǎn)換為數(shù)值向量,這些向量能夠捕捉到文本的語(yǔ)義信息。
  2. 增強(qiáng)上下文理解:在RAG系統(tǒng)中,文本嵌入幫助模型掌握輸入查詢的上下文,并在NLP任務(wù)的檢索階段提取相關(guān)信息。通過這種方式,模型能夠更好地理解和處理非結(jié)構(gòu)化文本中的模糊性和可變性。
  3. 提高檢索性能:有效的文本嵌入能夠顯著提升RAG系統(tǒng)的性能。例如,不同的嵌入模型帶來(lái)的效果也不盡相同,選擇合適的嵌入模型可以優(yōu)化模型的檢索性能。此外,結(jié)合知識(shí)圖譜和文本嵌入,可以實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)和非結(jié)構(gòu)化文本的無(wú)縫融合,從而產(chǎn)生信息更豐富、上下文相關(guān)的響應(yīng)。并且,文本嵌入增強(qiáng)了對(duì)自然語(yǔ)言中歧義和可變性的適應(yīng)能力,使RAG模型能夠更好地應(yīng)對(duì)模糊和多義的表達(dá)。這在處理開放域問答等復(fù)雜任務(wù)時(shí)尤為重要。

下面介紹一個(gè)效果比較好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研發(fā)的向量表征模型,技術(shù)架構(gòu)上,acge_text_embedding采用了俄羅斯套娃表示學(xué)習(xí)(Matryoshka Representation Learning,MRL)編碼不同粒度的信息,并讓一個(gè)編碼能夠適應(yīng)不同計(jì)算資源的下游任務(wù)。MRL的目的是學(xué)習(xí)許多個(gè)小于等于 的前  維表征,即總維度的前 維。在訓(xùn)練時(shí),MRL根據(jù)指定維度的向量來(lái)計(jì)算多個(gè)。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

一種比較高效的做法是將每個(gè)投射頭看成是一個(gè)大投射頭的的一部分,即 ,這種做法在大輸出空間時(shí)尤其重要,稱之為Efficient Matryoshka Representation Learning (MRL–E)。

因此,該表示學(xué)習(xí)框架的核心思想是學(xué)習(xí)不同粒度的信息,允許一個(gè)嵌入向量在保持準(zhǔn)確性和豐富性的同時(shí),適應(yīng)不同計(jì)算資源的需求,并可以無(wú)縫地適應(yīng)大多數(shù)表示學(xué)習(xí)框架,并且可以擴(kuò)展到多種標(biāo)準(zhǔn)計(jì)算機(jī)視覺和自然語(yǔ)言處理任務(wù)。

acge_text_embedding通過應(yīng)用多模態(tài)表示學(xué)習(xí)(MRL)技術(shù),能夠?qū)崿F(xiàn)一次訓(xùn)練過程,從而獲得豐富多樣的表征維度。特別值得一提的是,自適應(yīng)粗粒度到細(xì)粒度表示(acge)模型,它采用了一種層次化的方法,從宏觀到微觀逐步深化表征的深度和精度。這種方法不僅在推理和部署階段無(wú)需額外成本,還提供了一種靈活且高效的表征方式。在具體的實(shí)踐應(yīng)用中,為了更好地適應(yīng)不同任務(wù)的需求,acge模型采用了策略學(xué)習(xí)的訓(xùn)練方法。這種方法通過針對(duì)性地調(diào)整學(xué)習(xí)策略,顯著提升了模型在檢索、聚類和排序等任務(wù)上的性能表現(xiàn)。此外,模型還引入了持續(xù)學(xué)習(xí)的訓(xùn)練機(jī)制,有效解決了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中可能出現(xiàn)的災(zāi)難性遺忘問題。這使得模型能夠在訓(xùn)練迭代中達(dá)到更加優(yōu)秀的收斂狀態(tài),為持續(xù)優(yōu)化和提升模型性能奠定了基礎(chǔ)。

5.2 acge_text_embedding使用

  • 在sentence-transformer庫(kù)中的使用:

from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
  • 在sentence-transformer庫(kù)中的使用方法,選取不同的維度

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

5.3 acge_text_embedding優(yōu)點(diǎn)總結(jié)

性能優(yōu)勢(shì)

  1. acge模型較小,占用資源少;
  2. 模型輸入文本長(zhǎng)度為1024,滿足絕大部分場(chǎng)景的需求
  3. acge模型支持可變輸出維度,能夠根據(jù)具體場(chǎng)景去合理分配資源。

框架優(yōu)勢(shì)

  1. 對(duì)比學(xué)習(xí)技術(shù),通過最小化正對(duì)之間的距離和最大化負(fù)對(duì)之間的距離來(lái)呈現(xiàn)文本語(yǔ)義表示。
  2. 數(shù)據(jù)挖掘,構(gòu)造多場(chǎng)景、數(shù)量龐大的數(shù)據(jù)集提升模型泛化能力,挑選高質(zhì)量數(shù)據(jù)集加快模型收斂。
  3. 多任務(wù)混合訓(xùn)練,多l(xiāng)oss適配場(chǎng)景,適應(yīng)各種下游任務(wù)
  4. MRL訓(xùn)練,訓(xùn)練可變維度的嵌入,提高了處理速度,降低了存儲(chǔ)需求
  5. 持續(xù)學(xué)習(xí), 改善引入新數(shù)據(jù)后模型災(zāi)難性遺忘問題

總結(jié)

本文主要探討了檢索增強(qiáng)型生成模型(RAG)在私有領(lǐng)域知識(shí)問答和企業(yè)知識(shí)管理中的應(yīng)用,重點(diǎn)分析了文檔解析的準(zhǔn)確性對(duì)RAG系統(tǒng)性能的影響,介紹了智能文檔解析的關(guān)鍵技術(shù),并介紹了合合信息自研的文檔解析服務(wù)TextIn,以及開源的文檔解析質(zhì)量評(píng)測(cè)工具M(jìn)arkdown Tester。此外,還介紹了合合信息開發(fā)的文本向量嵌入模型acge_text_embedding,強(qiáng)調(diào)了其在RAG系統(tǒng)中的作用和優(yōu)勢(shì)。整體而言,文檔解析的準(zhǔn)確性、速度和質(zhì)量對(duì)RAG系統(tǒng)的性能至關(guān)重要,而TextIn和acge_text_embedding等工具能夠顯著提升文檔解析的效果和效率。

參考文獻(xiàn)

  • Markdown Tester:https://github.com/intsig/markdown_tester
  • TextIn:https://www.textin.com/experience/pdf_to_markdown?from=acg-github
  • acge_text_embedding:https://huggingface.co/aspire/acge_text_embedding


本文轉(zhuǎn)載自公眾號(hào)哎呀AIYA

原文鏈接:??https://mp.weixin.qq.com/s/T4CU19NeUf9tGNge8ls6Ow??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦