偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全模態(tài)RAG突破文本局限,港大構(gòu)建跨模態(tài)一體化系統(tǒng)

人工智能 新聞
香港大學(xué)黃超教授團(tuán)隊開源多模態(tài)智能處理系統(tǒng)RAG-Anything,將碎片化的信息孤島轉(zhuǎn)化為結(jié)構(gòu)化的知識網(wǎng)絡(luò),為智能多模態(tài)文檔分析開辟了全新技術(shù)路徑。

突破傳統(tǒng)檢索增強(qiáng)生成(RAG)技術(shù)的單一文本局限,實現(xiàn)對文檔中文字、圖表、表格、公式等復(fù)雜內(nèi)容的統(tǒng)一智能理解。

香港大學(xué)黃超教授團(tuán)隊開源多模態(tài)智能處理系統(tǒng)RAG-Anything,將碎片化的信息孤島轉(zhuǎn)化為結(jié)構(gòu)化的知識網(wǎng)絡(luò),為智能多模態(tài)文檔分析開辟了全新技術(shù)路徑。

圖片

RAG-Anything 是專門針對復(fù)雜多模態(tài)文檔設(shè)計的新一代RAG系統(tǒng),致力于破解現(xiàn)代信息處理中的多模態(tài)理解難題。

系統(tǒng)整合了多模態(tài)文檔解析、語義理解、知識建模和智能問答等核心能力,能夠同時處理文本敘述、視覺圖表、結(jié)構(gòu)數(shù)據(jù)、數(shù)學(xué)表達(dá)式等多樣化內(nèi)容,構(gòu)建從原始文檔到智能交互的完整自動化流程,為AI應(yīng)用的實際落地提供堅實的技術(shù)支撐。

RAG系統(tǒng)的技術(shù)痛點與發(fā)展趨勢

復(fù)雜多模態(tài)文檔的理解

人工智能正在從只會處理文字發(fā)展到能夠理解多種信息形式,這種變化其實很符合日常工作的實際情況。人們平時接觸的信息很少是純文字的,更多的是包含圖片、表格、圖表的綜合性文檔。這些不同類型的內(nèi)容——文字說明、圖像展示、數(shù)據(jù)分析、邏輯推理等——相互配合,形成了一個完整的信息體系。

在各個專業(yè)領(lǐng)域里,多模態(tài)內(nèi)容早就成為主流的信息傳遞方式。學(xué)術(shù)論文需要用圖表和公式來展示研究成果,教學(xué)材料用圖解讓概念更好理解,財務(wù)報告靠各種圖表來展現(xiàn)數(shù)據(jù)變化,醫(yī)療記錄則包含大量的影像和檢測數(shù)據(jù)。這些視覺化的內(nèi)容和文字說明互相補(bǔ)充,構(gòu)成了完整的專業(yè)知識框架。

面對如此復(fù)雜的信息形態(tài),傳統(tǒng)的單一文本處理方式已無法滿足現(xiàn)實各類場景的需求。各行業(yè)都迫切需要AI系統(tǒng)具備跨模態(tài)的綜合理解能力,能夠同時解析文字?jǐn)⑹觥D像信息、表格數(shù)據(jù)和數(shù)學(xué)表達(dá)式,并建立它們之間的語義關(guān)聯(lián),從而為用戶提供準(zhǔn)確、全面的智能分析和問答服務(wù)。

現(xiàn)有RAG系統(tǒng)的技術(shù)瓶頸

雖然檢索增強(qiáng)生成(RAG)技術(shù)在文本問答方面表現(xiàn)不錯,但現(xiàn)有的RAG系統(tǒng)普遍存在明顯的模態(tài)局限。傳統(tǒng)RAG架構(gòu)主要是為純文本內(nèi)容設(shè)計的,包括文本分塊、向量化編碼、相似性檢索等核心模塊,這套技術(shù)棧在處理非文本內(nèi)容時遇到了不少問題:

檢索效果不夠理想:純文本向量沒辦法很好地表達(dá)圖表的視覺含義、表格的結(jié)構(gòu)關(guān)系和公式的數(shù)學(xué)意義。當(dāng)用戶問”圖中的趨勢怎么樣”或”表格里哪個數(shù)據(jù)最大”這類問題時,檢索效果往往不理想。

語義關(guān)聯(lián)的缺失:文檔里的圖文內(nèi)容經(jīng)常相互引用和解釋,但傳統(tǒng)系統(tǒng)建立不了這種跨模態(tài)的語義連接,所以給出的答案常常不夠完整或準(zhǔn)確。

復(fù)雜的工作流:面對包含大量圖表、公式的復(fù)雜文檔,傳統(tǒng)系統(tǒng)需要多個專用工具配合才能處理,整個流程既復(fù)雜又低效,很難適應(yīng)實際應(yīng)用的要求。

RAG-Anything的實際應(yīng)用價值

項目的核心目標(biāo)

RAG-Anything項目就是為了解決前面提到的這些技術(shù)難題而開發(fā)的,目標(biāo)是打造一個完整的多模態(tài)RAG系統(tǒng),讓傳統(tǒng)RAG在處理復(fù)雜文檔時的各種限制得到有效解決。整個系統(tǒng)采用統(tǒng)一的技術(shù)框架,把多模態(tài)文檔處理從實驗室的概念驗證真正推向可以實際部署的工程化方案。

技術(shù)架構(gòu)的特點

團(tuán)隊設(shè)計了一套端到端的技術(shù)棧,包含文檔解析、內(nèi)容理解、知識構(gòu)建和智能問答等關(guān)鍵功能。在文件支持上,系統(tǒng)可以處理PDF、Office文檔、圖像等主流格式。技術(shù)上實現(xiàn)了跨模態(tài)的統(tǒng)一知識表示和檢索方法,還提供了標(biāo)準(zhǔn)化的API接口和靈活的配置選項。RAG-Anything的定位是作為多模態(tài)AI應(yīng)用的基礎(chǔ)組件,為現(xiàn)有的RAG系統(tǒng)直接提供多模態(tài)文檔處理功能。

RAG-Anything的技術(shù)亮點

RAG-Anything 采用了一系列創(chuàng)新的技術(shù)方案和工程方法,在多模態(tài)文檔處理領(lǐng)域?qū)崿F(xiàn)了顯著提升:

1 一站式多模態(tài)處理流程

團(tuán)隊構(gòu)建了完整的自動化處理管道,從文檔輸入開始,系統(tǒng)就能智能識別并準(zhǔn)確提取文本、圖像、表格、數(shù)學(xué)公式等各種類型的內(nèi)容。通過統(tǒng)一的結(jié)構(gòu)化建模方式,實現(xiàn)了從文檔解析、語義理解、知識構(gòu)建到智能問答的全流程自動化,徹底解決了傳統(tǒng)多工具拼接造成的信息丟失和效率低下問題。

2. 豐富的文件格式支持

系統(tǒng)原生兼容PDF、Microsoft Office套件(Word/Excel/PowerPoint)、常見圖像格式(JPG/PNG/TIFF)以及Markdown、純文本等10多種主流文檔格式。內(nèi)置的智能格式檢測和標(biāo)準(zhǔn)化轉(zhuǎn)換功能,保證不同來源的文檔都能通過統(tǒng)一的處理流程獲得高質(zhì)量的解析效果。

3. 全方位內(nèi)容理解能力

整合了視覺分析、語言理解和結(jié)構(gòu)化數(shù)據(jù)處理技術(shù),能夠深度理解各類內(nèi)容。圖像分析功能可以提取復(fù)雜圖表的語義信息,表格處理能夠準(zhǔn)確識別層次結(jié)構(gòu)和數(shù)據(jù)關(guān)系,LaTeX公式解析確保數(shù)學(xué)表達(dá)式的準(zhǔn)確轉(zhuǎn)換,文本語義建模則提供豐富的上下文理解。

4. 語義關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建

利用圖結(jié)構(gòu)來表達(dá)實體之間的關(guān)系,系統(tǒng)會自動找出文檔里的關(guān)鍵元素,并把不同類型的內(nèi)容連接起來。比如說,它能搞清楚哪張圖對應(yīng)哪段解釋文字、表格里的數(shù)據(jù)和后面的分析結(jié)論有什么關(guān)系、數(shù)學(xué)公式和相關(guān)的理論說明是怎么聯(lián)系的。這樣一來,回答問題的時候就能給出更準(zhǔn)確、邏輯更清晰的答案。

5.開放式組件生態(tài)架構(gòu)

整個系統(tǒng)采用插件式的設(shè)計思路,開發(fā)者可以根據(jù)自己的需要靈活調(diào)整和添加功能模塊。想要升級視覺識別模型、接入特定行業(yè)的文檔處理工具,或者調(diào)整搜索和嵌入的算法,都能通過標(biāo)準(zhǔn)化的接口輕松搞定。這樣設(shè)計的好處是系統(tǒng)能夠跟上技術(shù)的發(fā)展步伐,也能靈活應(yīng)對各種業(yè)務(wù)場景的變化需求。

RAG-Anything系統(tǒng)架構(gòu)

RAG-Anything采用了創(chuàng)新的三階段技術(shù)架構(gòu),解決了傳統(tǒng)RAG系統(tǒng)在處理多模態(tài)文檔時的技術(shù)難題,真正實現(xiàn)了端到端的智能化處理。

多模態(tài)文檔解析階段:多模態(tài)解析引擎可以處理PDF、Office、圖像等各種格式的文檔,包括文本提取、圖像分析、公式識別和表格解析四個關(guān)鍵功能模塊。

跨模態(tài)知識構(gòu)建階段:通過實體關(guān)系抽取和多模態(tài)融合技術(shù),構(gòu)建跨模態(tài)知識圖譜,建立統(tǒng)一的圖譜表示和向量數(shù)據(jù)庫。

檢索生成階段:結(jié)合圖譜檢索和向量檢索的優(yōu)勢,通過大型語言模型生成準(zhǔn)確的回答。整個系統(tǒng)采用模塊化設(shè)計,具備很強(qiáng)的可擴(kuò)展性和靈活性。

圖片

RAG-Anything多模態(tài)理解能力

(1) 視覺內(nèi)容分析:集成視覺大模型,自動生成高質(zhì)量的圖像描述,準(zhǔn)確提取圖表中的數(shù)據(jù)關(guān)系和視覺要素。面向統(tǒng)計圖表以及示意圖,系統(tǒng)都能理解其中的關(guān)鍵信息和表達(dá)意圖。

(2)表格智能解析:理解表格的層次結(jié)構(gòu),自動識別表頭關(guān)系、數(shù)據(jù)類型和邏輯聯(lián)系,提煉數(shù)據(jù)趨勢和統(tǒng)計規(guī)律。即使面對多層嵌套的復(fù)雜表格,系統(tǒng)也能準(zhǔn)確把握每個數(shù)據(jù)單元的含義和相互關(guān)系。

(3)數(shù)學(xué)公式理解:識別LaTeX格式的數(shù)學(xué)表達(dá)式,分析變量含義、公式結(jié)構(gòu)和適用場景。系統(tǒng)不僅能識別公式本身,還能理解公式在特定上下文中的作用和意義。

(4)擴(kuò)展模態(tài)支持:支持流程圖、代碼片段、地理信息等專業(yè)內(nèi)容的智能識別和語義建模。這種可擴(kuò)展的設(shè)計讓系統(tǒng)能夠適應(yīng)各種專業(yè)領(lǐng)域的特殊需求。

不同類型的內(nèi)容都會通過統(tǒng)一的知識表示框架整合在一起,從而實現(xiàn)跨模態(tài)的語義理解和關(guān)聯(lián)分析。

統(tǒng)一知識圖譜構(gòu)建

RAG-Anything將多模態(tài)內(nèi)容統(tǒng)一建模為結(jié)構(gòu)化知識圖譜,突破傳統(tǒng)文檔處理的信息孤島問題。

(1)實體化建模:將文本段落、圖表數(shù)據(jù)、數(shù)學(xué)公式等異構(gòu)內(nèi)容統(tǒng)一抽象為知識實體,保留完整的內(nèi)容信息、來源標(biāo)識和類型屬性。

(2)智能關(guān)系構(gòu)建:通過語義分析技術(shù),自動識別段落間的邏輯關(guān)系、圖文間的說明關(guān)系、以及結(jié)構(gòu)化內(nèi)容間的語義聯(lián)系,構(gòu)建多層次的知識關(guān)聯(lián)網(wǎng)絡(luò)。

(3)高效存儲索引:建立圖譜數(shù)據(jù)庫和向量數(shù)據(jù)庫的雙重存儲機(jī)制,支持結(jié)構(gòu)化查詢和語義相似性檢索,為復(fù)雜問答任務(wù)提供強(qiáng)大的知識支撐。

雙重檢索機(jī)制

RAG-Anything 采用雙層次檢索問答機(jī)制,能夠精準(zhǔn)理解復(fù)雜問題并提供多維度的回答。這套機(jī)制既能抓住細(xì)節(jié)信息,又能把握整體語義,提升了系統(tǒng)在多模態(tài)文檔場景下的檢索范圍和生成質(zhì)量。

關(guān)鍵詞分層提取:RAG-Anything 采用雙層次檢索問答機(jī)制,能夠精準(zhǔn)理解復(fù)雜問題并提供多維度的回答。這套機(jī)制既能抓住細(xì)節(jié)信息,又能把握整體語義,大幅提升了系統(tǒng)在多模態(tài)文檔場景下的檢索范圍和生成質(zhì)量。

在關(guān)鍵詞提取層面,系統(tǒng)會同時進(jìn)行細(xì)粒度關(guān)鍵詞和概念級關(guān)鍵詞的分層提取。細(xì)粒度關(guān)鍵詞精確定位具體實體、專業(yè)術(shù)語、數(shù)據(jù)點等詳細(xì)信息,概念級關(guān)鍵詞則把握主題脈絡(luò)、分析趨勢、理解抽象概念。

在檢索策略上,系統(tǒng)采用混合檢索方式,通過圖譜結(jié)構(gòu)快速找到相關(guān)的實體節(jié)點,利用圖譜中的關(guān)聯(lián)關(guān)系挖掘潛在信息,從語義層面捕獲相關(guān)內(nèi)容,最終把多個來源的信息整合起來生成準(zhǔn)確的智能回答。通過這種雙層次架構(gòu),系統(tǒng)能夠應(yīng)對從簡單查詢到復(fù)雜推理的各種問題。

快速部署指南

RAG-Anything提供兩種便捷的安裝部署方式,適合不同用戶的技術(shù)需求。建議使用PyPI安裝方式,一鍵就能快速部署,馬上體驗完整的多模態(tài)RAG功能。

安裝方式

選項1:從 PyPI 安裝

pip install raganything

選項2:從源碼安裝

git clone https://github.com/HKUDS/RAG-Anything.git cd RAG-Anything pip install -e .

多場景應(yīng)用模式

RAG-Anything采用模塊化架構(gòu)設(shè)計,提供兩種靈活的使用方式,不管是快速搭建原型還是正式生產(chǎn)部署,都能找到合適的解決方案。

方式一:一鍵式端到端處理

適用場景:處理完整的PDF、Word、PPT等原始文檔,追求零配置、全自動的智能處理。

核心優(yōu)勢:

  • 全流程自動化:從文檔上傳到智能問答,無需人工干預(yù)
  • 智能結(jié)構(gòu)識別:自動檢測標(biāo)題層次、段落結(jié)構(gòu)、圖像位置、表格布局、數(shù)學(xué)公式
  • 深度內(nèi)容理解:多模態(tài)內(nèi)容的語義分析和向量化表示
  • 知識圖譜自構(gòu)建:自動生成結(jié)構(gòu)化知識網(wǎng)絡(luò)和檢索索引

技術(shù)流程:原始文檔 → 智能解析 → 多模態(tài)理解 → 知識圖譜構(gòu)建 → 智能問答

示例代碼:

import asyncio
from raganything import RAGAnything
from lightrag.llm.openai import openai_complete_if_cache, openai_embed
async def main():
    rag = RAGAnything(
        working_dir="./rag_storage",
        llm_model_func=...,          # LLM
        vision_model_func=...,       # VLM
        embedding_func=...,          # 嵌入模型
        embedding_dim=3072,
        max_token_size=8192
    )
    # 處理文檔并構(gòu)建圖譜
    await rag.process_document_complete(
        file_path="your_document.pdf",
        output_dir="./output"
    )
    # 多模態(tài)問答查詢
    result = await rag.query_with_multimodal("Could you share insights on the experiment results and the associated data tables?", mode="hybrid")
    print(result)
asyncio.run(main())

方式二:精細(xì)化手動構(gòu)建

適用場景:已有結(jié)構(gòu)化的多模態(tài)內(nèi)容數(shù)據(jù)(圖像、表格、公式等),需要精確控制處理流程和定制化功能擴(kuò)展。

核心優(yōu)勢:

  • 精確控制:手動指定圖像、表格等關(guān)鍵內(nèi)容的處理方式
  • 定制化處理:根據(jù)特定領(lǐng)域需求調(diào)整解析策略
  • 增量構(gòu)建:支持逐步添加和更新多模態(tài)內(nèi)容
  • 專業(yè)優(yōu)化:針對特定文檔類型進(jìn)行深度優(yōu)化

示例代碼:

from lightrag import LightRAG
from raganything.modalprocessors import ImageModalProcessor, TableModalProcessor
# 初始化 LightRAG 系統(tǒng)
rag = LightRAG(working_dir="./rag_storage", ...)
# 處理圖像內(nèi)容
image_processor = ImageModalProcessor(lightrag=rag, modal_caption_func=your_vision_model_func)
image_content = {
    "img_path": "fig1.jpg",
    "img_caption": ["Figure1: RAG-Anything vs Baselines"],
    "img_footnote": [""]
}
description, entity_info = await image_processor.process_multimodal_content(
    modal_cnotallow=image_content,
    content_type="image",
    file_path="RAG-Anything.pdf",
    entity_name="fig1-RAG-Anything vs Baselines"
)
# 處理表格內(nèi)容
table_processor = TableModalProcessor(lightrag=rag, modal_caption_func=your_llm_model_func)
table_content = {
    "table_body": """
    | Methods | Accuracy | F1 |
    |------|--------|--------|
    | RAGAnything | 95.2% | 0.94 |
    | Baseline    | 87.3% | 0.85 |
    """,
    "table_caption": ["Table1: RAG-Anything vs Baselines"],
    "table_footnote": ["Dataset-A"]
}
description, entity_info = await table_processor.process_multimodal_content(
    modal_cnotallow=table_content,
    content_type="table",
    file_path="RAG-Anything.pdf",
    entity_name="tab1-RAG-Anything vs Baselines"
)

技術(shù)演進(jìn)與應(yīng)用拓展

RAG-Anything在推理能力上還有不少改進(jìn)空間,比如讓系統(tǒng)能夠進(jìn)行更復(fù)雜的邏輯分析,處理跨模態(tài)信息的深層關(guān)聯(lián),甚至可以嘗試加入推理過程的可視化展示和證據(jù)追蹤功能。在具體應(yīng)用場景中,也有很多有趣的方向可以探索,像是更準(zhǔn)確地解析學(xué)術(shù)論文里的復(fù)雜圖表、自動提取財務(wù)報表中的關(guān)鍵數(shù)據(jù)、識別工程圖紙的結(jié)構(gòu)細(xì)節(jié),或者幫助整理醫(yī)療文檔中的重要信息。

另一個值得關(guān)注的是,RAG-Anything作為構(gòu)建智能Agent的基礎(chǔ)技術(shù),可以為各種AI應(yīng)用提供強(qiáng)大的多模態(tài)處理能力。如何讓Agent更聰明地理解現(xiàn)實世界的復(fù)雜信息,在真實的業(yè)務(wù)場景中派上用場,這些都是很有挑戰(zhàn)性的技術(shù)問題。隨著這些技術(shù)的逐步完善,開發(fā)者應(yīng)該能夠更輕松地打造出符合自己需求的智能工具。

項目地址:https://github.com/HKUDS/RAG-Anything
實驗室主頁: https://sites.google.com/view/chaoh

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-30 13:57:59

開源模型AI

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2024-01-11 16:24:12

人工智能RAG

2009-09-07 23:09:17

2020-02-26 15:28:42

數(shù)據(jù)分析分析系統(tǒng)數(shù)據(jù)

2014-12-16 08:40:33

華為

2017-04-28 09:05:55

YOYO移動

2009-07-02 09:32:00

2009-12-03 15:34:41

Suse Linux

2011-05-24 09:26:02

有線無線3G

2009-08-17 22:32:25

IT運(yùn)維管理監(jiān)控運(yùn)維一體化摩卡

2013-08-30 09:36:34

中間件虛擬化

2024-12-20 09:39:05

2016-04-19 15:27:52

2017-03-30 10:37:30

烽火

2011-08-12 10:11:31

Oracle戰(zhàn)略

2013-06-14 15:24:01

點贊
收藏

51CTO技術(shù)棧公眾號