偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全模態(tài)RAG突破文本局限，港大構(gòu)建跨模態(tài)一體化系統(tǒng)

2025-06-26 15:11:41

人工智能新聞

香港大學(xué)黃超教授團(tuán)隊開源多模態(tài)智能處理系統(tǒng)RAG-Anything，將碎片化的信息孤島轉(zhuǎn)化為結(jié)構(gòu)化的知識網(wǎng)絡(luò)，為智能多模態(tài)文檔分析開辟了全新技術(shù)路徑。

突破傳統(tǒng)檢索增強(qiáng)生成（RAG）技術(shù)的單一文本局限，實現(xiàn)對文檔中文字、圖表、表格、公式等復(fù)雜內(nèi)容的統(tǒng)一智能理解。

香港大學(xué)黃超教授團(tuán)隊開源多模態(tài)智能處理系統(tǒng)RAG-Anything，將碎片化的信息孤島轉(zhuǎn)化為結(jié)構(gòu)化的知識網(wǎng)絡(luò)，為智能多模態(tài)文檔分析開辟了全新技術(shù)路徑。

RAG-Anything 是專門針對復(fù)雜多模態(tài)文檔設(shè)計的新一代RAG系統(tǒng)，致力于破解現(xiàn)代信息處理中的多模態(tài)理解難題。

系統(tǒng)整合了多模態(tài)文檔解析、語義理解、知識建模和智能問答等核心能力，能夠同時處理文本敘述、視覺圖表、結(jié)構(gòu)數(shù)據(jù)、數(shù)學(xué)表達(dá)式等多樣化內(nèi)容，構(gòu)建從原始文檔到智能交互的完整自動化流程，為AI應(yīng)用的實際落地提供堅實的技術(shù)支撐。

RAG系統(tǒng)的技術(shù)痛點與發(fā)展趨勢

復(fù)雜多模態(tài)文檔的理解

人工智能正在從只會處理文字發(fā)展到能夠理解多種信息形式，這種變化其實很符合日常工作的實際情況。人們平時接觸的信息很少是純文字的，更多的是包含圖片、表格、圖表的綜合性文檔。這些不同類型的內(nèi)容——文字說明、圖像展示、數(shù)據(jù)分析、邏輯推理等——相互配合，形成了一個完整的信息體系。

在各個專業(yè)領(lǐng)域里，多模態(tài)內(nèi)容早就成為主流的信息傳遞方式。學(xué)術(shù)論文需要用圖表和公式來展示研究成果，教學(xué)材料用圖解讓概念更好理解，財務(wù)報告靠各種圖表來展現(xiàn)數(shù)據(jù)變化，醫(yī)療記錄則包含大量的影像和檢測數(shù)據(jù)。這些視覺化的內(nèi)容和文字說明互相補(bǔ)充，構(gòu)成了完整的專業(yè)知識框架。

面對如此復(fù)雜的信息形態(tài)，傳統(tǒng)的單一文本處理方式已無法滿足現(xiàn)實各類場景的需求。各行業(yè)都迫切需要AI系統(tǒng)具備跨模態(tài)的綜合理解能力，能夠同時解析文字?jǐn)⑹觥D像信息、表格數(shù)據(jù)和數(shù)學(xué)表達(dá)式，并建立它們之間的語義關(guān)聯(lián)，從而為用戶提供準(zhǔn)確、全面的智能分析和問答服務(wù)。

現(xiàn)有RAG系統(tǒng)的技術(shù)瓶頸

雖然檢索增強(qiáng)生成（RAG）技術(shù)在文本問答方面表現(xiàn)不錯，但現(xiàn)有的RAG系統(tǒng)普遍存在明顯的模態(tài)局限。傳統(tǒng)RAG架構(gòu)主要是為純文本內(nèi)容設(shè)計的，包括文本分塊、向量化編碼、相似性檢索等核心模塊，這套技術(shù)棧在處理非文本內(nèi)容時遇到了不少問題：

檢索效果不夠理想：純文本向量沒辦法很好地表達(dá)圖表的視覺含義、表格的結(jié)構(gòu)關(guān)系和公式的數(shù)學(xué)意義。當(dāng)用戶問”圖中的趨勢怎么樣”或”表格里哪個數(shù)據(jù)最大”這類問題時，檢索效果往往不理想。

語義關(guān)聯(lián)的缺失：文檔里的圖文內(nèi)容經(jīng)常相互引用和解釋，但傳統(tǒng)系統(tǒng)建立不了這種跨模態(tài)的語義連接，所以給出的答案常常不夠完整或準(zhǔn)確。

復(fù)雜的工作流：面對包含大量圖表、公式的復(fù)雜文檔，傳統(tǒng)系統(tǒng)需要多個專用工具配合才能處理，整個流程既復(fù)雜又低效，很難適應(yīng)實際應(yīng)用的要求。

RAG-Anything的實際應(yīng)用價值

項目的核心目標(biāo)

RAG-Anything項目就是為了解決前面提到的這些技術(shù)難題而開發(fā)的，目標(biāo)是打造一個完整的多模態(tài)RAG系統(tǒng)，讓傳統(tǒng)RAG在處理復(fù)雜文檔時的各種限制得到有效解決。整個系統(tǒng)采用統(tǒng)一的技術(shù)框架，把多模態(tài)文檔處理從實驗室的概念驗證真正推向可以實際部署的工程化方案。

技術(shù)架構(gòu)的特點

團(tuán)隊設(shè)計了一套端到端的技術(shù)棧，包含文檔解析、內(nèi)容理解、知識構(gòu)建和智能問答等關(guān)鍵功能。在文件支持上，系統(tǒng)可以處理PDF、Office文檔、圖像等主流格式。技術(shù)上實現(xiàn)了跨模態(tài)的統(tǒng)一知識表示和檢索方法，還提供了標(biāo)準(zhǔn)化的API接口和靈活的配置選項。RAG-Anything的定位是作為多模態(tài)AI應(yīng)用的基礎(chǔ)組件，為現(xiàn)有的RAG系統(tǒng)直接提供多模態(tài)文檔處理功能。

RAG-Anything的技術(shù)亮點

RAG-Anything 采用了一系列創(chuàng)新的技術(shù)方案和工程方法，在多模態(tài)文檔處理領(lǐng)域?qū)崿F(xiàn)了顯著提升：

1 一站式多模態(tài)處理流程

團(tuán)隊構(gòu)建了完整的自動化處理管道，從文檔輸入開始，系統(tǒng)就能智能識別并準(zhǔn)確提取文本、圖像、表格、數(shù)學(xué)公式等各種類型的內(nèi)容。通過統(tǒng)一的結(jié)構(gòu)化建模方式，實現(xiàn)了從文檔解析、語義理解、知識構(gòu)建到智能問答的全流程自動化，徹底解決了傳統(tǒng)多工具拼接造成的信息丟失和效率低下問題。

2. 豐富的文件格式支持

系統(tǒng)原生兼容PDF、Microsoft Office套件（Word/Excel/PowerPoint）、常見圖像格式（JPG/PNG/TIFF）以及Markdown、純文本等10多種主流文檔格式。內(nèi)置的智能格式檢測和標(biāo)準(zhǔn)化轉(zhuǎn)換功能，保證不同來源的文檔都能通過統(tǒng)一的處理流程獲得高質(zhì)量的解析效果。

3. 全方位內(nèi)容理解能力

整合了視覺分析、語言理解和結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)，能夠深度理解各類內(nèi)容。圖像分析功能可以提取復(fù)雜圖表的語義信息，表格處理能夠準(zhǔn)確識別層次結(jié)構(gòu)和數(shù)據(jù)關(guān)系，LaTeX公式解析確保數(shù)學(xué)表達(dá)式的準(zhǔn)確轉(zhuǎn)換，文本語義建模則提供豐富的上下文理解。

4. 語義關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建

利用圖結(jié)構(gòu)來表達(dá)實體之間的關(guān)系，系統(tǒng)會自動找出文檔里的關(guān)鍵元素，并把不同類型的內(nèi)容連接起來。比如說，它能搞清楚哪張圖對應(yīng)哪段解釋文字、表格里的數(shù)據(jù)和后面的分析結(jié)論有什么關(guān)系、數(shù)學(xué)公式和相關(guān)的理論說明是怎么聯(lián)系的。這樣一來，回答問題的時候就能給出更準(zhǔn)確、邏輯更清晰的答案。

5.開放式組件生態(tài)架構(gòu)

整個系統(tǒng)采用插件式的設(shè)計思路，開發(fā)者可以根據(jù)自己的需要靈活調(diào)整和添加功能模塊。想要升級視覺識別模型、接入特定行業(yè)的文檔處理工具，或者調(diào)整搜索和嵌入的算法，都能通過標(biāo)準(zhǔn)化的接口輕松搞定。這樣設(shè)計的好處是系統(tǒng)能夠跟上技術(shù)的發(fā)展步伐，也能靈活應(yīng)對各種業(yè)務(wù)場景的變化需求。

RAG-Anything系統(tǒng)架構(gòu)

RAG-Anything采用了創(chuàng)新的三階段技術(shù)架構(gòu)，解決了傳統(tǒng)RAG系統(tǒng)在處理多模態(tài)文檔時的技術(shù)難題，真正實現(xiàn)了端到端的智能化處理。

多模態(tài)文檔解析階段：多模態(tài)解析引擎可以處理PDF、Office、圖像等各種格式的文檔，包括文本提取、圖像分析、公式識別和表格解析四個關(guān)鍵功能模塊。

跨模態(tài)知識構(gòu)建階段：通過實體關(guān)系抽取和多模態(tài)融合技術(shù)，構(gòu)建跨模態(tài)知識圖譜，建立統(tǒng)一的圖譜表示和向量數(shù)據(jù)庫。

檢索生成階段：結(jié)合圖譜檢索和向量檢索的優(yōu)勢，通過大型語言模型生成準(zhǔn)確的回答。整個系統(tǒng)采用模塊化設(shè)計，具備很強(qiáng)的可擴(kuò)展性和靈活性。

RAG-Anything多模態(tài)理解能力

(1) 視覺內(nèi)容分析：集成視覺大模型，自動生成高質(zhì)量的圖像描述，準(zhǔn)確提取圖表中的數(shù)據(jù)關(guān)系和視覺要素。面向統(tǒng)計圖表以及示意圖，系統(tǒng)都能理解其中的關(guān)鍵信息和表達(dá)意圖。

(2)表格智能解析：理解表格的層次結(jié)構(gòu)，自動識別表頭關(guān)系、數(shù)據(jù)類型和邏輯聯(lián)系，提煉數(shù)據(jù)趨勢和統(tǒng)計規(guī)律。即使面對多層嵌套的復(fù)雜表格，系統(tǒng)也能準(zhǔn)確把握每個數(shù)據(jù)單元的含義和相互關(guān)系。

(3)數(shù)學(xué)公式理解：識別LaTeX格式的數(shù)學(xué)表達(dá)式，分析變量含義、公式結(jié)構(gòu)和適用場景。系統(tǒng)不僅能識別公式本身，還能理解公式在特定上下文中的作用和意義。

(4)擴(kuò)展模態(tài)支持：支持流程圖、代碼片段、地理信息等專業(yè)內(nèi)容的智能識別和語義建模。這種可擴(kuò)展的設(shè)計讓系統(tǒng)能夠適應(yīng)各種專業(yè)領(lǐng)域的特殊需求。

不同類型的內(nèi)容都會通過統(tǒng)一的知識表示框架整合在一起，從而實現(xiàn)跨模態(tài)的語義理解和關(guān)聯(lián)分析。

統(tǒng)一知識圖譜構(gòu)建

RAG-Anything將多模態(tài)內(nèi)容統(tǒng)一建模為結(jié)構(gòu)化知識圖譜，突破傳統(tǒng)文檔處理的信息孤島問題。

(1)實體化建模：將文本段落、圖表數(shù)據(jù)、數(shù)學(xué)公式等異構(gòu)內(nèi)容統(tǒng)一抽象為知識實體，保留完整的內(nèi)容信息、來源標(biāo)識和類型屬性。

(2)智能關(guān)系構(gòu)建：通過語義分析技術(shù)，自動識別段落間的邏輯關(guān)系、圖文間的說明關(guān)系、以及結(jié)構(gòu)化內(nèi)容間的語義聯(lián)系，構(gòu)建多層次的知識關(guān)聯(lián)網(wǎng)絡(luò)。

(3)高效存儲索引：建立圖譜數(shù)據(jù)庫和向量數(shù)據(jù)庫的雙重存儲機(jī)制，支持結(jié)構(gòu)化查詢和語義相似性檢索，為復(fù)雜問答任務(wù)提供強(qiáng)大的知識支撐。

雙重檢索機(jī)制

RAG-Anything 采用雙層次檢索問答機(jī)制，能夠精準(zhǔn)理解復(fù)雜問題并提供多維度的回答。這套機(jī)制既能抓住細(xì)節(jié)信息，又能把握整體語義，提升了系統(tǒng)在多模態(tài)文檔場景下的檢索范圍和生成質(zhì)量。

關(guān)鍵詞分層提取：RAG-Anything 采用雙層次檢索問答機(jī)制，能夠精準(zhǔn)理解復(fù)雜問題并提供多維度的回答。這套機(jī)制既能抓住細(xì)節(jié)信息，又能把握整體語義，大幅提升了系統(tǒng)在多模態(tài)文檔場景下的檢索范圍和生成質(zhì)量。

在關(guān)鍵詞提取層面，系統(tǒng)會同時進(jìn)行細(xì)粒度關(guān)鍵詞和概念級關(guān)鍵詞的分層提取。細(xì)粒度關(guān)鍵詞精確定位具體實體、專業(yè)術(shù)語、數(shù)據(jù)點等詳細(xì)信息，概念級關(guān)鍵詞則把握主題脈絡(luò)、分析趨勢、理解抽象概念。

在檢索策略上，系統(tǒng)采用混合檢索方式，通過圖譜結(jié)構(gòu)快速找到相關(guān)的實體節(jié)點，利用圖譜中的關(guān)聯(lián)關(guān)系挖掘潛在信息，從語義層面捕獲相關(guān)內(nèi)容，最終把多個來源的信息整合起來生成準(zhǔn)確的智能回答。通過這種雙層次架構(gòu)，系統(tǒng)能夠應(yīng)對從簡單查詢到復(fù)雜推理的各種問題。

快速部署指南

RAG-Anything提供兩種便捷的安裝部署方式，適合不同用戶的技術(shù)需求。建議使用PyPI安裝方式，一鍵就能快速部署，馬上體驗完整的多模態(tài)RAG功能。

安裝方式

選項1：從 PyPI 安裝

pip install raganything

選項2：從源碼安裝

git clone https://github.com/HKUDS/RAG-Anything.git cd RAG-Anything pip install -e .

多場景應(yīng)用模式

RAG-Anything采用模塊化架構(gòu)設(shè)計，提供兩種靈活的使用方式，不管是快速搭建原型還是正式生產(chǎn)部署，都能找到合適的解決方案。

方式一：一鍵式端到端處理

適用場景：處理完整的PDF、Word、PPT等原始文檔，追求零配置、全自動的智能處理。

核心優(yōu)勢：

全流程自動化：從文檔上傳到智能問答，無需人工干預(yù)
智能結(jié)構(gòu)識別：自動檢測標(biāo)題層次、段落結(jié)構(gòu)、圖像位置、表格布局、數(shù)學(xué)公式
深度內(nèi)容理解：多模態(tài)內(nèi)容的語義分析和向量化表示
知識圖譜自構(gòu)建：自動生成結(jié)構(gòu)化知識網(wǎng)絡(luò)和檢索索引

技術(shù)流程：原始文檔 → 智能解析 → 多模態(tài)理解 → 知識圖譜構(gòu)建 → 智能問答

示例代碼：

import asyncio
from raganything import RAGAnything
from lightrag.llm.openai import openai_complete_if_cache, openai_embed
async def main():
    rag = RAGAnything(
        working_dir="./rag_storage",
        llm_model_func=...,          # LLM
        vision_model_func=...,       # VLM
        embedding_func=...,          # 嵌入模型
        embedding_dim=3072,
        max_token_size=8192
    )
    # 處理文檔并構(gòu)建圖譜
    await rag.process_document_complete(
        file_path="your_document.pdf",
        output_dir="./output"
    )
    # 多模態(tài)問答查詢
    result = await rag.query_with_multimodal("Could you share insights on the experiment results and the associated data tables?", mode="hybrid")
    print(result)
asyncio.run(main())

方式二：精細(xì)化手動構(gòu)建

適用場景：已有結(jié)構(gòu)化的多模態(tài)內(nèi)容數(shù)據(jù)（圖像、表格、公式等），需要精確控制處理流程和定制化功能擴(kuò)展。

核心優(yōu)勢：

精確控制：手動指定圖像、表格等關(guān)鍵內(nèi)容的處理方式
定制化處理：根據(jù)特定領(lǐng)域需求調(diào)整解析策略
增量構(gòu)建：支持逐步添加和更新多模態(tài)內(nèi)容
專業(yè)優(yōu)化：針對特定文檔類型進(jìn)行深度優(yōu)化

示例代碼：

from lightrag import LightRAG
from raganything.modalprocessors import ImageModalProcessor, TableModalProcessor
# 初始化 LightRAG 系統(tǒng)
rag = LightRAG(working_dir="./rag_storage", ...)
# 處理圖像內(nèi)容
image_processor = ImageModalProcessor(lightrag=rag, modal_caption_func=your_vision_model_func)
image_content = {
    "img_path": "fig1.jpg",
    "img_caption": ["Figure1: RAG-Anything vs Baselines"],
    "img_footnote": [""]
}
description, entity_info = await image_processor.process_multimodal_content(
    modal_cnotallow=image_content,
    content_type="image",
    file_path="RAG-Anything.pdf",
    entity_name="fig1-RAG-Anything vs Baselines"
)
# 處理表格內(nèi)容
table_processor = TableModalProcessor(lightrag=rag, modal_caption_func=your_llm_model_func)
table_content = {
    "table_body": """
    | Methods | Accuracy | F1 |
    |------|--------|--------|
    | RAGAnything | 95.2% | 0.94 |
    | Baseline    | 87.3% | 0.85 |
    """,
    "table_caption": ["Table1: RAG-Anything vs Baselines"],
    "table_footnote": ["Dataset-A"]
}
description, entity_info = await table_processor.process_multimodal_content(
    modal_cnotallow=table_content,
    content_type="table",
    file_path="RAG-Anything.pdf",
    entity_name="tab1-RAG-Anything vs Baselines"
)

技術(shù)演進(jìn)與應(yīng)用拓展

RAG-Anything在推理能力上還有不少改進(jìn)空間，比如讓系統(tǒng)能夠進(jìn)行更復(fù)雜的邏輯分析，處理跨模態(tài)信息的深層關(guān)聯(lián)，甚至可以嘗試加入推理過程的可視化展示和證據(jù)追蹤功能。在具體應(yīng)用場景中，也有很多有趣的方向可以探索，像是更準(zhǔn)確地解析學(xué)術(shù)論文里的復(fù)雜圖表、自動提取財務(wù)報表中的關(guān)鍵數(shù)據(jù)、識別工程圖紙的結(jié)構(gòu)細(xì)節(jié)，或者幫助整理醫(yī)療文檔中的重要信息。

另一個值得關(guān)注的是，RAG-Anything作為構(gòu)建智能Agent的基礎(chǔ)技術(shù)，可以為各種AI應(yīng)用提供強(qiáng)大的多模態(tài)處理能力。如何讓Agent更聰明地理解現(xiàn)實世界的復(fù)雜信息，在真實的業(yè)務(wù)場景中派上用場，這些都是很有挑戰(zhàn)性的技術(shù)問題。隨著這些技術(shù)的逐步完善，開發(fā)者應(yīng)該能夠更輕松地打造出符合自己需求的智能工具。

項目地址：https://github.com/HKUDS/RAG-Anything
實驗室主頁: https://sites.google.com/view/chaoh

責(zé)任編輯：張燕妮來源：量子位

AI 模型自動化

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營