偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="6wctt"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG

知識圖譜科技

發(fā)布于 2024-12-31 13:37

瀏覽

0收藏

數(shù)據(jù)是現(xiàn)代企業(yè)的命脈，為從創(chuàng)新到戰(zhàn)略決策的方方面面提供動力。然而，隨著組織積累的信息量不斷增長（從技術(shù)文檔到內(nèi)部通信），他們面臨著一項艱巨的挑戰(zhàn)：如何從海量的非結(jié)構(gòu)化數(shù)據(jù)中提取有意義的見解和可操作的結(jié)構(gòu)。

檢索增強(qiáng)生成（RAG）已成為一種流行的解決方案，它通過集成相關(guān)的企業(yè)數(shù)據(jù)來增強(qiáng) AI 生成的響應(yīng)。雖然傳統(tǒng)的 RAG 方法對簡單的查詢有效，但在解決需要推理和交叉引用的復(fù)雜、多層次問題時，往往無法滿足要求。

問題在于：簡單的向量搜索可以檢索數(shù)據(jù)，但通常無法提供復(fù)雜推理所需的細(xì)微上下文。即使是多查詢 RAG、查詢增強(qiáng)和混合檢索等高級技術(shù)，也難以解決需要中間推理步驟或跨數(shù)據(jù)類型復(fù)雜連接的任務(wù)。

本文探討了如何將大型語言模型（LLM）的強(qiáng)大功能與知識圖譜相結(jié)合來應(yīng)對這些挑戰(zhàn)，使企業(yè)能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換為結(jié)構(gòu)化、互連的實(shí)體。這種集成增強(qiáng)了推理能力，提高了準(zhǔn)確性，并減少了幻覺：這是傳統(tǒng) RAG 系統(tǒng)無法解決的問題。

本文涵蓋以下方面：

LLM 生成的知識圖譜如何改進(jìn) RAG 技術(shù)。
構(gòu)建這些圖形的技術(shù)流程，包括使用 cuGraph 進(jìn)行 GPU 加速。
對高級 RAG 方法的比較評估，以突出優(yōu)勢和實(shí)際應(yīng)用：

VectorRAG

GraphRAG

HybridRAG (vectorRAG和graphRAG集成)

借助 LLM 驅(qū)動的知識圖譜，企業(yè)可以獲得更深入的見解、簡化運(yùn)營并獲得競爭優(yōu)勢。

了解知識圖譜

知識圖譜是信息的結(jié)構(gòu)化表示形式，由實(shí)體（節(jié)點(diǎn)）、屬性以及它們之間的關(guān)系組成。通過在大量數(shù)據(jù)集之間創(chuàng)建連接，知識圖譜可以更直觀、更強(qiáng)大地探索數(shù)據(jù)。

大規(guī)模知識圖譜的突出示例包括 DBpedia – Wikipedia、LinkedIn 和 Facebook 等平臺使用的社交網(wǎng)絡(luò)圖譜，或 Google 搜索創(chuàng)建的知識面板。

Google 率先使用知識圖譜來更好地了解現(xiàn)實(shí)世界的實(shí)體及其相互聯(lián)系。這項創(chuàng)新通過多跳查詢等技術(shù)顯著提高了搜索準(zhǔn)確性和高級內(nèi)容探索。

Microsoft 通過 GraphRAG 擴(kuò)展了這一概念，展示了 LLM 生成的知識圖譜如何通過減少幻覺和實(shí)現(xiàn)對整個數(shù)據(jù)集的推理來增強(qiáng) RAG。這種方法使 AI 系統(tǒng)能夠通過圖形機(jī)器學(xué)習(xí)來發(fā)現(xiàn)數(shù)據(jù)中的關(guān)鍵主題和關(guān)系。??重磅 - 微軟官宣正式在GitHub開源GraphRAG??

知識圖譜對于解決復(fù)雜問題和解鎖各個行業(yè)和用例的見解已成為不可或缺的工具：

醫(yī)療保健：通過繪制醫(yī)學(xué)知識、患者記錄和治療途徑，實(shí)現(xiàn)高級研究和明智的決策。
推薦系統(tǒng) ：通過將用戶偏好與相關(guān)產(chǎn)品、服務(wù)或內(nèi)容聯(lián)系起來，提供個性化體驗(yàn)，從而豐富用戶體驗(yàn)。
搜索引擎：提高搜索結(jié)果的準(zhǔn)確性和相關(guān)性，正如 2012 年 Google 對知識圖譜的集成所證明的那樣，它徹底改變了信息的傳遞方式。
社交網(wǎng)絡(luò) ：支持社交圖譜分析，以建議有意義的聯(lián)系、發(fā)現(xiàn)趨勢并提高 LinkedIn 和 Facebook 等平臺上的用戶參與度。
財務(wù) ：通過分析交易圖表和識別財務(wù)數(shù)據(jù)中的隱藏關(guān)系，檢測欺詐活動并發(fā)現(xiàn)見解。
學(xué)術(shù)研究：通過連接科學(xué)出版物和研究數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)，促進(jìn)復(fù)雜的查詢并發(fā)現(xiàn)新的見解。

通過構(gòu)建和鏈接不同領(lǐng)域的數(shù)據(jù)，知識圖譜為 AI 系統(tǒng)提供了高級推理功能，從而為復(fù)雜的行業(yè)挑戰(zhàn)提供更精確、上下文感知的解決方案。

?構(gòu)建 LLM 生成的知識圖譜的高級技術(shù)和最佳實(shí)踐?

在現(xiàn)代 LLM 興起之前（可以稱為前 ChatGPT 時代），知識圖譜是使用傳統(tǒng)的自然語言處理（NLP）技術(shù)構(gòu)建的。此過程通常包括三個主要步驟：

命名實(shí)體識別（NER）
實(shí)體鏈接
關(guān)系提取（RE）

這些方法在很大程度上依賴于詞性（PoS）標(biāo)記、廣泛的文本預(yù)處理和啟發(fā)式規(guī)則來準(zhǔn)確捕獲語義和關(guān)系。雖然有效，但這些方法是勞動密集型的，并且通常需要大量的人工干預(yù)。

今天，指令微調(diào)的 LLM 徹底改變了這一過程。通過將文本拆分為塊并使用 LLM 根據(jù)用戶定義的提示提取實(shí)體和關(guān)系，企業(yè)現(xiàn)在可以更輕松、更高效地自動創(chuàng)建知識圖譜。

但是，構(gòu)建強(qiáng)大而準(zhǔn)確的基于 LLM 的知識圖譜仍然需要仔細(xì)注意某些關(guān)鍵方面：

架構(gòu)或本體定義：數(shù)據(jù)之間的關(guān)系通常必須受特定用例或域的約束。這是通過架構(gòu)或本體實(shí)現(xiàn)的，它為構(gòu)建圖形提供了正式的語義規(guī)則。定義完善的架構(gòu)為每個實(shí)體指定類、類別、關(guān)系和屬性，從而確保一致性和相關(guān)性。
實(shí)體一致性：保持一致的實(shí)體表示形式對于避免重復(fù)或不一致至關(guān)重要。例如，America、USA、US 和 United States 應(yīng)映射到同一節(jié)點(diǎn)。形式語義和消歧技術(shù)可以顯著減少這些問題，但可能仍需要額外的驗(yàn)證。
強(qiáng)制結(jié)構(gòu)化輸出：確保 LLM 輸出符合預(yù)定義的結(jié)構(gòu)對于可用性至關(guān)重要。有兩種主要方法可以實(shí)現(xiàn)此目的：

后處理：如果 LLM 未以所需格式輸出數(shù)據(jù)，則必須手動處理響應(yīng)以滿足所需的結(jié)構(gòu)。
使用 JSON 模式或函數(shù)調(diào)用：某些 LLM 提供將其輸出限制為特定格式（如 JSON）的功能。當(dāng)本機(jī)支持不可用時，微調(diào)可以通過持續(xù)的基于指令的訓(xùn)練來訓(xùn)練模型以生成 JSON 輸出。

通過解決這些注意事項并適當(dāng)?shù)匚⒄{(diào)模型，企業(yè)可以使用 LLM 生成的知識圖譜來構(gòu)建強(qiáng)大、準(zhǔn)確且可擴(kuò)展的數(shù)據(jù)表示形式。這些圖表為高級 AI 應(yīng)用程序解鎖了新的可能性，從而獲得更深入的見解并增強(qiáng)決策能力。

LLM 生成的知識圖譜的實(shí)驗(yàn)設(shè)置

為了演示使用 LLM 創(chuàng)建知識圖譜，我們開發(fā)了一個結(jié)合 NVIDIA NeMo、LoRA 和 NVIDIA NIM 微服務(wù)的優(yōu)化實(shí)驗(yàn)工作流程（圖 1 ）。此設(shè)置可以有效地生成 LLM 驅(qū)動的知識圖譜，并為企業(yè)用例提供可擴(kuò)展的解決方案。

“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG-AI.x社區(qū)

圖 1.NIM 微服務(wù)加速的 GraphRAG 工作流

數(shù)據(jù)采集

在這個實(shí)驗(yàn)中，我們使用了來自 arXiv 的學(xué)術(shù)研究數(shù)據(jù)集，其中包含豐富的元數(shù)據(jù)，例如文章來源、作者詳細(xì)信息、出版日期和隨附的圖像。為了促進(jìn)復(fù)制，我們在 GitHub 上提供了開源代碼，包括用于下載特定領(lǐng)域樣本研究論文的腳本。

知識圖譜創(chuàng)建

該過程使用了 Llama-3 70B NIM 模型，并帶有從文本塊中提取實(shí)體關(guān)系三元組的詳細(xì)提示。雖然初始模型的性能相當(dāng)不錯，但某些輸出不準(zhǔn)確。

為了解決這個問題，我們使用 NVIDIA NeMo 框架和低秩自適應(yīng) （LoRA）微調(diào)了一個較小的模型 Llama3-8B ，從而進(jìn)一步優(yōu)化了。Mixtral-8x7B 生成了用于微調(diào)的三元組數(shù)據(jù)，與較大的模型相比，這提高了準(zhǔn)確性、減少了延遲并降低了推理成本。

該過程將生成的三元組解析為 Python 列表或字典，并將它們索引到圖形數(shù)據(jù)庫中。通過以下優(yōu)化解決了格式不正確的三元組（例如，缺少標(biāo)點(diǎn)符號或括號）等難題：

增強(qiáng)的解析功能：使用具有改進(jìn)文本處理的最新 LLM 模型。
Fine-tuning for triplet extraction ：添加說明以規(guī)范標(biāo)點(diǎn)符號并確保實(shí)體格式的一致性。
Re-prompting ：通過提示 LLM 進(jìn)行精細(xì)響應(yīng)來糾正格式錯誤的輸出，從而顯著提高準(zhǔn)確性。

精度比較

為了評估不同模型和方法對三元體提取的有效性，我們在 100 個新聞文檔的測試集上比較了它們的準(zhǔn)確性。結(jié)果突出了通過微調(diào)和優(yōu)化實(shí)現(xiàn)的性能改進(jìn)。

請考慮以下示例段落：

?`?”Exxon Mobil, Royal Dutch Shell, Total and their peers are set to cut spending on oil and gas exploration for a fifth year in a row in 2018, according to consultancy Wood Mackenzie (WoodMac), despite a growing urgency to replenish reserves after years of reining back investment.”?`?

在對 Llama-3-8B 模型進(jìn)行微調(diào)之前，提取的三元組不完整，導(dǎo)致后處理函數(shù)解析時出現(xiàn)錯誤。

?`?[('Exxon Mobil', 'ORG', 'Announce', 'Cut Spending', 'EVENT'),('Exxon Mobil', 'ORG', 'Operate_In', 'Oil and Gas Exploration', 'FIELD'),`? ?`?('Exxon Mobil', 'ORG', 'Control', 'Oil and Gas Exploration', 'FIELD'),?`? ('Royal Dutch Shell', 'ORG', 'Announce', 'Cut Spending', 'EVENT'), ('Royal Dutch Shell', 'ORG', 'Operate_In', 'Oil and Gas Exploration', 'FIELD')]'

微調(diào)后，該模型在完成率和準(zhǔn)確性方面表現(xiàn)出顯著提高。精煉后的三元組更精確，更符合文本的上下文：

?`?[['Exxon Mobil', 'COMP', 'Cut', 'Spending on oil and gas exploration', 'ACTIVITY'], ['Royal Dutch Shell', 'COMP', 'Cut', 'Spending on oil and gas exploration', 'ACTIVITY'],`? ['Total', 'COMP', 'Cut', 'Spending on oil and gas exploration', 'ACTIVITY'], ['World’s top oil companies', 'ORG', 'Hesitate', 'Accelerate the search for new resources', 'ACTIVITY']]

“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG-AI.x社區(qū)

圖 2.從 100 個新聞文檔中預(yù)測三元組的不同模型和方法的準(zhǔn)確性比較

用于三元組提取的代碼和架構(gòu)

下面是一個 /NVIDIA/GenerativeAIExamples 代碼示例，展示了用于三元組提取的架構(gòu)和方法：

?`?def?`?? ?`?process_response(triplets_str):?`? ?`?triplets_list ?`??`?=?`?? ?`?ast.literal_eval(triplets_str)?`? ?`?json_triplets ?`??`?=?`?? ?`?[] ?`? ?`?for?`?? ?`?triplet ?`??`?in?`?? ?`?triplets_list:?`??`?try?`??`?:?`? ?`?subject, subject_type, relation, ?`??`?object?`??`?, object_type ?`??`?=?`?? ?`?triplet?`??`?json_triplet ?`??`?=?`??`?{?`? ?`?"subject"?`??`?: subject,?`??`?"subject_type"?`??`?: subject_type,?`? ?`?"relation"?`??`?: relation,?`??`?"object"?`??`?: ?`??`?object?`??`?,?`? ?`?"object_type"?`??`?: object_type?`? ?`?}?`? ?`?json_triplets.append(json_triplet)?`? ?`?except?`?? ?`?ValueError:?`??`?# Skip the malformed triplet and continue with the next one continue?`? ?`?return?`?? ?`?json_triplets?`? ?`?def?`?? ?`?extract_triples(text, llm):?`??`?prompt ?`??`?=?`??`?ChatPromptTemplate.from_messages(?`? ?`?[(?`??`?"system"?`??`?, ?`??`?"""Note that the entities should not be generic, numerical, or temporal (like dates or percentages). Entities must be classified into the following categories:?`? - ORG: Organizations other than government or regulatory bodies - ORG/GOV: Government bodies (e.g., "United States Government") - ORG/REG: Regulatory bodies (e.g., "Food and Drug Administration") - PERSON: Individuals (e.g., "Marie Curie") - GPE: Geopolitical entities such as countries, cities, etc. (e.g., "Germany") - INSTITUTION: Academic or research institutions (e.g., "Harvard University") - PRODUCT: Products or services (e.g., "CRISPR technology") - EVENT: Specific and Material Events (e.g., "Nobel Prize", "COVID-19 pandemic") - FIELD: Academic fields or disciplines (e.g., "Quantum Physics") - METRIC: Research metrics or indicators (e.g., "Impact Factor"), numerical values like "10%" is not a METRIC; - TOOL: Research tools or methods (e.g., "Gene Sequencing", "Surveys") - CONCEPT: Abstract ideas or notions or themes (e.g., "Quantum Entanglement", "Climate Change") ?`?The relationships 'r' between these entities must be represented by one of the following relation verbs set: Has, Announce, Operate_In, Introduce, Produce, Control, Participates_In, Impact, Positive_Impact_On, Negative_Impact_On, Relate_To, Is_Member_Of, Invests_In, Raise, Decrease.` ? ?`?Remember to conduct entity disambiguation, consolidating different phrases or acronyms that refer to the same entity (for instance, "MIT" and "Massachusetts Institute of Technology" should be unified as "MIT"). Simplify each entity of the triplet to be less than four words. However, always make sure it is a sensible entity name and not a single letter or NAN value.` ? ??From this text, your output Must be in python list of tuple with each tuple made up of ['h', 'type', 'r', 'o', 'type'], each element of the tuple is the string, where the relationship 'r' must be in the given relation verbs set above. Only output the list. As an Example, consider the following news excerpt: Input :'Apple Inc. is set to introduce the new iPhone 14 in the technology sector this month. The product's release is likely to positively impact Apple's stock value.'? ??OUTPUT : ```?? ?`?[('Apple Inc.', 'COMP', 'Introduce', 'iPhone 14', 'PRODUCT'),?`? ?`?('Apple Inc.', 'COMP', 'Operate_In', 'Technology Sector', 'SECTOR'),?`? ?`?('iPhone 14', 'PRODUCT', 'Positive_Impact_On', 'Apple's Stock Value', 'FIN_INSTRUMENT')]?`? ??```?? ?`?The output structure must not be anything apart from above OUTPUT structure. NEVER REPLY WITH any element as NAN. Just leave out the triple if you think it's not worth including or does not have an object. Do not provide ANY additional explanations, if it's not a Python parseable list of tuples, you will be penalized severely. Make the best possible decisions given the context."""?`??`?), ("user?`??`?", "?`??`?{?`??`?input?`??`?}")])?`??`?chain ?`??`?=?`??`?prompt \| llm \| StrOutputParser()?`? ?`?response ?`??`?=?`??`?chain.invoke({?`??`?"input"?`??`?: text})?`? ?`?print?`??`?(response)?`? ?`?return?`??`?process_response(response)?`?

這種結(jié)構(gòu)化方法確保了更清晰、更準(zhǔn)確的三聯(lián)體提取。

優(yōu)化推理

為了擴(kuò)展數(shù)千個文檔塊的工作流程，我們執(zhí)行了以下優(yōu)化：

Converted model weights ：將 NeMo 訓(xùn)練的模型權(quán)重轉(zhuǎn)換為 TensorRT-LLM 檢查點(diǎn)。
優(yōu)化的推理引擎：使用 GPU 加速推理以獲得更快的性能。
部署的可擴(kuò)展系統(tǒng)：使用優(yōu)化的模型檢查點(diǎn)實(shí)現(xiàn)高吞吐量推理，顯著提高了大型數(shù)據(jù)集的性能。

通過集成先進(jìn)的 LLM 優(yōu)化技術(shù)和微調(diào)工作流程，我們實(shí)現(xiàn)了高效且可擴(kuò)展的知識圖譜生成，為企業(yè) AI 應(yīng)用程序提供了強(qiáng)大的基礎(chǔ)。

使用 NVIDIA cuGraph 加速知識圖譜，實(shí)現(xiàn)可擴(kuò)展的 AI 工作流

NVIDIA 多年來一直致力于推進(jìn) GPU 上的 AI 工作流，尤其是在圖形神經(jīng)網(wǎng)絡(luò) （GNN）和復(fù)雜數(shù)據(jù)表示等領(lǐng)域?；谶@些專業(yè)知識，NVIDIA RAPIDS 數(shù)據(jù)科學(xué)團(tuán)隊開發(fā)了 cuGraph，這是一個用于圖形分析的 GPU 加速框架。cuGraph 通過實(shí)現(xiàn)可擴(kuò)展的高速圖形操作，顯著提高了 RAG 系統(tǒng)的效率。

在知識圖譜檢索增強(qiáng)生成（KRAG）中，將查詢知識圖譜以檢索相關(guān)信息，從而在文本生成期間增強(qiáng)語言模型的上下文。cuGraph 最短路徑、PageRank 和社區(qū)檢測等高性能算法可快速識別和排序大規(guī)模知識圖譜中的相關(guān)節(jié)點(diǎn)和邊緣。通過這樣做， cuGraph 確保更快、更準(zhǔn)確地檢索上下文相關(guān)信息，從而提高 AI 生成的輸出的質(zhì)量。

cuGraph 特別強(qiáng)大的原因是它與 NetworkX、RAPIDS cuDF 和 cuML 等廣泛使用的開源工具無縫集成。這種集成使您能夠以最少的代碼更改來加速圖形工作流，從而實(shí)現(xiàn)快速采用和即時性能提升。

在我們的開源實(shí)施中，我們使用 cuGraph 通過 NetworkX 加載和管理圖形表示，從而在多 GPU 系統(tǒng)上實(shí)現(xiàn)數(shù)十億個節(jié)點(diǎn)和邊緣的可擴(kuò)展性。cuGraph 還支持高效的圖形查詢和多跳搜索，使其成為處理大型復(fù)雜知識圖譜不可或缺的工具。

深入了解 VectorRAG、GraphRAG 和 HybridRAG

我們對三種 RAG 技術(shù)進(jìn)行了全面的比較分析：VectorRAG、GraphRAG 和 HybridRAG。我們使用 nemotron-340b 獎勵模型來評估他們的輸出質(zhì)量。

評估指標(biāo)

評估側(cè)重于以下關(guān)鍵指標(biāo)，評分范圍為 0 到 4（越高越好）：

Helpfulness：衡量響應(yīng)對提示的處理效果。
正確性：評估是否包含所有相關(guān)事實(shí)，無不準(zhǔn)確之處。
Coherence：評估響應(yīng)中表達(dá)的一致性和清晰度。
復(fù)雜性：確定生成響應(yīng)所需的知識深度（例如，它是否需要深厚的領(lǐng)域?qū)I(yè)知識，還是可以通過基本的語言能力生成）。
Verbosity：分析相對于提示要求提供的詳細(xì)程度。

有關(guān)更多信息，請參閱模型卡。

數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

本研究使用的數(shù)據(jù)集包含從 arXiv 收集的研究論文。真實(shí) （GT）問答對是使用 nemotron-340b 合成數(shù)據(jù)生成模型合成生成的。

包含關(guān)鍵見解的結(jié)果摘要

“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG-AI.x社區(qū)

圖 3.地面實(shí)況 - 長上下文合成對的比較分析

注意：在這種情況下，與純 GraphRAG 相比，HybridRAG 的性能不佳，因?yàn)樵摂?shù)據(jù)集是為多跳推理而綜合設(shè)計的，以突出 GraphRAG 的優(yōu)勢。對于真實(shí)世界的數(shù)據(jù)，HybridRAG 可能會在大多數(shù)情況下提供最佳結(jié)果。

分析揭示了不同技術(shù)之間的顯著性能差異：

正確性：GraphRAG 在正確性方面表現(xiàn)出色，提供了高度準(zhǔn)確且忠實(shí)于源數(shù)據(jù)的響應(yīng)。
整體表現(xiàn) ：GraphRAG 在所有指標(biāo)上都表現(xiàn)出卓越的表現(xiàn)，提供準(zhǔn)確、連貫且與上下文一致的響應(yīng)。它的優(yōu)勢在于使用關(guān)系上下文進(jìn)行更豐富的信息檢索，這使得它對于需要高準(zhǔn)確性的數(shù)據(jù)集特別有效。
HybridRAG 的潛力：根據(jù)數(shù)據(jù)集和上下文注入，HybridRAG 幾乎在所有指標(biāo)上都顯示出優(yōu)于傳統(tǒng) VectorRAG 的潛力。其基于圖形的檢索功能可以改進(jìn)對復(fù)雜數(shù)據(jù)關(guān)系的處理，盡管這可能會導(dǎo)致一致性略有妥協(xié)。
HybridRAG 作為一種平衡的方法：HybridRAG 作為一種平衡且有效的技術(shù)出現(xiàn)，它將語義 VectorRAG 的靈活性與高級多跳推理和全局上下文摘要無縫結(jié)合。這使得它特別適合金融和醫(yī)療保健等受監(jiān)管的領(lǐng)域，在這些領(lǐng)域中，強(qiáng)大的響應(yīng)基礎(chǔ)至關(guān)重要。其方法可實(shí)現(xiàn)準(zhǔn)確高效的信息提取，滿足這些行業(yè)的嚴(yán)格要求。

圖形檢索技術(shù)的集成有可能重新定義 RAG 方法處理復(fù)雜、大規(guī)模數(shù)據(jù)集的方式，使其成為需要跨關(guān)系進(jìn)行多跳推理、高準(zhǔn)確性和深入上下文理解的應(yīng)用程序的理想選擇。

探索 LLM 驅(qū)動的知識圖譜的未來

在本文中，我們研究了將 LLM 與知識圖譜集成如何增強(qiáng) AI 驅(qū)動的信息檢索，在多跳推理和高級查詢響應(yīng)等領(lǐng)域表現(xiàn)出色。VectorRAG、GraphRAG 和 HybridRAG 等技術(shù)顯示出巨大的潛力，但在我們突破這項技術(shù)的界限時，仍然存在一些挑戰(zhàn)。

以下是一些關(guān)鍵挑戰(zhàn)：

動態(tài)信息更新：將實(shí)時數(shù)據(jù)合并到知識圖譜中，添加新節(jié)點(diǎn)和關(guān)系，并確保大規(guī)模更新期間的相關(guān)性。
可擴(kuò)展性：管理增長到數(shù)十億個節(jié)點(diǎn)和邊緣的知識圖譜，同時保持效率和性能。
三元組提取優(yōu)化：提高實(shí)體關(guān)系提取的精度以減少錯誤和不一致。
系統(tǒng)評估：開發(fā)強(qiáng)大的特定領(lǐng)域指標(biāo)和基準(zhǔn)，用于評估基于圖形的檢索系統(tǒng)，以確保一致性、準(zhǔn)確性和相關(guān)性。

一些未來的方向可能包括以下任何一項：

動態(tài)知識圖譜：改進(jìn)技術(shù)以無縫擴(kuò)展動態(tài)更新，使圖譜能夠隨著最新數(shù)據(jù)而發(fā)展。
專家代理集成：探索知識圖譜檢索如何充當(dāng)專家系統(tǒng)，為特定領(lǐng)域的應(yīng)用程序提供專業(yè)見解。
圖譜嵌入：為整個知識圖譜開發(fā)嵌入的語義表示，以解鎖圖形分析和信息檢索方面的新功能。

使用 NVIDIA 工具構(gòu)建和優(yōu)化知識圖譜

要深入了解這些創(chuàng)新，請?zhí)剿?NVIDIA NeMo 框架、 NVIDIA NIM 微服務(wù)和 cuGraph ，以創(chuàng)建和管理 GPU 加速的知識圖譜。

要復(fù)制帖子和其他開源示例中討論的工作流程，請參閱 /NVIDIA/GenerativeAIExamples GitHub repo 。這些工具使您能夠有效地擴(kuò)展系統(tǒng)，無論您是構(gòu)建動態(tài)知識圖譜、微調(diào) LLM 還是優(yōu)化推理管道。

參考文獻(xiàn)

??Stardog Voicebox智能體: 知識圖譜&LLM雙輪驅(qū)動、釋放自動化的創(chuàng)造力??
??大模型能自動創(chuàng)建高質(zhì)量知識圖譜嗎？可行性及人機(jī)協(xié)同機(jī)制 - WhyHow.AI??
??GraphRAG和輕量級LightRAG技術(shù)及應(yīng)用案例深度解析??
??微軟GraphRAG框架演進(jìn)之路及帶來的一些思考??
??LazyGraphRAG:微軟重磅推出高性價比下一代GraphRAG??
??提升大型語言模型結(jié)果：何時使用GraphRAG??
??微軟GraphRAG最新動態(tài)：通過動態(tài)社區(qū)選擇改善全球搜索??
??GraphRAG產(chǎn)業(yè)化應(yīng)用落地挑戰(zhàn)和探索：知易行難 - 企業(yè)大模型獨(dú)角獸Glean實(shí)踐之四??
??GraphRAG從研發(fā)到上線的挑戰(zhàn)-硅谷企業(yè)級大模型知識庫獨(dú)角獸Glean系列之三??
??企業(yè)級知識庫為什么要用GraphRAG - 硅谷企業(yè)級ChatGPT獨(dú)角獸Glean系列之二??
??企業(yè)智能知識庫企業(yè)Glean利用GraphRAG融資2.6億美元??
??重磅 - 微軟官宣正式在GitHub開源GraphRAG??
??開源GraphRAG解讀：微軟的人工智能驅(qū)動知識發(fā)現(xiàn)方法??
??GraphRAG工程落地成本詳細(xì)解讀和實(shí)例分析??
??GraphRAG類型、限制、案例、使用場景詳細(xì)解析??
??引入GraphRAG的場景條件分析??
??不適用生成式人工智能的場景??
??知識圖譜增強(qiáng)大模型GraphRAG全面綜述解讀 - 螞蟻集團(tuán)、北大、浙大、人大等??
??5個知識圖譜KG和RAG系統(tǒng)的誤解 — 構(gòu)建和使用RAG原生圖譜??
??OpenKG-SIG | SIGData興趣組：利用大模型構(gòu)建LLM需要的知識圖譜??
??關(guān)于大模型和知識圖譜、本體的一場討論??
??什么時候(不)用GraphRAG??
??GraphRAG工程落地成本詳細(xì)解讀和實(shí)例分析??
??Structured-GraphRAG知識增強(qiáng)框架——足球游戲數(shù)據(jù)案例研究??
??StructRAG: 下一代GraphRAG - 中科院&阿里??
??KG RAG vs. Vector RAG：基準(zhǔn)測試、優(yōu)化杠桿和財務(wù)分析示例 - WhyHow.AI實(shí)踐??
??WhyHow AI??
??知識圖譜增強(qiáng)RAG流水線Use Case-WhyHow.AI??
??“大模型+知識圖譜”雙輪驅(qū)動的醫(yī)藥數(shù)智化轉(zhuǎn)型新范式-OpenKG TOC專家談??
??知識圖譜(KG)和大模型(LLMs)雙輪驅(qū)動的企業(yè)級AI平臺構(gòu)建之道??

本文轉(zhuǎn)載自 ??知識圖譜科技??，作者：KGGPT

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于知識圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 3592瀏覽 ? 0回復(fù)
基于規(guī)則學(xué)習(xí)的關(guān)系模式知識圖譜嵌入研究

mb5f8eba9bdb0af ? 4182瀏覽 ? 0回復(fù)
基于預(yù)訓(xùn)練模型的知識圖譜嵌入編輯

mb5f8eba9bdb0af ? 3167瀏覽 ? 0回復(fù)
怎么看大模型、RAG、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 6291瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系??！

玄姐聊AGI ? 1.5w瀏覽 ? 0回復(fù)
利用LlamaIndex和本地PDF文檔，輕松打造知識圖譜GraphRAG

小虎哦哦 ? 4354瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系??！

玄姐聊AGI ? 3967瀏覽 ? 0回復(fù)
GMeLLo：結(jié)合知識圖譜的 LLM 多跳問答技術(shù)，效果顯著提升

大語言模型論文跟蹤 ? 4077瀏覽 ? 0回復(fù)
一款由知識圖譜引擎驅(qū)動的創(chuàng)新Agent框架

探索AGI ? 3487瀏覽 ? 0回復(fù)
知識圖譜與大模型的深度結(jié)合策略剖析

玄姐聊AGI ? 4567瀏覽 ? 0回復(fù)
采用RAG和知識圖譜克服人工智能幻覺問題

51CTO內(nèi)容精選 ? 2872瀏覽 ? 0回復(fù)
基于知識圖譜的LangChain應(yīng)用實(shí)戰(zhàn)

ermulong ? 3186瀏覽 ? 0回復(fù)
一文讀懂GraphRAG大模型知識圖譜

數(shù)字化助推器 ? 4816瀏覽 ? 0回復(fù)
什么是知識圖譜和AI多模態(tài)推理

數(shù)字化助推器 ? 2921瀏覽 ? 0回復(fù)
小白也能讀懂的GraphRAG知識圖譜全流程解析，多圖預(yù)警！

AI博物院 ? 8286瀏覽 ? 0回復(fù)
GraphRAG+Langchain實(shí)現(xiàn)大模型知識圖譜

數(shù)字化助推器 ? 2914瀏覽 ? 0回復(fù)
從數(shù)據(jù)孤島到智能系統(tǒng)：RAG和知識圖譜的協(xié)同作用

51CTO內(nèi)容精選 ? 2876瀏覽 ? 0回復(fù)
知識圖譜增強(qiáng)營養(yǎng)健康大模型：邁向改進(jìn)的管理、可重復(fù)性和驗(yàn)證 - RPI等

知識圖譜科技 ? 2048瀏覽 ? 0回復(fù)
KGGen用語言模型從純文本中提取知識圖譜

ceesoft ? 3480瀏覽 ? 0回復(fù)

知識圖譜科技

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DrKGC：突破傳統(tǒng)知識圖譜補(bǔ)全，動態(tài)子圖檢索與大模型的創(chuàng)新融合 23h前發(fā)布
制藥巨頭擁抱生成式AI：來自J&J、默克、禮來的一線實(shí)踐與策略 23h前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

下一篇：醫(yī)學(xué)領(lǐng)域大模型與多模態(tài)大模型的綜合調(diào)查

社區(qū)精華內(nèi)容

目錄