人工智能的新突破:StructRAG框架如何讓大型語(yǔ)言模型更聰明? 原創(chuàng)
01、概述
在人工智能的浪潮中,大型語(yǔ)言模型(LLMs)正變得越來(lái)越聰明。它們不僅能處理復(fù)雜的語(yǔ)言任務(wù),還能通過(guò)檢索增強(qiáng)生成(RAG)方法,從外部信息源獲取數(shù)據(jù),以提高其準(zhǔn)確性和推理能力。但面對(duì)知識(shí)密集型任務(wù),如何整合分散在多個(gè)文檔中的信息,仍是一個(gè)難題?,F(xiàn)在,StructRAG框架的出現(xiàn),為這一挑戰(zhàn)提供了新的解決方案。
02、StructRAG
StructRAG框架是由中國(guó)科學(xué)院和阿里巴巴集團(tuán)的研究人員共同提出的。它借鑒了人類處理復(fù)雜問題時(shí)將信息結(jié)構(gòu)化的認(rèn)知理論,通過(guò)混合信息結(jié)構(gòu)化機(jī)制,根據(jù)任務(wù)需求以最合適的格式構(gòu)建和利用結(jié)構(gòu)化知識(shí),從而提升LLMs在知識(shí)密集型推理任務(wù)上的性能。
StructRAG框架的三大核心模塊
StructRAG框架由三個(gè)主要模塊組成,它們協(xié)同工作,以提高RAG的性能。
1. 混合結(jié)構(gòu)路由器:確定最佳結(jié)構(gòu)類型
混合結(jié)構(gòu)路由器是StructRAG的核心,它負(fù)責(zé)確定給定任務(wù)最合適的結(jié)構(gòu)類型。路由器接受問題和文檔核心內(nèi)容作為輸入,輸出最佳結(jié)構(gòu)類型。它考慮了五種結(jié)構(gòu)類型:表格、圖形、算法、目錄和塊,每種都適用于不同類型的知識(shí)密集型任務(wù)。
為了訓(xùn)練路由器,研究人員提出了一種基于決策變換器與偏好優(yōu)化(DPO)算法的新方法。這種方法遵循強(qiáng)化學(xué)習(xí)原則,不需要額外的獎(jiǎng)勵(lì)模型。路由器的訓(xùn)練數(shù)據(jù)通過(guò)合成-模擬-判斷管道生成,為各種任務(wù)和結(jié)構(gòu)類型創(chuàng)建高質(zhì)量的合成偏好對(duì)。
2. 零散知識(shí)結(jié)構(gòu)化器:構(gòu)建結(jié)構(gòu)化知識(shí)
確定了最佳結(jié)構(gòu)類型后,零散知識(shí)結(jié)構(gòu)化器開始工作。它負(fù)責(zé)從原始文檔中提取相關(guān)信息,并將其重構(gòu)為所選格式的結(jié)構(gòu)化知識(shí)。結(jié)構(gòu)化器利用LLMs的理解和生成能力,執(zhí)行這一復(fù)雜任務(wù)。
結(jié)構(gòu)化器接受問題、選定的結(jié)構(gòu)類型和每個(gè)原始文檔作為輸入,提取結(jié)構(gòu)化知識(shí),并生成描述。輸出的結(jié)構(gòu)化知識(shí)被收集和組合,形成給定任務(wù)的總體結(jié)構(gòu)化知識(shí)。
3. 結(jié)構(gòu)化知識(shí)利用器:推理與答案生成
StructRAG框架的最后一個(gè)模塊是結(jié)構(gòu)化知識(shí)利用器,它基于構(gòu)建的結(jié)構(gòu)化知識(shí)進(jìn)行推理以回答問題。該模塊旨在處理可能阻礙直接識(shí)別和利用相關(guān)信息的復(fù)雜、組合性問題。
利用器采用基于LLM的方法來(lái)促進(jìn)問題分解、精確知識(shí)提取和最終答案推斷。它首先將原始問題分解為幾個(gè)更簡(jiǎn)單的子問題,然后從結(jié)構(gòu)化知識(shí)中提取每個(gè)子問題的精確知識(shí)。最后,利用器整合所有子問題及其相應(yīng)的精確知識(shí),生成最終答案。
訓(xùn)練混合結(jié)構(gòu)路由器:關(guān)鍵步驟
混合結(jié)構(gòu)路由器的性能對(duì)StructRAG框架的整體有效性至關(guān)重要。為了訓(xùn)練路由器,研究人員提出了一種新方法,結(jié)合了合成-模擬-判斷管道來(lái)生成訓(xùn)練數(shù)據(jù)和DPO算法來(lái)訓(xùn)練偏好。
合成-模擬-判斷管道由三個(gè)步驟組成:
- 任務(wù)合成:LLMs通過(guò)上下文學(xué)習(xí)合成新任務(wù),每個(gè)合成任務(wù)包括一個(gè)問題和文檔的核心內(nèi)容。
- 解決方案模擬:LLMs模擬使用不同類型結(jié)構(gòu)化知識(shí)解決任務(wù)的過(guò)程,為每個(gè)任務(wù)生成不同的模擬解決方案。
- 偏好判斷:基于LLM的裁判比較每個(gè)任務(wù)的模擬解決方案,并生成關(guān)于結(jié)構(gòu)類型的偏好對(duì)。
生成的偏好對(duì)通過(guò)DPO算法訓(xùn)練路由器,使其能夠?qū)W習(xí)不同結(jié)構(gòu)類型之間的偏好,增強(qiáng)其選擇最合適結(jié)構(gòu)類型的能力。
03、實(shí)驗(yàn)結(jié)果
研究人員在Loong基準(zhǔn)上對(duì)StructRAG進(jìn)行了評(píng)估,包括四個(gè)任務(wù)(Spotlight定位、比較、聚類和推理鏈)和四種文檔長(zhǎng)度設(shè)置。結(jié)果表明,StructRAG在大多數(shù)任務(wù)和文檔長(zhǎng)度設(shè)置中都優(yōu)于基線,在總體指標(biāo)上實(shí)現(xiàn)了最先進(jìn)的性能。
隨著任務(wù)復(fù)雜性的增加,StructRAG的性能提升變得更加明顯。在文檔長(zhǎng)度增加、有用信息更分散的復(fù)雜場(chǎng)景中,StructRAG比基線有顯著改進(jìn),證實(shí)了其在構(gòu)建和利用結(jié)構(gòu)化知識(shí)方面的有效性。
消融研究也驗(yàn)證了StructRAG框架中每個(gè)模塊的貢獻(xiàn)。所有三個(gè)模塊(混合結(jié)構(gòu)路由器、零散知識(shí)結(jié)構(gòu)化器和結(jié)構(gòu)化知識(shí)利用器)在整體性能中都發(fā)揮了關(guān)鍵作用。移除這些模塊中的任何一個(gè)都會(huì)導(dǎo)致明顯的性能下降,其中混合結(jié)構(gòu)路由器的影響最為顯著。
此外,研究人員還比較了StructRAG與固定結(jié)構(gòu)類型(例如,僅使用表格、圖形、塊、目錄或算法)的性能,以證明混合信息結(jié)構(gòu)化的重要性。結(jié)果證實(shí),使用單一固定結(jié)構(gòu)類型對(duì)于多樣化的任務(wù)是不夠的,根據(jù)任務(wù)需求選擇最佳結(jié)構(gòu)類型的能力對(duì)于實(shí)現(xiàn)強(qiáng)大的性能至關(guān)重要。
04、結(jié)論
StructRAG通過(guò)引入混合信息結(jié)構(gòu)化機(jī)制,為提升LLMs在知識(shí)密集型推理任務(wù)上的性能提供了一個(gè)有希望的方法。它不僅模仿了類似人類的思考過(guò)程,還根據(jù)任務(wù)的具體需求,以最合適的格式構(gòu)建和利用結(jié)構(gòu)化知識(shí)。
這項(xiàng)研究不僅展示了StructRAG在處理復(fù)雜任務(wù)時(shí)的潛力,還為未來(lái)LLMs的發(fā)展提供了新的方向。隨著技術(shù)的不斷進(jìn)步,我們可以期待StructRAG將在更多領(lǐng)域展現(xiàn)其強(qiáng)大的能力,為人工智能的發(fā)展帶來(lái)更多可能。
參考:
?
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯
