無一大模型及格! 北大/通研院提出超難基準(zhǔn),專門評(píng)估長(zhǎng)文本理解生成
在長(zhǎng)文本理解能力這塊,竟然沒有一個(gè)大模型及格!
北大聯(lián)合北京通用人工智能研究院提出了一個(gè)新基準(zhǔn)數(shù)據(jù)集:LooGLE,專門用于測(cè)試和評(píng)估大語(yǔ)言模型(LLMs)長(zhǎng)上下文理解能力。

該數(shù)據(jù)集既能夠評(píng)估LLMs對(duì)長(zhǎng)文本的處理和檢索能力,又可以評(píng)估其對(duì)文本長(zhǎng)程依賴的建模和理解能力。
結(jié)果不評(píng)不知道,一評(píng)估發(fā)現(xiàn)這些模型在復(fù)雜的長(zhǎng)依賴任務(wù)中的多信息檢索、時(shí)間重排序、計(jì)算、理解推理能力表現(xiàn)均不樂觀。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業(yè)模型,平均只有40%的準(zhǔn)確率。
而像開源模型表現(xiàn)就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準(zhǔn)確率。
目前該論文已被ACL 2024接收。
論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學(xué)人工智能研究院助理教授張牧涵。
LooGLE基準(zhǔn)測(cè)試
LooGLE基準(zhǔn)測(cè)試主要有這樣幾個(gè)特點(diǎn):
首先,它包含包含近 800 個(gè)最新收集的超長(zhǎng)文檔。平均近2萬字(是現(xiàn)有相似數(shù)據(jù)集長(zhǎng)度的2倍),并從這些文檔中重新生成了6千個(gè)不同領(lǐng)域和類別的任務(wù)/問題用于構(gòu)建LooGLE。
目前目前沒有既評(píng)估LLMs對(duì)長(zhǎng)文本的處理和記憶,又評(píng)估其對(duì)文本長(zhǎng)程依賴的建模和理解能力的數(shù)據(jù)集。
LooGLE的數(shù)據(jù)集由7個(gè)主要的任務(wù)類別組成,旨在評(píng)估LLMs理解短程和長(zhǎng)程依賴內(nèi)容的能力。
團(tuán)隊(duì)設(shè)計(jì)了5種類型的長(zhǎng)期依賴任務(wù),包括理解與推理、計(jì)算、時(shí)間線重新排序、多重信息檢索和摘要。
通過人工標(biāo)注精心生成了超過1100對(duì)高質(zhì)量的長(zhǎng)依賴問答對(duì),以滿足長(zhǎng)依賴性要求。這些問答對(duì)經(jīng)過了嚴(yán)格的交叉驗(yàn)證,從而得到了對(duì)大型語(yǔ)言模型(LLMs)長(zhǎng)依賴能力的精確評(píng)估。

LooGLE基準(zhǔn)數(shù)據(jù)集僅包含2022年之后發(fā)布的文本,盡可能地避免了預(yù)訓(xùn)練階段的數(shù)據(jù)泄露,考驗(yàn)大模型利用其上下文學(xué)習(xí)能力來完成任務(wù),而不是依靠記憶事實(shí)和知識(shí)儲(chǔ)備。
該基準(zhǔn)的文本源自廣泛認(rèn)可的開源文檔,包括了arxiv論文、維基百科文章以及電影和電視劇本,涉及學(xué)術(shù)、歷史、體育、政治、藝術(shù)、賽事、娛樂等領(lǐng)域。

長(zhǎng)文理解中長(zhǎng)程問答任務(wù)生成
在本研究中,團(tuán)隊(duì)組織了近百名標(biāo)注者手工編制了約1100個(gè)真實(shí)的長(zhǎng)依賴問答對(duì),分為4類長(zhǎng)依賴任務(wù):多信息檢索、時(shí)間重排序、計(jì)算、理解推理。

多信息檢索:與傳統(tǒng)的短期檢索任務(wù)顯著不同,該任務(wù)下回答一個(gè)特定答案通常需要在整個(gè)文本中搜集多個(gè)線索或證據(jù)。任務(wù)要求從長(zhǎng)文本中廣泛分布的相關(guān)證據(jù)或線索中進(jìn)行檢索和提取,然后對(duì)這些證據(jù)進(jìn)行匯總,才能得出最終答案。
計(jì)算:與前一個(gè)任務(wù)類似,首先需要從廣泛的文本中進(jìn)行多次信息檢索提取相關(guān)數(shù)字,例如關(guān)于數(shù)量、頻率、持續(xù)時(shí)間、特定年份等。要得出準(zhǔn)確的答案,還需要對(duì)這些數(shù)字進(jìn)行計(jì)算。這個(gè)過程既依賴于強(qiáng)大的長(zhǎng)上下文信息提取能力,并且涉及一定程度的數(shù)學(xué)推理能力。
時(shí)間重排序:這個(gè)任務(wù)給大模型輸入指令“請(qǐng)重新排列以下事件的時(shí)間軸”,以及一組按順序排列的事件描述。任務(wù)目標(biāo)是根據(jù)這些事件在長(zhǎng)文本中出現(xiàn)的時(shí)間先后順序?qū)⑦@些事件排列起來。成功完成這個(gè)任務(wù)需要對(duì)文檔的主要故事情節(jié)進(jìn)行抽取和理解,且要求模型具有時(shí)間意識(shí)。
理解推理:這個(gè)任務(wù)要求模型利用散落在長(zhǎng)上下文中的證據(jù),深入理解問題并推理出答案。最常見的問題模式涉及到因果關(guān)系、影響、貢獻(xiàn)、態(tài)度以及與各種事件相關(guān)的基本屬性。此外,當(dāng)問題圍繞著證據(jù)的重要程度、顯著程度、最高或最關(guān)鍵方面時(shí),則需要進(jìn)行更廣泛的比較和評(píng)估。此任務(wù)的答案通常在源文本中不明顯。它們通常需要多步推理來模擬內(nèi)在的聯(lián)系和依賴關(guān)系,通過復(fù)雜的分析過程獲取答案。
實(shí)驗(yàn)分析
為了提供更全面和通用的性能評(píng)估,LooGLE 使用基于語(yǔ)義相似性的度量、GPT4 作為判斷的度量,以及人類評(píng)估作為度量。在LooGLE上對(duì)9種最先進(jìn)的長(zhǎng)文本LLMs進(jìn)行評(píng)估(其中包括OpenAI和Anthropic的商用模型,以及幾個(gè)主流開源基座模型微調(diào)得到的長(zhǎng)文本模型,和帶有外部記憶模塊的檢索增強(qiáng)模型),得出了以下關(guān)鍵發(fā)現(xiàn):
- 商業(yè)模型顯著優(yōu)于開源模型;
 - LLMs在短依賴任務(wù)(如短問答和填空任務(wù))方面表現(xiàn)出色,但在更復(fù)雜的長(zhǎng)依賴任務(wù)中均表現(xiàn)不佳;
 - CoT(思維鏈)只在長(zhǎng)上下文理解方面帶來了微小的改進(jìn);
 - 基于檢索的技術(shù)在短問答方面表現(xiàn)出明顯的優(yōu)勢(shì),而通過優(yōu)化的Transformer架構(gòu)或位置編碼來擴(kuò)展上下文窗口長(zhǎng)度的策略對(duì)長(zhǎng)上下文理解的提升有限。
 

△不同LLM在LooGLE上展現(xiàn)的長(zhǎng)文本理解能力

△不同模型在LooGLE短程問答上的性能

△不同模型在LooGLE短程問答上的性能

△不同上下文窗口對(duì)長(zhǎng)程問答性能的影響

△不同模型在4種不同類型長(zhǎng)程問答上的性能
因此,LooGLE不僅提供了關(guān)于長(zhǎng)上下文LLMs的系統(tǒng)和全面的評(píng)估方案,而且為未來開發(fā)增強(qiáng)型模型以實(shí)現(xiàn)“真正的長(zhǎng)上下文理解”提供了啟示。
論文地址:
https://arxiv.org/abs/2311.04939
數(shù)據(jù)地址:
https://huggingface.co/datasets/bigainlco/LooGLE
代碼地址:
https://github.com/bigai-nlco/LooGLE















 
 
 














 
 
 
 