偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無一大模型及格! 北大/通研院提出超難基準(zhǔn),專門評(píng)估長(zhǎng)文本理解生成

人工智能 新聞
北大聯(lián)合北京通用人工智能研究院提出了一個(gè)新基準(zhǔn)數(shù)據(jù)集:LooGLE,專門用于測(cè)試和評(píng)估大語(yǔ)言模型(LLMs)長(zhǎng)上下文理解能力。

在長(zhǎng)文本理解能力這塊,竟然沒有一個(gè)大模型及格!

北大聯(lián)合北京通用人工智能研究院提出了一個(gè)新基準(zhǔn)數(shù)據(jù)集:LooGLE,專門用于測(cè)試和評(píng)估大語(yǔ)言模型(LLMs)長(zhǎng)上下文理解能力。

圖片

該數(shù)據(jù)集既能夠評(píng)估LLMs對(duì)長(zhǎng)文本的處理和檢索能力,又可以評(píng)估其對(duì)文本長(zhǎng)程依賴的建模和理解能力。

結(jié)果不評(píng)不知道,一評(píng)估發(fā)現(xiàn)這些模型在復(fù)雜的長(zhǎng)依賴任務(wù)中的多信息檢索、時(shí)間重排序、計(jì)算、理解推理能力表現(xiàn)均不樂觀。

比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業(yè)模型,平均只有40%的準(zhǔn)確率。

而像開源模型表現(xiàn)就更不理想了…

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準(zhǔn)確率。

目前該論文已被ACL 2024接收。

論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學(xué)人工智能研究院助理教授張牧涵。

LooGLE基準(zhǔn)測(cè)試

LooGLE基準(zhǔn)測(cè)試主要有這樣幾個(gè)特點(diǎn):

首先,它包含包含近 800 個(gè)最新收集的超長(zhǎng)文檔。平均近2萬字(是現(xiàn)有相似數(shù)據(jù)集長(zhǎng)度的2倍),并從這些文檔中重新生成了6千個(gè)不同領(lǐng)域和類別的任務(wù)/問題用于構(gòu)建LooGLE。

目前目前沒有既評(píng)估LLMs對(duì)長(zhǎng)文本的處理和記憶,又評(píng)估其對(duì)文本長(zhǎng)程依賴的建模和理解能力的數(shù)據(jù)集。

LooGLE的數(shù)據(jù)集由7個(gè)主要的任務(wù)類別組成,旨在評(píng)估LLMs理解短程和長(zhǎng)程依賴內(nèi)容的能力。

團(tuán)隊(duì)設(shè)計(jì)了5種類型的長(zhǎng)期依賴任務(wù),包括理解與推理、計(jì)算、時(shí)間線重新排序、多重信息檢索和摘要。

通過人工標(biāo)注精心生成了超過1100對(duì)高質(zhì)量的長(zhǎng)依賴問答對(duì),以滿足長(zhǎng)依賴性要求。這些問答對(duì)經(jīng)過了嚴(yán)格的交叉驗(yàn)證,從而得到了對(duì)大型語(yǔ)言模型(LLMs)長(zhǎng)依賴能力的精確評(píng)估。

圖片

LooGLE基準(zhǔn)數(shù)據(jù)集僅包含2022年之后發(fā)布的文本,盡可能地避免了預(yù)訓(xùn)練階段的數(shù)據(jù)泄露,考驗(yàn)大模型利用其上下文學(xué)習(xí)能力來完成任務(wù),而不是依靠記憶事實(shí)和知識(shí)儲(chǔ)備。

該基準(zhǔn)的文本源自廣泛認(rèn)可的開源文檔,包括了arxiv論文、維基百科文章以及電影和電視劇本,涉及學(xué)術(shù)、歷史、體育、政治、藝術(shù)、賽事、娛樂等領(lǐng)域。

圖片

長(zhǎng)文理解中長(zhǎng)程問答任務(wù)生成

在本研究中,團(tuán)隊(duì)組織了近百名標(biāo)注者手工編制了約1100個(gè)真實(shí)的長(zhǎng)依賴問答對(duì),分為4類長(zhǎng)依賴任務(wù):多信息檢索、時(shí)間重排序、計(jì)算、理解推理。

圖片

多信息檢索:與傳統(tǒng)的短期檢索任務(wù)顯著不同,該任務(wù)下回答一個(gè)特定答案通常需要在整個(gè)文本中搜集多個(gè)線索或證據(jù)。任務(wù)要求從長(zhǎng)文本中廣泛分布的相關(guān)證據(jù)或線索中進(jìn)行檢索和提取,然后對(duì)這些證據(jù)進(jìn)行匯總,才能得出最終答案。

計(jì)算:與前一個(gè)任務(wù)類似,首先需要從廣泛的文本中進(jìn)行多次信息檢索提取相關(guān)數(shù)字,例如關(guān)于數(shù)量、頻率、持續(xù)時(shí)間、特定年份等。要得出準(zhǔn)確的答案,還需要對(duì)這些數(shù)字進(jìn)行計(jì)算。這個(gè)過程既依賴于強(qiáng)大的長(zhǎng)上下文信息提取能力,并且涉及一定程度的數(shù)學(xué)推理能力。

時(shí)間重排序:這個(gè)任務(wù)給大模型輸入指令“請(qǐng)重新排列以下事件的時(shí)間軸”,以及一組按順序排列的事件描述。任務(wù)目標(biāo)是根據(jù)這些事件在長(zhǎng)文本中出現(xiàn)的時(shí)間先后順序?qū)⑦@些事件排列起來。成功完成這個(gè)任務(wù)需要對(duì)文檔的主要故事情節(jié)進(jìn)行抽取和理解,且要求模型具有時(shí)間意識(shí)。

理解推理:這個(gè)任務(wù)要求模型利用散落在長(zhǎng)上下文中的證據(jù),深入理解問題并推理出答案。最常見的問題模式涉及到因果關(guān)系、影響、貢獻(xiàn)、態(tài)度以及與各種事件相關(guān)的基本屬性。此外,當(dāng)問題圍繞著證據(jù)的重要程度、顯著程度、最高或最關(guān)鍵方面時(shí),則需要進(jìn)行更廣泛的比較和評(píng)估。此任務(wù)的答案通常在源文本中不明顯。它們通常需要多步推理來模擬內(nèi)在的聯(lián)系和依賴關(guān)系,通過復(fù)雜的分析過程獲取答案。

實(shí)驗(yàn)分析

為了提供更全面和通用的性能評(píng)估,LooGLE 使用基于語(yǔ)義相似性的度量、GPT4 作為判斷的度量,以及人類評(píng)估作為度量。在LooGLE上對(duì)9種最先進(jìn)的長(zhǎng)文本LLMs進(jìn)行評(píng)估(其中包括OpenAI和Anthropic的商用模型,以及幾個(gè)主流開源基座模型微調(diào)得到的長(zhǎng)文本模型,和帶有外部記憶模塊的檢索增強(qiáng)模型),得出了以下關(guān)鍵發(fā)現(xiàn):

  • 商業(yè)模型顯著優(yōu)于開源模型;
  • LLMs在短依賴任務(wù)(如短問答和填空任務(wù))方面表現(xiàn)出色,但在更復(fù)雜的長(zhǎng)依賴任務(wù)中均表現(xiàn)不佳;
  • CoT(思維鏈)只在長(zhǎng)上下文理解方面帶來了微小的改進(jìn);
  • 基于檢索的技術(shù)在短問答方面表現(xiàn)出明顯的優(yōu)勢(shì),而通過優(yōu)化的Transformer架構(gòu)或位置編碼來擴(kuò)展上下文窗口長(zhǎng)度的策略對(duì)長(zhǎng)上下文理解的提升有限。

圖片

△不同LLM在LooGLE上展現(xiàn)的長(zhǎng)文本理解能力

圖片

△不同模型在LooGLE短程問答上的性能

圖片

△不同模型在LooGLE短程問答上的性能

圖片

△不同上下文窗口對(duì)長(zhǎng)程問答性能的影響

圖片

△不同模型在4種不同類型長(zhǎng)程問答上的性能

因此,LooGLE不僅提供了關(guān)于長(zhǎng)上下文LLMs的系統(tǒng)和全面的評(píng)估方案,而且為未來開發(fā)增強(qiáng)型模型以實(shí)現(xiàn)“真正的長(zhǎng)上下文理解”提供了啟示。

論文地址:
https://arxiv.org/abs/2311.04939
數(shù)據(jù)地址:
https://huggingface.co/datasets/bigainlco/LooGLE
代碼地址:
https://github.com/bigai-nlco/LooGLE

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-15 09:10:00

2025-03-17 12:55:18

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-07-05 09:57:11

2025-05-23 08:47:00

2024-05-27 12:45:53

2024-08-05 08:46:00

模型測(cè)評(píng)

2025-05-30 09:10:00

模型論文AI

2023-11-29 14:00:00

AI數(shù)據(jù)

2023-09-25 10:04:37

模型AI

2025-07-17 09:21:11

2024-09-12 12:46:36

2025-07-17 10:47:33

2023-11-05 15:09:35

模型AI

2024-04-11 14:12:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)