偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

FABLES:超長文本自動摘要評估 原創(chuàng)

發(fā)布于 2024-4-25 12:10
瀏覽
0收藏

長文本大語言模型(LLMs)的崛起使得生成整本書的摘要成為可能。然而,評估這些摘要的質量,特別是它們與源材料的忠實程度和相關內容的選擇,帶來了重大挑戰(zhàn)。近日,研究人員發(fā)表的論文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探討了這一挑戰(zhàn),提出了一種新穎的數(shù)據(jù)集,并探討了當前評估方法的局限性。

FABLES:超長文本自動摘要評估 -AI.x社區(qū)

評估長篇摘要的一個主要障礙在于源材料的龐大量級和復雜性。要求人類注釋者閱讀整本書以評估摘要既耗時又昂貴。為了解決這個問題,該論文引入了 FABLES(Faithfulness Annotations for Book-Length Summarization),這是一個專注于新出版書籍摘要的數(shù)據(jù)集。通過招募已經(jīng)閱讀過這些書籍的注釋者,該研究避開了對源材料的廣泛熟悉的需求,使注釋過程更加高效。

FABLES 通過專注于經(jīng)常被忽視的兩個關鍵方面——忠實度和內容選擇——超越了現(xiàn)有的評估方法。該數(shù)據(jù)集不僅僅依賴于表面層面的連貫性等指標,而是采用了聲明級別的注釋。摘要被分解成單個聲明,使注釋者能夠評估其準確性并提供來自書籍的證據(jù)。這種細粒度的方法揭示了LLMs所犯錯誤的性質,突出了與事件、角色狀態(tài)和關系相關的不準確性的普遍性。此外,研究發(fā)現(xiàn)驗證這些聲明通常需要復雜的推理和推斷,不像更簡單的事實驗證任務那樣。

論文還探討了使用LLMs的自動評估方法的潛力。雖然這種方法在其他摘要任務中顯示出了潛力,但在長篇摘要的上下文中可靠地檢測到不忠實的聲明卻很困難。即使提供了整本書作為證據(jù),基于LLMs的評分者也無法達到人類水平的準確度。這一發(fā)現(xiàn)強調了任務的復雜性,并強調了需要進一步研究以開發(fā)健壯的自動評估方法的必要性。

除了忠實度,F(xiàn)ABLES 還揭示了內容選擇錯誤。通過分析注釋者的摘要級反饋,發(fā)現(xiàn)經(jīng)常遺漏了關鍵信息,包括重要事件、細節(jié)和主題。論文提出了這些遺漏錯誤的分類法,為當前LLMs摘要模型的局限性提供了寶貴的見解。此外,研究觀察到LLMs傾向于過分強調發(fā)生在書籍末尾的事件,忽略了較早部分的重要信息。

FABLES: Evaluating faithfulness and content selection in book-length summarization》為該超長文本摘要領域提供了寶貴的財富。FABLES 數(shù)據(jù)集為評估長篇摘要的質量提供了一種急需的資源,超越了表面層次的指標,專注于諸如忠實度和內容選擇之類的關鍵方面。該研究還強調了當前自動評估方法的局限性,并提出了聲明級別的驗證作為LLMs長文本理解的具有挑戰(zhàn)性的基準。隨著這一領域的研究進展,我們可以期待LLMs能力的進一步提升和更可靠評估方法的發(fā)展,最終導致生成甚至最復雜敘述的精彩摘要的高質量摘要。

FABLES:超長文本自動摘要評估 -AI.x社區(qū)

實驗

1. 忠實度和內容選擇的人工評估

注釋者評估了從由五種不同LLM配置生成的摘要中提取的單個聲明的忠實度(基于基礎模型和塊大小的變化)。他們還提供了關于整體質量和內容選擇的摘要級反饋。 數(shù)據(jù)集:FABLES,包含26本書的3,158個聲明級別注釋和130個摘要級別評論。

2. 忠實度的自動評估

使用不同訪問證據(jù)的基于LLM的評分器進行實施

  • 無證據(jù):評分器只看到聲明和摘要
  • 人類證據(jù):評分器看到聲明、摘要和來自FABLES的人工注釋證據(jù)
  • BM25檢索:評分器看到聲明、摘要和使用BM25從書中檢索到的前5個句子
  • 整本書:評分器看到聲明和整本書

評估

比較了評分器在FABLES注釋的子集上的性能。

人工評估

CLAUDE-3-OPUS獲得了最高的忠實度得分(90.66%),明顯優(yōu)于其他LLMs。 GPT-4和GPT-4-TURBO緊隨其后,忠實度約為78%,而GPT-3.5-TURBO和MIXTRAL的得分約為70-72%。 對不忠實聲明的分析表明,它們通常涉及事件、角色狀態(tài),并且需要多次推理進行驗證。

摘要級別的評論突出了關鍵信息的頻繁遺漏,導致遺漏錯誤的分類法的開發(fā)。

自動評估

所有基于LLM的評分器都難以可靠地識別不忠實的聲明,即使有整本書作為證據(jù)。 “整本書”設置表現(xiàn)最好,但仍不及人類水平的準確度。

這一發(fā)現(xiàn)強調了在長篇摘要中自動評估忠實度的挑戰(zhàn),并建議在這一領域進行進一步研究。

論文:https://arxiv.org/pdf/2404.01261.pdf

譯自(有刪改):https://intuitionmachine.gumroad.com


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/xfBWtAImEO_1ofHj3wovsA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦