偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

FABLES：超長文本自動摘要評估原創(chuàng)

發(fā)布于 2024-4-25 12:10

瀏覽

0收藏

長文本大語言模型（LLMs）的崛起使得生成整本書的摘要成為可能。然而，評估這些摘要的質量，特別是它們與源材料的忠實程度和相關內容的選擇，帶來了重大挑戰(zhàn)。近日，研究人員發(fā)表的論文《FABLES: Evaluating faithfulness and content selection in book-length summarization》深入探討了這一挑戰(zhàn)，提出了一種新穎的數(shù)據(jù)集，并探討了當前評估方法的局限性。

FABLES：超長文本自動摘要評估 -AI.x社區(qū)

評估長篇摘要的一個主要障礙在于源材料的龐大量級和復雜性。要求人類注釋者閱讀整本書以評估摘要既耗時又昂貴。為了解決這個問題，該論文引入了 FABLES（Faithfulness Annotations for Book-Length Summarization），這是一個專注于新出版書籍摘要的數(shù)據(jù)集。通過招募已經(jīng)閱讀過這些書籍的注釋者，該研究避開了對源材料的廣泛熟悉的需求，使注釋過程更加高效。

FABLES 通過專注于經(jīng)常被忽視的兩個關鍵方面——忠實度和內容選擇——超越了現(xiàn)有的評估方法。該數(shù)據(jù)集不僅僅依賴于表面層面的連貫性等指標，而是采用了聲明級別的注釋。摘要被分解成單個聲明，使注釋者能夠評估其準確性并提供來自書籍的證據(jù)。這種細粒度的方法揭示了LLMs所犯錯誤的性質，突出了與事件、角色狀態(tài)和關系相關的不準確性的普遍性。此外，研究發(fā)現(xiàn)驗證這些聲明通常需要復雜的推理和推斷，不像更簡單的事實驗證任務那樣。

論文還探討了使用LLMs的自動評估方法的潛力。雖然這種方法在其他摘要任務中顯示出了潛力，但在長篇摘要的上下文中可靠地檢測到不忠實的聲明卻很困難。即使提供了整本書作為證據(jù)，基于LLMs的評分者也無法達到人類水平的準確度。這一發(fā)現(xiàn)強調了任務的復雜性，并強調了需要進一步研究以開發(fā)健壯的自動評估方法的必要性。

除了忠實度，F(xiàn)ABLES 還揭示了內容選擇錯誤。通過分析注釋者的摘要級反饋，發(fā)現(xiàn)經(jīng)常遺漏了關鍵信息，包括重要事件、細節(jié)和主題。論文提出了這些遺漏錯誤的分類法，為當前LLMs摘要模型的局限性提供了寶貴的見解。此外，研究觀察到LLMs傾向于過分強調發(fā)生在書籍末尾的事件，忽略了較早部分的重要信息。

FABLES: Evaluating faithfulness and content selection in book-length summarization》為該超長文本摘要領域提供了寶貴的財富。FABLES 數(shù)據(jù)集為評估長篇摘要的質量提供了一種急需的資源，超越了表面層次的指標，專注于諸如忠實度和內容選擇之類的關鍵方面。該研究還強調了當前自動評估方法的局限性，并提出了聲明級別的驗證作為LLMs長文本理解的具有挑戰(zhàn)性的基準。隨著這一領域的研究進展，我們可以期待LLMs能力的進一步提升和更可靠評估方法的發(fā)展，最終導致生成甚至最復雜敘述的精彩摘要的高質量摘要。

FABLES：超長文本自動摘要評估 -AI.x社區(qū)

實驗

1. 忠實度和內容選擇的人工評估

注釋者評估了從由五種不同LLM配置生成的摘要中提取的單個聲明的忠實度（基于基礎模型和塊大小的變化）。他們還提供了關于整體質量和內容選擇的摘要級反饋。數(shù)據(jù)集：FABLES，包含26本書的3,158個聲明級別注釋和130個摘要級別評論。

2. 忠實度的自動評估

使用不同訪問證據(jù)的基于LLM的評分器進行實施

無證據(jù)：評分器只看到聲明和摘要
人類證據(jù)：評分器看到聲明、摘要和來自FABLES的人工注釋證據(jù)
BM25檢索：評分器看到聲明、摘要和使用BM25從書中檢索到的前5個句子
整本書：評分器看到聲明和整本書

評估：

比較了評分器在FABLES注釋的子集上的性能。

人工評估：

CLAUDE-3-OPUS獲得了最高的忠實度得分（90.66%），明顯優(yōu)于其他LLMs。 GPT-4和GPT-4-TURBO緊隨其后，忠實度約為78%，而GPT-3.5-TURBO和MIXTRAL的得分約為70-72%。對不忠實聲明的分析表明，它們通常涉及事件、角色狀態(tài)，并且需要多次推理進行驗證。

摘要級別的評論突出了關鍵信息的頻繁遺漏，導致遺漏錯誤的分類法的開發(fā)。

自動評估：

所有基于LLM的評分器都難以可靠地識別不忠實的聲明，即使有整本書作為證據(jù)。 “整本書”設置表現(xiàn)最好，但仍不及人類水平的準確度。

這一發(fā)現(xiàn)強調了在長篇摘要中自動評估忠實度的挑戰(zhàn)，并建議在這一領域進行進一步研究。

論文：https://arxiv.org/pdf/2404.01261.pdf

譯自（有刪改）：https://intuitionmachine.gumroad.com

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/xfBWtAImEO_1ofHj3wovsA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

長文本大語言模型

贊

收藏

回復

舉報

回復

相關推薦

LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 3249瀏覽 ? 0回復
利用人工智能對文本內容進行自動摘要

51CTO內容精選 ? 3161瀏覽 ? 0回復
使用BERT的LLM提取摘要

51CTO內容精選 ? 3332瀏覽 ? 0回復
騰訊AI新研究打破長文本生成模型限制，序列并行技術再突破

AI論文解讀 ? 6407瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 3077瀏覽 ? 0回復
將圖像自動文本化，圖像描述質量更高、更準確了

輕薄滴假象 ? 2537瀏覽 ? 0回復
檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？

Baihai_IDP ? 3223瀏覽 ? 0回復
可擴展性長文本評測集——Ada-LEval 詳細解讀

戀戀青鳥 ? 2883瀏覽 ? 0回復
Long-CLIP：無縫擴展 CLIP 模型的長文本理解能力

amei2000go ? 5779瀏覽 ? 0回復
NeedleBench 超長文本評測基準：大語言模型能否在 1000K 長度上檢索推理？

戀戀青鳥 ? 3096瀏覽 ? 0回復
RAG新范式MemLong：用于長文本生成的記憶增強檢索

PaperAgent ? 3049瀏覽 ? 0回復
遲分:RAG中長文本處理的突破性技術

芝士AI吃魚 ? 3482瀏覽 ? 0回復
MemLong：用于長文本建模的記憶增強檢索

sbf_2000 ? 2796瀏覽 ? 0回復
使用TAG和RAG實現(xiàn)摘要和標簽的自動化來簡化客戶反饋分析

51CTO內容精選 ? 2799瀏覽 ? 0回復
可擴展性長文本評測集——Ada-LEval 詳細解讀

戀戀青鳥 ? 2270瀏覽 ? 0回復
IdentifyMe：一個具有挑戰(zhàn)性的長文本指代消解基準測試

AI論文解讀 ? 2912瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 3284瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 3728瀏覽 ? 0回復
Kimi的長文本能力：為何優(yōu)于其他大模型

風云2002_1 ? 2674瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

預測未來模型能力！微調揭示LLM涌現(xiàn)能力的關鍵 2024-12-09 09:10:30發(fā)布
預測未來模型能力！微調揭示LLM涌現(xiàn)能力的關鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

AI Agents開源工具棧全解析~ 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

我把DeepSeek微調參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復

上一篇： OpenAI Preparedness團隊首席Aleksander Madry：機器學習模型的內部計算如何將輸入轉化為預測？

下一篇： Llama3背后的秘密：HuggingFace發(fā)布萬億級數(shù)據(jù)集Fineweb

社區(qū)精華內容

目錄

<thead id="qxr7x"></thead>

<pre id="qxr7x"><strike id="qxr7x"><dd id="qxr7x"></dd></strike></pre>