偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何評估大語言模型生成結果的多樣性

發(fā)布于 2024-7-16 09:57
瀏覽
0收藏

?1、論文的背景

關于大型語言模型(LLM)的一個開放性問題是,這些模型從預訓練數(shù)據(jù)中學習了哪些模式,以及這些模式是否能夠在下游任務和數(shù)據(jù)集中普遍適用。雖然先前的研究主要集中在生成質量上,最近也開始關注文本生成的新穎性,但對LLM學習到的模式類型的特征描述還很有限。關于評估大型語言模型(LLM)生成文本多樣性的研究主要集中在詞級特征上。本文提供了一種句法特征分析方法,用以描述模型中的普遍重復現(xiàn)象,超越了n-gram的范疇。

例如,考慮圖1中OLMoInstruct生成的文本,這是從一個生成的電影評論摘要語料庫中采樣的。這是通過提示模型總結一組人工撰寫的電影評論而產(chǎn)生的:"《舊金山的最后一個黑人》是一部感人的、拍攝精美的電影[...] 創(chuàng)造了一種獨特而強烈的觀影體驗[...]"。在這個例子中,論文發(fā)現(xiàn)總共有35個重復的詞性(POS)標簽序列,長度為n = 5到8。雖然生成的文本在OLMo的訓練數(shù)據(jù)中并未出現(xiàn),但論文發(fā)現(xiàn)35個序列中有33個(95%)出現(xiàn)在預訓練數(shù)據(jù)中。因此,盡管生成的文本本身是新穎的,但它依賴于從訓練數(shù)據(jù)中學習到的常見句法序列。    

如何評估大語言模型生成結果的多樣性-AI.x社區(qū)

2、論文的方法

論文量化并測量了大型語言模型(LLM)在文本生成中使用重復序列的情況。論文引入并聚焦于句法模板,即詞性(POS)序列,這是一種能展示多樣化模式集的句法抽象。論文首先建立了訓練數(shù)據(jù)中頻繁模板與模型在生成過程中依賴這些模板之間的聯(lián)系。利用這一發(fā)現(xiàn),論文直接連接了訓練數(shù)據(jù)模板統(tǒng)計和模型生成這些模板的傾向。然后,論文評估了幾個封閉源模型及其傾向于生成的句法模板,這讓論文了解了它們訓練數(shù)據(jù)的屬性。    

論文首先介紹句法模板,并定義在生成文本中檢測和測量這些模板的方法。基于這個定義,論文試圖回答以下問題:

RQ1 指令微調的LLM生成的輸出有多大程度上是模板化的?

RQ2 論文能否在(預)訓練數(shù)據(jù)中定位模型生成的模板?

RQ3 句法模板能否用于檢測數(shù)據(jù)記憶?

3、論文的效果

論文發(fā)現(xiàn)模型生成文本中的大部分(76%)模板可以在預訓練數(shù)據(jù)中找到(相比之下,人類撰寫的文本僅有35%),而且這些模板在RLHF等微調過程中并未被覆蓋。這種與預訓練數(shù)據(jù)的聯(lián)系使論文能夠分析那些論文無法獲取預訓練數(shù)據(jù)的模型中的句法模板。論文還發(fā)現(xiàn),作為特征的模板能夠區(qū)分不同的模型、任務和領域,并且對定性評估常見模型構造很有用。

最后,論文展示了論文的指標也可以用作記憶的一種更軟性版本。例如,雖然Carlini等人(2022)估計有1%的文本被記憶,但論文發(fā)現(xiàn)相比逐字記憶,有0.8-3.1%更多的軟記憶文本,通常是通過替換數(shù)字和生成同義詞實現(xiàn)的。

如何評估大語言模型生成結果的多樣性-AI.x社區(qū)

表2顯示了兩個額外任務的模板率:與Dolma相比(82.6%, 0.012),使用Dolma Cosmopedia進行合成數(shù)據(jù)生成和數(shù)據(jù)生成的模板出現(xiàn)率(99.1%)和每個標記的模板數(shù)(0.014)更高。

如何評估大語言模型生成結果的多樣性-AI.x社區(qū)

圖2顯示了各模型檢查點的平均困惑度。論文發(fā)現(xiàn)模板學習得很快 - 在第一個模型檢查點(已訓練40億個標記)就已經(jīng)出現(xiàn)。非模板標記的平均困惑度下降到約500,而模板的困惑度下降到約200。這些發(fā)現(xiàn)令人驚訝,表明模板是在預訓練早期就被學習,而不是在微調過程中學習的。在剩余的訓練過程中,模板標記的平均困惑度一直保持較低水平

本文轉載自 ??AI帝國??,作者: 無影寺

1
收藏
回復
舉報
1條回復
按時間正序
/
按時間倒序
Elina孫
Elina孫

666

回復
2024-7-16 23:19:55
回復
相關推薦