偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

STORYWRITER:長篇故事生成的多智能體框架

人工智能
大家好,我是肆〇柒。長篇小說生成一直是大型語言模型(LLM)頗具挑戰(zhàn)性的任務(wù)。話語連貫性(discourse coherence)與敘事復(fù)雜性(narrative complexity)是長篇小說生成,具有挑戰(zhàn)性的難點(diǎn)。我扒拉論文的時候發(fā)現(xiàn)由清華提出的一篇論文《WRITER: A Multi-Agent Framework for Long Story Generation》,以其創(chuàng)新性的架構(gòu)設(shè)計(jì)

大家好,我是肆〇柒。長篇小說生成一直是大型語言模型(LLM)頗具挑戰(zhàn)性的任務(wù)。話語連貫性(discourse coherence)與敘事復(fù)雜性(narrative complexity)是長篇小說生成,具有挑戰(zhàn)性的難點(diǎn)。我扒拉論文的時候發(fā)現(xiàn)由清華提出的一篇論文《WRITER: A Multi-Agent Framework for Long Story Generation》,以其創(chuàng)新性的架構(gòu)設(shè)計(jì),為 LLM 在長篇小說生成領(lǐng)域提出了自己的見解。

長篇小說生成要求模型在數(shù)千詞乃至數(shù)萬詞的篇幅中,始終保持情節(jié)的一致性、邏輯的連貫性以及內(nèi)容的完整性,這對于 LLM 來說無疑是一個巨大的挑戰(zhàn)?,F(xiàn)有 LLM 在生成超過 1000 字的長故事時,往往會出現(xiàn)情節(jié)前后矛盾、邏輯斷裂、關(guān)鍵信息丟失等問題,導(dǎo)致故事失去了連貫性和可信度。而且,長篇故事的魅力在于其復(fù)雜多變的情節(jié)和豐富立體的人物關(guān)系。但大多數(shù) LLM 生成的故事卻常常顯得單一、平淡,缺乏深度和吸引力。情節(jié)發(fā)展缺乏波瀾,人物形象模糊不清,故事內(nèi)容同質(zhì)化嚴(yán)重,難以滿足讀者對于高質(zhì)量長篇故事的期待。這些問題嚴(yán)重制約了 LLM 在長篇故事生成領(lǐng)域的應(yīng)用和發(fā)展,使得長篇故事生成成為了自然語言處理領(lǐng)域需要解決的難題之一。

STORYWRITER 框架

Outline Agents(大綱智能體):故事的“設(shè)計(jì)師”

EventSeed 智能體 :在長篇故事生成的起始階段,EventSeed 智能體負(fù)責(zé)創(chuàng)意的構(gòu)思。它基于給定的故事前提,逐步生成一系列包含關(guān)鍵要素的事件序列。這些關(guān)鍵要素涵蓋時間、地點(diǎn)、人物等重要信息,它們宛如故事大廈的基石,構(gòu)成了故事大綱的基礎(chǔ)框架。例如,對于一個關(guān)于冒險(xiǎn)的長篇故事,EventSeed 智能體可能會首先生成主角踏上冒險(xiǎn)旅程的時間和地點(diǎn),以及他將要面對的主要人物和事件。在生成過程中,EventSeed 智能體采用了基于事件圖譜的算法,通過引入事件之間的因果關(guān)系和人物角色的關(guān)聯(lián)性,確保每個新生成的事件都與前文保持邏輯連貫性和合理性。同時,為了確保事件的多樣性,EventSeed 智能體會參考大量的故事素材和情節(jié)模式,結(jié)合隨機(jī)性和創(chuàng)新性策略,生成獨(dú)特且富有吸引力的事件序列。

EventValidator 智能體 :在故事大綱構(gòu)建過程中,EventValidator 智能體負(fù)責(zé)內(nèi)容質(zhì)檢員的角色。它持續(xù)監(jiān)控和評估 EventSeed 智能體生成的大綱,提供及時的反饋信息。其核心使命是確保每個事件都具有合理性,并且整個故事的敘事邏輯連貫順暢。EventValidator 智能體采用了多維度的評估標(biāo)準(zhǔn)來判斷事件的合理性,包括事件的因果邏輯、人物行為動機(jī)的合理性、時間空間的一致性等。例如,如果一個事件中人物的行為與之前的性格設(shè)定或情節(jié)發(fā)展不符,EventValidator 智能體會識別這一問題,并指導(dǎo) EventSeed 智能體進(jìn)行修正,從而保證故事大綱的質(zhì)量和可信度,為后續(xù)的故事生成奠定堅(jiān)實(shí)基礎(chǔ)。

Planning Agents(規(guī)劃智能體):故事的“編排者”

SubTasker 模塊 :在接到完整的故事大綱后,SubTasker 模塊就行動起來,對高層級的事件進(jìn)行細(xì)致入微的分解。它將每個事件拆分為多個更加具體、細(xì)致的子事件,這一過程猶如將一幅宏大的故事畫卷逐漸細(xì)化為一個個栩栩如生的場景。通過這種分解,故事的細(xì)節(jié)得以豐富和充實(shí),為后續(xù)的故事展開提供了更為詳盡的內(nèi)容素材。例如,在一個戰(zhàn)爭場景的事件中,SubTasker 模塊可能會將其分解為士兵的集結(jié)、戰(zhàn)斗的爆發(fā)、戰(zhàn)術(shù)的運(yùn)用等多個子事件,使故事的敘述更加生動具體。

Weaver 模塊 :Weaver 模塊則依據(jù)熱奈特的敘事順序理論,運(yùn)用倒敘、預(yù)敘等非線性敘事策略,巧妙地將這些子事件分配到不同的章節(jié)之中。它如同一位嫻熟的作者,將一個個散落的事件片段編織成一個結(jié)構(gòu)緊密、邏輯連貫且富有變化的故事整體。這種非線性敘事方式一方面能夠增強(qiáng)故事的吸引力和懸念感,還能在保持?jǐn)⑹陆Y(jié)構(gòu)連貫性的基礎(chǔ)上,賦予故事更大的靈活性和多樣性,使讀者在閱讀過程中始終保持著濃厚的興趣。例如,在一個故事中,Weaver 模塊可能會將一個關(guān)鍵的事件提前放在故事的開頭作為懸念,然后在后續(xù)的章節(jié)中逐步揭示事件的來龍去脈,通過這種方式吸引讀者的注意力并保持故事的吸引力。在實(shí)際操作中,Weaver 模塊通過構(gòu)建事件之間的邏輯關(guān)系圖,分析每個子事件在故事中的重要性和作用,從而確定其在不同章節(jié)中的最佳位置。同時,為了平衡敘事結(jié)構(gòu)的連貫性和多樣性,Weaver 模塊還會考慮章節(jié)之間的過渡和銜接,確保故事在整體上具有流暢的敘事節(jié)奏和合理的敘事順序。

Writing Agent(寫作智能體):故事的“撰寫者”

Coordinator 智能體與 FinalWriter 智能體的協(xié)同作業(yè) :在故事的最終撰寫階段,Coordinator 智能體和 FinalWriter 智能體緊密配合,共同完成故事的創(chuàng)作。Coordinator 智能體作為全局?jǐn)⑹录軜?gòu)的統(tǒng)籌者,貫穿于故事生成的全過程,從大綱的制定到子事件的規(guī)劃,再到最終文本的生成,它都在背后發(fā)揮著關(guān)鍵的把控作用。而 FinalWriter 智能體則專注于故事文本的具體撰寫,致力于確保故事在風(fēng)格上的統(tǒng)一性和文本質(zhì)量的高標(biāo)準(zhǔn)。兩者相輔相成,缺一不可,共同確保了故事在宏觀結(jié)構(gòu)上的連貫性和微觀敘事上的流暢性。

Re-write Input and Output(ReIO)機(jī)制 :針對 LLM 在長文本生成過程中出現(xiàn)的上下文碎片化和注意力衰退問題,所以提出了 ReIO 機(jī)制。在輸入處理環(huán)節(jié),Coordinator 智能體憑借其強(qiáng)大的總結(jié)能力,動態(tài)地對歷史敘事上下文進(jìn)行總結(jié)和壓縮,精準(zhǔn)地保留與當(dāng)前子事件相關(guān)的關(guān)鍵信息。這一操作有效降低了輸入信息的冗余度,減輕了模型的認(rèn)知負(fù)擔(dān),使模型能夠更加專注于當(dāng)前的敘述任務(wù)。具體來說,Coordinator 智能體采用了基于注意力機(jī)制的文本摘要算法,通過分析歷史上下文中每個部分與當(dāng)前子事件的相關(guān)性,自動提取關(guān)鍵信息并生成簡潔的摘要。例如,在生成一個關(guān)于主角回憶童年經(jīng)歷的章節(jié)時,Coordinator 智能體會根據(jù)之前的情節(jié)發(fā)展,提取出與童年經(jīng)歷相關(guān)的關(guān)鍵事件和情感線索,將其作為輸入提供給 FinalWriter 智能體。而在輸出處理環(huán)節(jié),Coordinator 智能體會對生成的文本進(jìn)行嚴(yán)格審查,如有必要,會對文本進(jìn)行重寫,使其更加符合既定的敘事結(jié)構(gòu)和風(fēng)格要求。這一迭代式的重寫過程持續(xù)進(jìn)行,直至生成的文本在敘事連貫性和風(fēng)格一致性上達(dá)到理想狀態(tài),從而有力地保障了長篇故事的質(zhì)量和可讀性。例如,當(dāng)模型生成的文本出現(xiàn)與大綱不符的情節(jié)發(fā)展時,Coordinator 智能體會識別這一問題,并對文本進(jìn)行重寫,使其回歸到原有的敘事軌跡上。

圖片

三階段故事生成框架概覽

上圖展示了 Outline Agent、Planning Agent 和 Writing Agent 如何協(xié)同工作,從事件大綱生成到章節(jié)構(gòu)建,再到最終故事合成的全過程。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果評估:用數(shù)據(jù)說話

評估

MoPS 數(shù)據(jù)集的選取 :為了驗(yàn)證 STORYWRITER 的性能,研究者們選用了 MoPS 數(shù)據(jù)集作為實(shí)驗(yàn)的基礎(chǔ)。相較于傳統(tǒng)方法生成的故事前提以及從文學(xué)論壇收集的故事,MoPS 數(shù)據(jù)集在質(zhì)量和信息密度方面展現(xiàn)出顯著優(yōu)勢。它為長篇故事生成提供了一系列高質(zhì)量的故事前提,這些前提涵蓋了豐富的主題和情節(jié),為模型的訓(xùn)練和評估提供了堅(jiān)實(shí)的素材基礎(chǔ),確保了實(shí)驗(yàn)結(jié)果的可靠性和有效性。MoPS 數(shù)據(jù)集的故事前提經(jīng)過精心設(shè)計(jì),不僅在情節(jié)上具有較高的復(fù)雜性和吸引力,而且在信息表達(dá)上更加豐富和詳細(xì),能夠?yàn)槟P吞峁└嗟膭?chuàng)作空間和靈感。與其他數(shù)據(jù)集相比,MoPS 數(shù)據(jù)集的一個顯著特點(diǎn)是其故事前提的多樣性和創(chuàng)新性,涵蓋了從科幻冒險(xiǎn)到懸疑推理等多種類型的主題,這使得基于該數(shù)據(jù)集訓(xùn)練的模型能夠更好地適應(yīng)不同類型長篇故事的生成需求。

評估框架的構(gòu)建 :在評估過程中,研究者們采用了六個人工評估維度,分別是相關(guān)性(Relevance)、連貫性(Coherence)、共情(Empathy)、驚喜(Surprise)、創(chuàng)造力(Creativity)和復(fù)雜性(Complexity)。這些維度從多個角度全面衡量了生成故事的質(zhì)量,涵蓋了故事與主題的相關(guān)程度、情節(jié)的連貫性、情感的共鳴、情節(jié)的意外性、內(nèi)容的創(chuàng)新性以及故事的復(fù)雜程度等多個關(guān)鍵方面。同時,為了提升評估的效率和客觀性,研究者們還引入了基于 GPT-4o 的自動化評估方法,使其與人工評估相互補(bǔ)充,共同構(gòu)成了一套全面且嚴(yán)謹(jǐn)?shù)脑u估體系。在人工評估中,參與評估的人員均為具有豐富文學(xué)背景和專業(yè)知識的英語專業(yè)研究生,他們的 TOEFL 成績均在 108 分以上,具備較高的語言水平和文學(xué)鑒賞能力。為了確保評估結(jié)果的客觀性和一致性,評估過程采用了盲評的方式,并且對每個維度的評分標(biāo)準(zhǔn)進(jìn)行了詳細(xì)的定義和培訓(xùn)。在自動化評估中,GPT-4o 模型通過對大量人類標(biāo)注數(shù)據(jù)的學(xué)習(xí),能夠準(zhǔn)確地對故事的各個維度進(jìn)行評分,并且研究人員還對其評分結(jié)果進(jìn)行了多次驗(yàn)證,以確保其可靠性和有效性。

基線模型的對比 :為了直觀地展現(xiàn) STORYWRITER 的優(yōu)勢,研究者們將其與多種基線模型進(jìn)行了對比實(shí)驗(yàn)。這些基線模型包括 DOC 方法、Agents’ Room 框架以及直接使用 GPT-4o-mini 生成故事的方法。在實(shí)驗(yàn)中,研究者們詳細(xì)地實(shí)現(xiàn)了每種方法,并對其適用性進(jìn)行了深入分析,從而確保了對比實(shí)驗(yàn)的公平性和合理性,為準(zhǔn)確評估 STORYWRITER 的性能提供了有力保障。例如,在實(shí)現(xiàn) DOC 方法時,研究人員嚴(yán)格按照其最新版本的算法流程進(jìn)行操作,并且在使用 GPT-4o-mini 生成故事時,對輸入?yún)?shù)和生成條件進(jìn)行了精細(xì)調(diào)整,以確保其性能能夠得到充分發(fā)揮。

主要實(shí)驗(yàn)結(jié)果:STORYWRITER 的表現(xiàn)

在人工評估和自動化評估中,STORYWRITER 憑借其出色的表現(xiàn),在各項(xiàng)指標(biāo)上均取得了顯著領(lǐng)先的成績。

圖片

三階段故事生成框架概覽

以表格形式直觀呈現(xiàn)的實(shí)驗(yàn)結(jié)果顯示,STORYWRITER 在長篇故事生成質(zhì)量上大幅超越了其他基線模型。在相關(guān)性和連貫性方面,它成功地超越了 DOC 和 GPT-4o-mini,這表明其生成的故事在情節(jié)的合理性和邏輯的順暢性上具有明顯優(yōu)勢。盡管在內(nèi)容多樣性創(chuàng)造性上略遜于 Agents’ Room,但綜合考慮所有評估維度,STORYWRITER 依然展現(xiàn)出了卓越的整體質(zhì)量,并且在生成故事的長度上遠(yuǎn)遠(yuǎn)超過了其他模型,充分驗(yàn)證了其在生成較長篇幅故事時的有效性和可靠性,有力地證明了其在長篇故事生成領(lǐng)域的強(qiáng)大實(shí)力。

圖片

人類和自動評分的實(shí)驗(yàn)結(jié)果

上表展示了 STORYWRITER 在不同評估維度上的具體得分,凸顯其在長篇故事生成中的卓越表現(xiàn)。

消融實(shí)驗(yàn):關(guān)鍵組件的重要性驗(yàn)證

消融實(shí)驗(yàn)作為評估模型性能的重要手段,通過移除 STORYWRITER 的關(guān)鍵組件,深入探究每個組件在框架中的重要性和作用。實(shí)驗(yàn)結(jié)果清晰地表明,當(dāng)去除事件大綱時,所有評估指標(biāo)均出現(xiàn)了大幅下降,這凸顯了事件大綱作為故事基礎(chǔ)框架的關(guān)鍵作用。而移除非線性敘事策略后,復(fù)雜性得分顯著降低,充分證明了非線性敘事策略對于提升故事的多樣性和吸引力具有不可或缺的價值。同樣,分別移除 ReIO 輸入機(jī)制和 ReIO 輸出機(jī)制后,模型的性能也均受到了不同程度的影響,進(jìn)一步驗(yàn)證了 ReIO 機(jī)制在應(yīng)對長文本生成挑戰(zhàn)中的關(guān)鍵作用。這些實(shí)驗(yàn)結(jié)果有力地證明了 STORYWRITER 中各個組件的緊密協(xié)作對于生成高質(zhì)量長篇故事的不可或缺性。例如,在生成一個復(fù)雜的科幻故事時,事件大綱為故事提供了清晰的結(jié)構(gòu)和方向,非線性敘事策略使得故事中的時間線交錯重疊,增加了故事的懸念和復(fù)雜性。而 ReIO 機(jī)制則確保了在長篇幅的敘述中,故事的連貫性和一致性得以保持,使得整個故事更加引人入勝。

圖片

消融實(shí)驗(yàn)結(jié)果

上表展示了移除不同組件后模型性能的變化,強(qiáng)調(diào)了每個組件對整體性能的關(guān)鍵貢獻(xiàn)。

關(guān)于總結(jié)上下文的分析:優(yōu)化長文本生成的關(guān)鍵環(huán)節(jié)

在長文本生成過程中,LLM 常常會遭遇重復(fù)、幻覺、主題漂移等棘手問題,而這些問題與前文上下文的長度存在著密切的關(guān)聯(lián)。為了有效解決這一問題,研究者們引入了總結(jié)智能體,并創(chuàng)新性地采用了滑動窗口機(jī)制來簡化輸入上下文,同時保留關(guān)鍵信息。通過一系列受控實(shí)驗(yàn),研究者們對不同滑動窗口配置下的敘事質(zhì)量進(jìn)行了細(xì)致評估,最終得出在 15000 個詞以下的文本中,[2, k-1] 滑動窗口配置能夠取得最佳的敘事效果。這一重要發(fā)現(xiàn)為優(yōu)化長文本生成過程中的上下文處理提供了關(guān)鍵依據(jù),有助于進(jìn)一步提升長篇故事生成的質(zhì)量和連貫性。例如,在一個長篇?dú)v史小說的生成過程中,滑動窗口機(jī)制能夠動態(tài)地總結(jié)之前的情節(jié)發(fā)展和人物關(guān)系,使得模型在生成后續(xù)章節(jié)時能夠準(zhǔn)確地把握故事的方向,避免出現(xiàn)情節(jié)混亂或人物行為不一致的問題。

圖片

不同窗口長度的結(jié)果

上圖展示了不同滑動窗口配置下敘事質(zhì)量的評估結(jié)果,直觀地說明了最佳滑動窗口配置的選擇依據(jù)。

構(gòu)建 LONGSTORY 數(shù)據(jù)集:高質(zhì)量數(shù)據(jù)的“寶藏庫”

研究者們利用 STORYWRITER 生成了一個名為 LONGSTORY 的高質(zhì)量長篇故事數(shù)據(jù)集。在構(gòu)建過程中,首先從 MoPS 訓(xùn)練集中收集了 6000 個故事前提,然后充分發(fā)揮 STORYWRITER 的強(qiáng)大生成能力,為每個前提創(chuàng)作出完整的故事。在完成初步生成后,研究者們對故事進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)清洗工作,剔除了篇幅過短、格式不符合要求以及質(zhì)量較低的故事。同時,為了降低監(jiān)督微調(diào)(SFT)訓(xùn)練過程中過擬合特定文本結(jié)構(gòu)的風(fēng)險(xiǎn),對多章節(jié)的故事進(jìn)行了合并處理。經(jīng)過這一系列精細(xì)的加工和篩選流程,最終成功構(gòu)建出包含 5500 個平均約 8000 字故事的高質(zhì)量數(shù)據(jù)集 LONGSTORY。

LONGSTORY 數(shù)據(jù)集的構(gòu)建,為模型的監(jiān)督微調(diào)(SFT)提供了豐富且優(yōu)質(zhì)的訓(xùn)練素材,而且相較于其他方法,其優(yōu)勢尤為顯著。其豐富多樣的故事情節(jié)和長文本特性能夠更加精準(zhǔn)地滿足模型在長篇故事生成能力培養(yǎng)方面的需求,為提升模型的長篇故事生成水平提供了有力支持,推動了整個長篇故事生成領(lǐng)域的研究和發(fā)展。

數(shù)據(jù)集構(gòu)建

數(shù)據(jù)清洗的具體標(biāo)準(zhǔn)和方法

篇幅過短的判斷標(biāo)準(zhǔn) :如果故事的長度低于預(yù)設(shè)的閾值(例如 5000 字),則認(rèn)為篇幅過短。這可能導(dǎo)致故事內(nèi)容不夠完整,無法充分展現(xiàn)情節(jié)的發(fā)展和人物的成長,因此需要剔除。在判斷篇幅時,研究人員考慮了字?jǐn)?shù),同時綜合評估故事是否具備完整的起承轉(zhuǎn)合結(jié)構(gòu),以及是否能夠充分展開主題和人物關(guān)系等因素。

格式不符合要求的情況 :檢查故事的格式是否符合統(tǒng)一的標(biāo)準(zhǔn),例如章節(jié)劃分是否清晰、標(biāo)點(diǎn)符號使用是否規(guī)范、文本編碼是否正確等。不符合格式要求的故事可能會在后續(xù)的處理和訓(xùn)練過程中引發(fā)問題,需要進(jìn)行修正或剔除。在檢查章節(jié)劃分時,研究人員依據(jù)以下標(biāo)準(zhǔn)進(jìn)行判斷:章節(jié)之間是否具有明確的主題劃分,每個章節(jié)是否具有相對獨(dú)立的情節(jié)發(fā)展,以及章節(jié)之間的過渡是否自然流暢等。對于不符合要求的故事,會根據(jù)具體情況對其進(jìn)行結(jié)構(gòu)調(diào)整或直接剔除。

質(zhì)量較低的評估方法 :通過人工評估和自動化評估相結(jié)合的方式,對故事的質(zhì)量進(jìn)行綜合判斷。評估指標(biāo)包括情節(jié)的合理性、人物的立體性、語言的流暢性等。如果故事在多個評估指標(biāo)上得分較低,則被視為質(zhì)量較低的故事,需要進(jìn)行優(yōu)化或剔除。在人工評估中,評估人員會從讀者的角度對故事進(jìn)行細(xì)致的閱讀和分析,對每個評估指標(biāo)進(jìn)行量化評分。在自動化評估中,則利用 GPT-4o 模型對故事進(jìn)行多維度的分析和評分,綜合兩者的評估結(jié)果來最終確定故事的質(zhì)量等級。

多章節(jié)故事合并的策略

合并的必要性 :多章節(jié)故事合并有助于減少數(shù)據(jù)集中的冗余信息,提高數(shù)據(jù)的利用率,同時避免模型在訓(xùn)練過程中過度適應(yīng)特定的章節(jié)結(jié)構(gòu),增強(qiáng)模型的泛化能力。

合并方法 :按照章節(jié)的敘事邏輯和內(nèi)容連貫性進(jìn)行合并。例如,將同一情節(jié)線索下的相鄰章節(jié)合并為一個完整的段落,同時保留章節(jié)之間的重要過渡信息,確保故事的連貫性和完整性。合并后的章節(jié)長度控制在合理的范圍內(nèi),以適應(yīng)模型的輸入要求。在合并過程中,研究人員會仔細(xì)分析每個章節(jié)的內(nèi)容和結(jié)構(gòu),確保合并后的故事在情節(jié)發(fā)展和人物關(guān)系上保持連貫性和一致性。

LONGSTORY 數(shù)據(jù)集的樣例和統(tǒng)計(jì)信息展示

故事樣例 :選取了幾個具有代表性的故事樣例,展示了它們的主題、事件序列、章節(jié)劃分等關(guān)鍵信息。例如,一個關(guān)于科幻冒險(xiǎn)主題的故事,其事件序列包括主角發(fā)現(xiàn)神秘信號、組建探險(xiǎn)隊(duì)伍、探索未知星球、遭遇外星生物等關(guān)鍵事件,章節(jié)劃分則根據(jù)情節(jié)的起伏和轉(zhuǎn)折進(jìn)行合理安排。這些樣例故事不僅情節(jié)豐富多樣,而且在敘事結(jié)構(gòu)和人物塑造上各具特色,充分體現(xiàn)了 LONGSTORY 數(shù)據(jù)集的高質(zhì)量和多樣化特點(diǎn)。

統(tǒng)計(jì)信息 :提供了數(shù)據(jù)集中故事的主題分布(如冒險(xiǎn)、愛情、科幻、懸疑等)、事件類型分布(如沖突、轉(zhuǎn)折、高潮等)、平均故事長度等統(tǒng)計(jì)圖表。這些統(tǒng)計(jì)信息幫助讀者更直觀地了解數(shù)據(jù)集的特點(diǎn)和質(zhì)量,為研究人員和開發(fā)者選擇合適的數(shù)據(jù)集提供了參考依據(jù)。例如,統(tǒng)計(jì)結(jié)果顯示,LONGSTORY 數(shù)據(jù)集中冒險(xiǎn)類主題的故事占比最高,達(dá)到了 35%,其次是愛情類主題,占比為 28%。這些數(shù)據(jù)反映了數(shù)據(jù)集的豐富性,也為研究人員在特定主題的研究中提供了有針對性的素材。

基于 LONGSTORY 的模型微調(diào)與評估

實(shí)驗(yàn)設(shè)置:明確的評估標(biāo)準(zhǔn)與方法

在基于 LONGSTORY 數(shù)據(jù)集的模型微調(diào)實(shí)驗(yàn)中,研究者們繼續(xù)采用 MoPS 數(shù)據(jù)集作為評估的基礎(chǔ)。鑒于人工評估成本較高,此次實(shí)驗(yàn)主要依賴自動化評估方法來對模型性能進(jìn)行客觀衡量。除了對故事內(nèi)容質(zhì)量從六個關(guān)鍵維度進(jìn)行評估外,研究者們還特別引入了 LongBench-Write 評估方法中的長度評分指標(biāo)。這一指標(biāo)能夠精準(zhǔn)地衡量模型生成文本長度與指令要求的匹配程度,從而全面評估模型在生成長篇故事時的長度控制能力和內(nèi)容質(zhì)量,為模型的優(yōu)化提供了更具針對性的指導(dǎo)。在自動化評估中,GPT-4o 模型通過對故事的六個質(zhì)量維度進(jìn)行逐項(xiàng)評分,并結(jié)合長度評分指標(biāo),最終生成綜合評分結(jié)果。研究人員對每個模型在不同長度要求下的表現(xiàn)進(jìn)行了詳細(xì)的記錄和分析,以確保評估結(jié)果的全面性和準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果:STORYWRITERLLAMA 與 STORYWRITERGLM 的驚艷表現(xiàn)

在不同長度要求下,STORYWRITERLLAMA 和 STORYWRITERGLM 均展現(xiàn)出了卓越的故事生成能力。實(shí)驗(yàn)結(jié)果顯示,這兩款模型在故事質(zhì)量評分(Sq)、長度評分(Sl)以及綜合評分(S)等多個指標(biāo)上均大幅領(lǐng)先于其他基線模型,包括 Llama3.1-8B-Instruct、GLM4-9B、LongWriter-GLM4-9B、LongWriter-Llama3.1-8B、Deepseek-Llama-8B、Deepseek-Llama-70B 等。特別是在長篇故事生成方面,STORYWRITERLLAMA 和 STORYWRITERGLM 憑借其對長度約束的精準(zhǔn)把控和高質(zhì)量的內(nèi)容輸出,明顯優(yōu)于其他模型。這一出色表現(xiàn)充分證明了基于 LONGSTORY 數(shù)據(jù)集的模型微調(diào)方法的有效性,表明 LONGSTORY 數(shù)據(jù)集在提升模型長篇故事生成能力方面具有顯著優(yōu)勢,為長篇故事生成任務(wù)帶來了新的突破和進(jìn)展。例如,在生成一個 10000 字的長篇故事時,STORYWRITERLLAMA 能夠準(zhǔn)確地把握故事的主題和發(fā)展方向,生成情節(jié)豐富、人物形象鮮明的故事,并且在長度控制上表現(xiàn)出了極高的精度,幾乎完全符合指令要求的長度范圍。

圖片

 STORYWRITERLLAMA、STORYWRITERGLM 及基線模型的實(shí)驗(yàn)結(jié)果

上表展示了各模型在不同指標(biāo)上的具體表現(xiàn),彰顯了 STORYWRITERLLAMA 和 STORYWRITERGLM 的卓越性能。

總結(jié)

STORYWRITER 算是我看到的長篇故事生成領(lǐng)域的第一篇論文。它提出了多智能體長篇故事生成框架,通過模擬人類創(chuàng)作過程中的不同角色和任務(wù)分工,巧妙地解決了長篇故事生成中的 discourse coherence 和 narrative complexity 等核心難題。同時,它構(gòu)建了高質(zhì)量的數(shù)據(jù)集 LONGSTORY,為模型的訓(xùn)練和評估提供了豐富的資源。此外,STORYWRITER 還開發(fā)出先進(jìn)的長篇故事生成 LLM STORYWRITERLLAMA 和 STORYWRITERGLM,這些模型在長篇故事生成任務(wù)中展現(xiàn)出了卓越的性能。

盡管 STORYWRITER 的試驗(yàn)數(shù)據(jù)比較漂亮,但其實(shí)研究仍存在一些局限性。例如,由于成本的限制,目前團(tuán)隊(duì)選擇使用 GPT-4o-mini 作為生成模型,并僅用于蒸餾輕量級 8b 模型。這一選擇在一定程度上限制了模型的性能表現(xiàn),如果采用更強(qiáng)大的模型,應(yīng)該可以進(jìn)一步提升 STORYWRITER 的能力。此外,當(dāng)前研究主要聚焦于英語數(shù)據(jù),這在一定程度上限制了其在全球多語言環(huán)境中的應(yīng)用范圍。還有在評估環(huán)節(jié),雖然研究者提出了一些評估方式,但“文無第一”,類似的評估可以作為參考,但無法作為市場接納度的金標(biāo)準(zhǔn)(否則即是“AI八股”)。研究者還使用了SFT方式來提升生成模型的性能,但在實(shí)戰(zhàn)落地中,SFT本身的特性,決定了它在生成性能方面,能夠提升的空間會很有限。我倒是認(rèn)為,可以嘗試通過RFT的方式,采用市場數(shù)據(jù)來進(jìn)行特定市場領(lǐng)域的強(qiáng)化微調(diào)。(注意,我特意聲明是特定市場)

在數(shù)據(jù)知識產(chǎn)權(quán)方面,研究團(tuán)隊(duì)嚴(yán)格遵守所使用數(shù)據(jù)集、模型和代碼庫的許可證規(guī)定,并承諾將代碼、LONGSTORY 數(shù)據(jù)集、STORYWRITERGLM 和 STORYWRITERLLAMA 在 MIT 許可證下進(jìn)行開源,以促進(jìn)知識共享和技術(shù)交流,這要點(diǎn)贊。在 AI 輔助方面,研究過程中雖然使用了 ChatGPT 對部分句子進(jìn)行潤色,但嚴(yán)格遵循了相關(guān)倫理規(guī)范,確保了研究的原創(chuàng)性和真實(shí)性。

長篇故事生成的未來已然到來。文字是一切內(nèi)容的起點(diǎn),IP 是泛娛樂行業(yè)的寶藏。這個源頭可以涌現(xiàn)各種形態(tài)的內(nèi)容表達(dá)形式,小說僅僅只是開端,出版、動漫、影視、游戲……是其可以延展的文學(xué)價值、商業(yè)價值。這篇論文所闡述的內(nèi)容,讓我意猶未盡,因?yàn)槔锩娴姆椒ㄋ圃嘧R,如有機(jī)會,真想與論文的作者面對面的交流一下,我有行業(yè)實(shí)踐,你有理論研究,兩相結(jié)合豈不快哉。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2024-10-15 17:28:05

2024-03-25 00:30:00

AI框架

2025-09-05 01:53:00

2025-04-07 02:00:00

2025-07-28 01:33:00

2025-04-14 10:58:53

Agno多模態(tài)智能體LangGraph

2025-01-17 11:05:00

模型訓(xùn)練

2025-07-25 10:31:52

2024-10-12 12:30:18

2023-11-30 16:34:18

2025-06-17 06:28:08

2024-07-23 14:10:48

2025-06-10 09:28:31

智能體開發(fā)工具

2023-10-13 09:49:33

模型智能

2025-10-24 10:58:24

智能體大語言模型LLM

2025-05-26 09:49:59

多模態(tài)智能體RAG

2025-07-15 04:00:00

AI智能體人工智能

2025-07-04 16:50:07

工具AI模型

2024-11-14 10:40:00

智能體模型

2025-06-25 09:32:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號