偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="ej7ju"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

STORYWRITER：長(zhǎng)篇故事生成的多智能體框架

作者：肆零柒 2025-06-30 05:30:00

大家好，我是肆〇柒。長(zhǎng)篇小說(shuō)生成一直是大型語(yǔ)言模型（LLM）頗具挑戰(zhàn)性的任務(wù)。話語(yǔ)連貫性（discourse coherence）與敘事復(fù)雜性（narrative complexity）是長(zhǎng)篇小說(shuō)生成，具有挑戰(zhàn)性的難點(diǎn)。我扒拉論文的時(shí)候發(fā)現(xiàn)由清華提出的一篇論文《WRITER: A Multi-Agent Framework for Long Story Generation》，以其創(chuàng)新性的架構(gòu)設(shè)計(jì)

大家好，我是肆〇柒。長(zhǎng)篇小說(shuō)生成一直是大型語(yǔ)言模型（LLM）頗具挑戰(zhàn)性的任務(wù)。話語(yǔ)連貫性（discourse coherence）與敘事復(fù)雜性（narrative complexity）是長(zhǎng)篇小說(shuō)生成，具有挑戰(zhàn)性的難點(diǎn)。我扒拉論文的時(shí)候發(fā)現(xiàn)由清華提出的一篇論文《WRITER: A Multi-Agent Framework for Long Story Generation》，以其創(chuàng)新性的架構(gòu)設(shè)計(jì)，為 LLM 在長(zhǎng)篇小說(shuō)生成領(lǐng)域提出了自己的見(jiàn)解。

長(zhǎng)篇小說(shuō)生成要求模型在數(shù)千詞乃至數(shù)萬(wàn)詞的篇幅中，始終保持情節(jié)的一致性、邏輯的連貫性以及內(nèi)容的完整性，這對(duì)于 LLM 來(lái)說(shuō)無(wú)疑是一個(gè)巨大的挑戰(zhàn)。現(xiàn)有 LLM 在生成超過(guò) 1000 字的長(zhǎng)故事時(shí)，往往會(huì)出現(xiàn)情節(jié)前后矛盾、邏輯斷裂、關(guān)鍵信息丟失等問(wèn)題，導(dǎo)致故事失去了連貫性和可信度。而且，長(zhǎng)篇故事的魅力在于其復(fù)雜多變的情節(jié)和豐富立體的人物關(guān)系。但大多數(shù) LLM 生成的故事卻常常顯得單一、平淡，缺乏深度和吸引力。情節(jié)發(fā)展缺乏波瀾，人物形象模糊不清，故事內(nèi)容同質(zhì)化嚴(yán)重，難以滿足讀者對(duì)于高質(zhì)量長(zhǎng)篇故事的期待。這些問(wèn)題嚴(yán)重制約了 LLM 在長(zhǎng)篇故事生成領(lǐng)域的應(yīng)用和發(fā)展，使得長(zhǎng)篇故事生成成為了自然語(yǔ)言處理領(lǐng)域需要解決的難題之一。

STORYWRITER 框架

Outline Agents（大綱智能體）：故事的“設(shè)計(jì)師”

EventSeed 智能體 ：在長(zhǎng)篇故事生成的起始階段，EventSeed 智能體負(fù)責(zé)創(chuàng)意的構(gòu)思。它基于給定的故事前提，逐步生成一系列包含關(guān)鍵要素的事件序列。這些關(guān)鍵要素涵蓋時(shí)間、地點(diǎn)、人物等重要信息，它們宛如故事大廈的基石，構(gòu)成了故事大綱的基礎(chǔ)框架。例如，對(duì)于一個(gè)關(guān)于冒險(xiǎn)的長(zhǎng)篇故事，EventSeed 智能體可能會(huì)首先生成主角踏上冒險(xiǎn)旅程的時(shí)間和地點(diǎn)，以及他將要面對(duì)的主要人物和事件。在生成過(guò)程中，EventSeed 智能體采用了基于事件圖譜的算法，通過(guò)引入事件之間的因果關(guān)系和人物角色的關(guān)聯(lián)性，確保每個(gè)新生成的事件都與前文保持邏輯連貫性和合理性。同時(shí)，為了確保事件的多樣性，EventSeed 智能體會(huì)參考大量的故事素材和情節(jié)模式，結(jié)合隨機(jī)性和創(chuàng)新性策略，生成獨(dú)特且富有吸引力的事件序列。

EventValidator 智能體 ：在故事大綱構(gòu)建過(guò)程中，EventValidator 智能體負(fù)責(zé)內(nèi)容質(zhì)檢員的角色。它持續(xù)監(jiān)控和評(píng)估 EventSeed 智能體生成的大綱，提供及時(shí)的反饋信息。其核心使命是確保每個(gè)事件都具有合理性，并且整個(gè)故事的敘事邏輯連貫順暢。EventValidator 智能體采用了多維度的評(píng)估標(biāo)準(zhǔn)來(lái)判斷事件的合理性，包括事件的因果邏輯、人物行為動(dòng)機(jī)的合理性、時(shí)間空間的一致性等。例如，如果一個(gè)事件中人物的行為與之前的性格設(shè)定或情節(jié)發(fā)展不符，EventValidator 智能體會(huì)識(shí)別這一問(wèn)題，并指導(dǎo) EventSeed 智能體進(jìn)行修正，從而保證故事大綱的質(zhì)量和可信度，為后續(xù)的故事生成奠定堅(jiān)實(shí)基礎(chǔ)。

Planning Agents（規(guī)劃智能體）：故事的“編排者”

SubTasker 模塊 ：在接到完整的故事大綱后，SubTasker 模塊就行動(dòng)起來(lái)，對(duì)高層級(jí)的事件進(jìn)行細(xì)致入微的分解。它將每個(gè)事件拆分為多個(gè)更加具體、細(xì)致的子事件，這一過(guò)程猶如將一幅宏大的故事畫卷逐漸細(xì)化為一個(gè)個(gè)栩栩如生的場(chǎng)景。通過(guò)這種分解，故事的細(xì)節(jié)得以豐富和充實(shí)，為后續(xù)的故事展開(kāi)提供了更為詳盡的內(nèi)容素材。例如，在一個(gè)戰(zhàn)爭(zhēng)場(chǎng)景的事件中，SubTasker 模塊可能會(huì)將其分解為士兵的集結(jié)、戰(zhàn)斗的爆發(fā)、戰(zhàn)術(shù)的運(yùn)用等多個(gè)子事件，使故事的敘述更加生動(dòng)具體。

Weaver 模塊 ：Weaver 模塊則依據(jù)熱奈特的敘事順序理論，運(yùn)用倒敘、預(yù)敘等非線性敘事策略，巧妙地將這些子事件分配到不同的章節(jié)之中。它如同一位嫻熟的作者，將一個(gè)個(gè)散落的事件片段編織成一個(gè)結(jié)構(gòu)緊密、邏輯連貫且富有變化的故事整體。這種非線性敘事方式一方面能夠增強(qiáng)故事的吸引力和懸念感，還能在保持?jǐn)⑹陆Y(jié)構(gòu)連貫性的基礎(chǔ)上，賦予故事更大的靈活性和多樣性，使讀者在閱讀過(guò)程中始終保持著濃厚的興趣。例如，在一個(gè)故事中，Weaver 模塊可能會(huì)將一個(gè)關(guān)鍵的事件提前放在故事的開(kāi)頭作為懸念，然后在后續(xù)的章節(jié)中逐步揭示事件的來(lái)龍去脈，通過(guò)這種方式吸引讀者的注意力并保持故事的吸引力。在實(shí)際操作中，Weaver 模塊通過(guò)構(gòu)建事件之間的邏輯關(guān)系圖，分析每個(gè)子事件在故事中的重要性和作用，從而確定其在不同章節(jié)中的最佳位置。同時(shí)，為了平衡敘事結(jié)構(gòu)的連貫性和多樣性，Weaver 模塊還會(huì)考慮章節(jié)之間的過(guò)渡和銜接，確保故事在整體上具有流暢的敘事節(jié)奏和合理的敘事順序。

Writing Agent（寫作智能體）：故事的“撰寫者”

Coordinator 智能體與 FinalWriter 智能體的協(xié)同作業(yè) ：在故事的最終撰寫階段，Coordinator 智能體和 FinalWriter 智能體緊密配合，共同完成故事的創(chuàng)作。Coordinator 智能體作為全局?jǐn)⑹录軜?gòu)的統(tǒng)籌者，貫穿于故事生成的全過(guò)程，從大綱的制定到子事件的規(guī)劃，再到最終文本的生成，它都在背后發(fā)揮著關(guān)鍵的把控作用。而 FinalWriter 智能體則專注于故事文本的具體撰寫，致力于確保故事在風(fēng)格上的統(tǒng)一性和文本質(zhì)量的高標(biāo)準(zhǔn)。兩者相輔相成，缺一不可，共同確保了故事在宏觀結(jié)構(gòu)上的連貫性和微觀敘事上的流暢性。

Re-write Input and Output（ReIO）機(jī)制 ：針對(duì) LLM 在長(zhǎng)文本生成過(guò)程中出現(xiàn)的上下文碎片化和注意力衰退問(wèn)題，所以提出了 ReIO 機(jī)制。在輸入處理環(huán)節(jié)，Coordinator 智能體憑借其強(qiáng)大的總結(jié)能力，動(dòng)態(tài)地對(duì)歷史敘事上下文進(jìn)行總結(jié)和壓縮，精準(zhǔn)地保留與當(dāng)前子事件相關(guān)的關(guān)鍵信息。這一操作有效降低了輸入信息的冗余度，減輕了模型的認(rèn)知負(fù)擔(dān)，使模型能夠更加專注于當(dāng)前的敘述任務(wù)。具體來(lái)說(shuō)，Coordinator 智能體采用了基于注意力機(jī)制的文本摘要算法，通過(guò)分析歷史上下文中每個(gè)部分與當(dāng)前子事件的相關(guān)性，自動(dòng)提取關(guān)鍵信息并生成簡(jiǎn)潔的摘要。例如，在生成一個(gè)關(guān)于主角回憶童年經(jīng)歷的章節(jié)時(shí)，Coordinator 智能體會(huì)根據(jù)之前的情節(jié)發(fā)展，提取出與童年經(jīng)歷相關(guān)的關(guān)鍵事件和情感線索，將其作為輸入提供給 FinalWriter 智能體。而在輸出處理環(huán)節(jié)，Coordinator 智能體會(huì)對(duì)生成的文本進(jìn)行嚴(yán)格審查，如有必要，會(huì)對(duì)文本進(jìn)行重寫，使其更加符合既定的敘事結(jié)構(gòu)和風(fēng)格要求。這一迭代式的重寫過(guò)程持續(xù)進(jìn)行，直至生成的文本在敘事連貫性和風(fēng)格一致性上達(dá)到理想狀態(tài)，從而有力地保障了長(zhǎng)篇故事的質(zhì)量和可讀性。例如，當(dāng)模型生成的文本出現(xiàn)與大綱不符的情節(jié)發(fā)展時(shí)，Coordinator 智能體會(huì)識(shí)別這一問(wèn)題，并對(duì)文本進(jìn)行重寫，使其回歸到原有的敘事軌跡上。

三階段故事生成框架概覽

上圖展示了 Outline Agent、Planning Agent 和 Writing Agent 如何協(xié)同工作，從事件大綱生成到章節(jié)構(gòu)建，再到最終故事合成的全過(guò)程。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果評(píng)估：用數(shù)據(jù)說(shuō)話

評(píng)估

MoPS 數(shù)據(jù)集的選取 ：為了驗(yàn)證 STORYWRITER 的性能，研究者們選用了 MoPS 數(shù)據(jù)集作為實(shí)驗(yàn)的基礎(chǔ)。相較于傳統(tǒng)方法生成的故事前提以及從文學(xué)論壇收集的故事，MoPS 數(shù)據(jù)集在質(zhì)量和信息密度方面展現(xiàn)出顯著優(yōu)勢(shì)。它為長(zhǎng)篇故事生成提供了一系列高質(zhì)量的故事前提，這些前提涵蓋了豐富的主題和情節(jié)，為模型的訓(xùn)練和評(píng)估提供了堅(jiān)實(shí)的素材基礎(chǔ)，確保了實(shí)驗(yàn)結(jié)果的可靠性和有效性。MoPS 數(shù)據(jù)集的故事前提經(jīng)過(guò)精心設(shè)計(jì)，不僅在情節(jié)上具有較高的復(fù)雜性和吸引力，而且在信息表達(dá)上更加豐富和詳細(xì)，能夠?yàn)槟Ｐ吞峁└嗟膭?chuàng)作空間和靈感。與其他數(shù)據(jù)集相比，MoPS 數(shù)據(jù)集的一個(gè)顯著特點(diǎn)是其故事前提的多樣性和創(chuàng)新性，涵蓋了從科幻冒險(xiǎn)到懸疑推理等多種類型的主題，這使得基于該數(shù)據(jù)集訓(xùn)練的模型能夠更好地適應(yīng)不同類型長(zhǎng)篇故事的生成需求。

評(píng)估框架的構(gòu)建 ：在評(píng)估過(guò)程中，研究者們采用了六個(gè)人工評(píng)估維度，分別是相關(guān)性（Relevance）、連貫性（Coherence）、共情（Empathy）、驚喜（Surprise）、創(chuàng)造力（Creativity）和復(fù)雜性（Complexity）。這些維度從多個(gè)角度全面衡量了生成故事的質(zhì)量，涵蓋了故事與主題的相關(guān)程度、情節(jié)的連貫性、情感的共鳴、情節(jié)的意外性、內(nèi)容的創(chuàng)新性以及故事的復(fù)雜程度等多個(gè)關(guān)鍵方面。同時(shí)，為了提升評(píng)估的效率和客觀性，研究者們還引入了基于 GPT-4o 的自動(dòng)化評(píng)估方法，使其與人工評(píng)估相互補(bǔ)充，共同構(gòu)成了一套全面且嚴(yán)謹(jǐn)?shù)脑u(píng)估體系。在人工評(píng)估中，參與評(píng)估的人員均為具有豐富文學(xué)背景和專業(yè)知識(shí)的英語(yǔ)專業(yè)研究生，他們的 TOEFL 成績(jī)均在 108 分以上，具備較高的語(yǔ)言水平和文學(xué)鑒賞能力。為了確保評(píng)估結(jié)果的客觀性和一致性，評(píng)估過(guò)程采用了盲評(píng)的方式，并且對(duì)每個(gè)維度的評(píng)分標(biāo)準(zhǔn)進(jìn)行了詳細(xì)的定義和培訓(xùn)。在自動(dòng)化評(píng)估中，GPT-4o 模型通過(guò)對(duì)大量人類標(biāo)注數(shù)據(jù)的學(xué)習(xí)，能夠準(zhǔn)確地對(duì)故事的各個(gè)維度進(jìn)行評(píng)分，并且研究人員還對(duì)其評(píng)分結(jié)果進(jìn)行了多次驗(yàn)證，以確保其可靠性和有效性。

基線模型的對(duì)比 ：為了直觀地展現(xiàn) STORYWRITER 的優(yōu)勢(shì)，研究者們將其與多種基線模型進(jìn)行了對(duì)比實(shí)驗(yàn)。這些基線模型包括 DOC 方法、Agents’ Room 框架以及直接使用 GPT-4o-mini 生成故事的方法。在實(shí)驗(yàn)中，研究者們?cè)敿?xì)地實(shí)現(xiàn)了每種方法，并對(duì)其適用性進(jìn)行了深入分析，從而確保了對(duì)比實(shí)驗(yàn)的公平性和合理性，為準(zhǔn)確評(píng)估 STORYWRITER 的性能提供了有力保障。例如，在實(shí)現(xiàn) DOC 方法時(shí)，研究人員嚴(yán)格按照其最新版本的算法流程進(jìn)行操作，并且在使用 GPT-4o-mini 生成故事時(shí)，對(duì)輸入?yún)?shù)和生成條件進(jìn)行了精細(xì)調(diào)整，以確保其性能能夠得到充分發(fā)揮。

主要實(shí)驗(yàn)結(jié)果：STORYWRITER 的表現(xiàn)

在人工評(píng)估和自動(dòng)化評(píng)估中，STORYWRITER 憑借其出色的表現(xiàn)，在各項(xiàng)指標(biāo)上均取得了顯著領(lǐng)先的成績(jī)。

三階段故事生成框架概覽

以表格形式直觀呈現(xiàn)的實(shí)驗(yàn)結(jié)果顯示，STORYWRITER 在長(zhǎng)篇故事生成質(zhì)量上大幅超越了其他基線模型。在相關(guān)性和連貫性方面，它成功地超越了 DOC 和 GPT-4o-mini，這表明其生成的故事在情節(jié)的合理性和邏輯的順暢性上具有明顯優(yōu)勢(shì)。盡管在內(nèi)容多樣性創(chuàng)造性上略遜于 Agents’ Room，但綜合考慮所有評(píng)估維度，STORYWRITER 依然展現(xiàn)出了卓越的整體質(zhì)量，并且在生成故事的長(zhǎng)度上遠(yuǎn)遠(yuǎn)超過(guò)了其他模型，充分驗(yàn)證了其在生成較長(zhǎng)篇幅故事時(shí)的有效性和可靠性，有力地證明了其在長(zhǎng)篇故事生成領(lǐng)域的強(qiáng)大實(shí)力。

人類和自動(dòng)評(píng)分的實(shí)驗(yàn)結(jié)果

上表展示了 STORYWRITER 在不同評(píng)估維度上的具體得分，凸顯其在長(zhǎng)篇故事生成中的卓越表現(xiàn)。

消融實(shí)驗(yàn)：關(guān)鍵組件的重要性驗(yàn)證

消融實(shí)驗(yàn)作為評(píng)估模型性能的重要手段，通過(guò)移除 STORYWRITER 的關(guān)鍵組件，深入探究每個(gè)組件在框架中的重要性和作用。實(shí)驗(yàn)結(jié)果清晰地表明，當(dāng)去除事件大綱時(shí)，所有評(píng)估指標(biāo)均出現(xiàn)了大幅下降，這凸顯了事件大綱作為故事基礎(chǔ)框架的關(guān)鍵作用。而移除非線性敘事策略后，復(fù)雜性得分顯著降低，充分證明了非線性敘事策略對(duì)于提升故事的多樣性和吸引力具有不可或缺的價(jià)值。同樣，分別移除 ReIO 輸入機(jī)制和 ReIO 輸出機(jī)制后，模型的性能也均受到了不同程度的影響，進(jìn)一步驗(yàn)證了 ReIO 機(jī)制在應(yīng)對(duì)長(zhǎng)文本生成挑戰(zhàn)中的關(guān)鍵作用。這些實(shí)驗(yàn)結(jié)果有力地證明了 STORYWRITER 中各個(gè)組件的緊密協(xié)作對(duì)于生成高質(zhì)量長(zhǎng)篇故事的不可或缺性。例如，在生成一個(gè)復(fù)雜的科幻故事時(shí)，事件大綱為故事提供了清晰的結(jié)構(gòu)和方向，非線性敘事策略使得故事中的時(shí)間線交錯(cuò)重疊，增加了故事的懸念和復(fù)雜性。而 ReIO 機(jī)制則確保了在長(zhǎng)篇幅的敘述中，故事的連貫性和一致性得以保持，使得整個(gè)故事更加引人入勝。

消融實(shí)驗(yàn)結(jié)果

上表展示了移除不同組件后模型性能的變化，強(qiáng)調(diào)了每個(gè)組件對(duì)整體性能的關(guān)鍵貢獻(xiàn)。

關(guān)于總結(jié)上下文的分析：優(yōu)化長(zhǎng)文本生成的關(guān)鍵環(huán)節(jié)

在長(zhǎng)文本生成過(guò)程中，LLM 常常會(huì)遭遇重復(fù)、幻覺(jué)、主題漂移等棘手問(wèn)題，而這些問(wèn)題與前文上下文的長(zhǎng)度存在著密切的關(guān)聯(lián)。為了有效解決這一問(wèn)題，研究者們引入了總結(jié)智能體，并創(chuàng)新性地采用了滑動(dòng)窗口機(jī)制來(lái)簡(jiǎn)化輸入上下文，同時(shí)保留關(guān)鍵信息。通過(guò)一系列受控實(shí)驗(yàn)，研究者們對(duì)不同滑動(dòng)窗口配置下的敘事質(zhì)量進(jìn)行了細(xì)致評(píng)估，最終得出在 15000 個(gè)詞以下的文本中，[2, k-1] 滑動(dòng)窗口配置能夠取得最佳的敘事效果。這一重要發(fā)現(xiàn)為優(yōu)化長(zhǎng)文本生成過(guò)程中的上下文處理提供了關(guān)鍵依據(jù)，有助于進(jìn)一步提升長(zhǎng)篇故事生成的質(zhì)量和連貫性。例如，在一個(gè)長(zhǎng)篇?dú)v史小說(shuō)的生成過(guò)程中，滑動(dòng)窗口機(jī)制能夠動(dòng)態(tài)地總結(jié)之前的情節(jié)發(fā)展和人物關(guān)系，使得模型在生成后續(xù)章節(jié)時(shí)能夠準(zhǔn)確地把握故事的方向，避免出現(xiàn)情節(jié)混亂或人物行為不一致的問(wèn)題。

不同窗口長(zhǎng)度的結(jié)果

上圖展示了不同滑動(dòng)窗口配置下敘事質(zhì)量的評(píng)估結(jié)果，直觀地說(shuō)明了最佳滑動(dòng)窗口配置的選擇依據(jù)。

構(gòu)建 LONGSTORY 數(shù)據(jù)集：高質(zhì)量數(shù)據(jù)的“寶藏庫(kù)”

研究者們利用 STORYWRITER 生成了一個(gè)名為 LONGSTORY 的高質(zhì)量長(zhǎng)篇故事數(shù)據(jù)集。在構(gòu)建過(guò)程中，首先從 MoPS 訓(xùn)練集中收集了 6000 個(gè)故事前提，然后充分發(fā)揮 STORYWRITER 的強(qiáng)大生成能力，為每個(gè)前提創(chuàng)作出完整的故事。在完成初步生成后，研究者們對(duì)故事進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)清洗工作，剔除了篇幅過(guò)短、格式不符合要求以及質(zhì)量較低的故事。同時(shí)，為了降低監(jiān)督微調(diào)（SFT）訓(xùn)練過(guò)程中過(guò)擬合特定文本結(jié)構(gòu)的風(fēng)險(xiǎn)，對(duì)多章節(jié)的故事進(jìn)行了合并處理。經(jīng)過(guò)這一系列精細(xì)的加工和篩選流程，最終成功構(gòu)建出包含 5500 個(gè)平均約 8000 字故事的高質(zhì)量數(shù)據(jù)集 LONGSTORY。

LONGSTORY 數(shù)據(jù)集的構(gòu)建，為模型的監(jiān)督微調(diào)（SFT）提供了豐富且優(yōu)質(zhì)的訓(xùn)練素材，而且相較于其他方法，其優(yōu)勢(shì)尤為顯著。其豐富多樣的故事情節(jié)和長(zhǎng)文本特性能夠更加精準(zhǔn)地滿足模型在長(zhǎng)篇故事生成能力培養(yǎng)方面的需求，為提升模型的長(zhǎng)篇故事生成水平提供了有力支持，推動(dòng)了整個(gè)長(zhǎng)篇故事生成領(lǐng)域的研究和發(fā)展。

數(shù)據(jù)集構(gòu)建

數(shù)據(jù)清洗的具體標(biāo)準(zhǔn)和方法

? 篇幅過(guò)短的判斷標(biāo)準(zhǔn) ：如果故事的長(zhǎng)度低于預(yù)設(shè)的閾值（例如 5000 字），則認(rèn)為篇幅過(guò)短。這可能導(dǎo)致故事內(nèi)容不夠完整，無(wú)法充分展現(xiàn)情節(jié)的發(fā)展和人物的成長(zhǎng)，因此需要剔除。在判斷篇幅時(shí)，研究人員考慮了字?jǐn)?shù)，同時(shí)綜合評(píng)估故事是否具備完整的起承轉(zhuǎn)合結(jié)構(gòu)，以及是否能夠充分展開(kāi)主題和人物關(guān)系等因素。

? 格式不符合要求的情況 ：檢查故事的格式是否符合統(tǒng)一的標(biāo)準(zhǔn)，例如章節(jié)劃分是否清晰、標(biāo)點(diǎn)符號(hào)使用是否規(guī)范、文本編碼是否正確等。不符合格式要求的故事可能會(huì)在后續(xù)的處理和訓(xùn)練過(guò)程中引發(fā)問(wèn)題，需要進(jìn)行修正或剔除。在檢查章節(jié)劃分時(shí)，研究人員依據(jù)以下標(biāo)準(zhǔn)進(jìn)行判斷：章節(jié)之間是否具有明確的主題劃分，每個(gè)章節(jié)是否具有相對(duì)獨(dú)立的情節(jié)發(fā)展，以及章節(jié)之間的過(guò)渡是否自然流暢等。對(duì)于不符合要求的故事，會(huì)根據(jù)具體情況對(duì)其進(jìn)行結(jié)構(gòu)調(diào)整或直接剔除。

? 質(zhì)量較低的評(píng)估方法 ：通過(guò)人工評(píng)估和自動(dòng)化評(píng)估相結(jié)合的方式，對(duì)故事的質(zhì)量進(jìn)行綜合判斷。評(píng)估指標(biāo)包括情節(jié)的合理性、人物的立體性、語(yǔ)言的流暢性等。如果故事在多個(gè)評(píng)估指標(biāo)上得分較低，則被視為質(zhì)量較低的故事，需要進(jìn)行優(yōu)化或剔除。在人工評(píng)估中，評(píng)估人員會(huì)從讀者的角度對(duì)故事進(jìn)行細(xì)致的閱讀和分析，對(duì)每個(gè)評(píng)估指標(biāo)進(jìn)行量化評(píng)分。在自動(dòng)化評(píng)估中，則利用 GPT-4o 模型對(duì)故事進(jìn)行多維度的分析和評(píng)分，綜合兩者的評(píng)估結(jié)果來(lái)最終確定故事的質(zhì)量等級(jí)。

多章節(jié)故事合并的策略

? 合并的必要性 ：多章節(jié)故事合并有助于減少數(shù)據(jù)集中的冗余信息，提高數(shù)據(jù)的利用率，同時(shí)避免模型在訓(xùn)練過(guò)程中過(guò)度適應(yīng)特定的章節(jié)結(jié)構(gòu)，增強(qiáng)模型的泛化能力。

? 合并方法 ：按照章節(jié)的敘事邏輯和內(nèi)容連貫性進(jìn)行合并。例如，將同一情節(jié)線索下的相鄰章節(jié)合并為一個(gè)完整的段落，同時(shí)保留章節(jié)之間的重要過(guò)渡信息，確保故事的連貫性和完整性。合并后的章節(jié)長(zhǎng)度控制在合理的范圍內(nèi)，以適應(yīng)模型的輸入要求。在合并過(guò)程中，研究人員會(huì)仔細(xì)分析每個(gè)章節(jié)的內(nèi)容和結(jié)構(gòu)，確保合并后的故事在情節(jié)發(fā)展和人物關(guān)系上保持連貫性和一致性。

LONGSTORY 數(shù)據(jù)集的樣例和統(tǒng)計(jì)信息展示

? 故事樣例 ：選取了幾個(gè)具有代表性的故事樣例，展示了它們的主題、事件序列、章節(jié)劃分等關(guān)鍵信息。例如，一個(gè)關(guān)于科幻冒險(xiǎn)主題的故事，其事件序列包括主角發(fā)現(xiàn)神秘信號(hào)、組建探險(xiǎn)隊(duì)伍、探索未知星球、遭遇外星生物等關(guān)鍵事件，章節(jié)劃分則根據(jù)情節(jié)的起伏和轉(zhuǎn)折進(jìn)行合理安排。這些樣例故事不僅情節(jié)豐富多樣，而且在敘事結(jié)構(gòu)和人物塑造上各具特色，充分體現(xiàn)了 LONGSTORY 數(shù)據(jù)集的高質(zhì)量和多樣化特點(diǎn)。

? 統(tǒng)計(jì)信息 ：提供了數(shù)據(jù)集中故事的主題分布（如冒險(xiǎn)、愛(ài)情、科幻、懸疑等）、事件類型分布（如沖突、轉(zhuǎn)折、高潮等）、平均故事長(zhǎng)度等統(tǒng)計(jì)圖表。這些統(tǒng)計(jì)信息幫助讀者更直觀地了解數(shù)據(jù)集的特點(diǎn)和質(zhì)量，為研究人員和開(kāi)發(fā)者選擇合適的數(shù)據(jù)集提供了參考依據(jù)。例如，統(tǒng)計(jì)結(jié)果顯示，LONGSTORY 數(shù)據(jù)集中冒險(xiǎn)類主題的故事占比最高，達(dá)到了 35%，其次是愛(ài)情類主題，占比為 28%。這些數(shù)據(jù)反映了數(shù)據(jù)集的豐富性，也為研究人員在特定主題的研究中提供了有針對(duì)性的素材。

基于 LONGSTORY 的模型微調(diào)與評(píng)估

實(shí)驗(yàn)設(shè)置：明確的評(píng)估標(biāo)準(zhǔn)與方法

在基于 LONGSTORY 數(shù)據(jù)集的模型微調(diào)實(shí)驗(yàn)中，研究者們繼續(xù)采用 MoPS 數(shù)據(jù)集作為評(píng)估的基礎(chǔ)。鑒于人工評(píng)估成本較高，此次實(shí)驗(yàn)主要依賴自動(dòng)化評(píng)估方法來(lái)對(duì)模型性能進(jìn)行客觀衡量。除了對(duì)故事內(nèi)容質(zhì)量從六個(gè)關(guān)鍵維度進(jìn)行評(píng)估外，研究者們還特別引入了 LongBench-Write 評(píng)估方法中的長(zhǎng)度評(píng)分指標(biāo)。這一指標(biāo)能夠精準(zhǔn)地衡量模型生成文本長(zhǎng)度與指令要求的匹配程度，從而全面評(píng)估模型在生成長(zhǎng)篇故事時(shí)的長(zhǎng)度控制能力和內(nèi)容質(zhì)量，為模型的優(yōu)化提供了更具針對(duì)性的指導(dǎo)。在自動(dòng)化評(píng)估中，GPT-4o 模型通過(guò)對(duì)故事的六個(gè)質(zhì)量維度進(jìn)行逐項(xiàng)評(píng)分，并結(jié)合長(zhǎng)度評(píng)分指標(biāo)，最終生成綜合評(píng)分結(jié)果。研究人員對(duì)每個(gè)模型在不同長(zhǎng)度要求下的表現(xiàn)進(jìn)行了詳細(xì)的記錄和分析，以確保評(píng)估結(jié)果的全面性和準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果：STORYWRITERLLAMA 與 STORYWRITERGLM 的驚艷表現(xiàn)

在不同長(zhǎng)度要求下，STORYWRITERLLAMA 和 STORYWRITERGLM 均展現(xiàn)出了卓越的故事生成能力。實(shí)驗(yàn)結(jié)果顯示，這兩款模型在故事質(zhì)量評(píng)分（Sq）、長(zhǎng)度評(píng)分（Sl）以及綜合評(píng)分（S）等多個(gè)指標(biāo)上均大幅領(lǐng)先于其他基線模型，包括 Llama3.1-8B-Instruct、GLM4-9B、LongWriter-GLM4-9B、LongWriter-Llama3.1-8B、Deepseek-Llama-8B、Deepseek-Llama-70B 等。特別是在長(zhǎng)篇故事生成方面，STORYWRITERLLAMA 和 STORYWRITERGLM 憑借其對(duì)長(zhǎng)度約束的精準(zhǔn)把控和高質(zhì)量的內(nèi)容輸出，明顯優(yōu)于其他模型。這一出色表現(xiàn)充分證明了基于 LONGSTORY 數(shù)據(jù)集的模型微調(diào)方法的有效性，表明 LONGSTORY 數(shù)據(jù)集在提升模型長(zhǎng)篇故事生成能力方面具有顯著優(yōu)勢(shì)，為長(zhǎng)篇故事生成任務(wù)帶來(lái)了新的突破和進(jìn)展。例如，在生成一個(gè) 10000 字的長(zhǎng)篇故事時(shí)，STORYWRITERLLAMA 能夠準(zhǔn)確地把握故事的主題和發(fā)展方向，生成情節(jié)豐富、人物形象鮮明的故事，并且在長(zhǎng)度控制上表現(xiàn)出了極高的精度，幾乎完全符合指令要求的長(zhǎng)度范圍。

STORYWRITERLLAMA、STORYWRITERGLM 及基線模型的實(shí)驗(yàn)結(jié)果

上表展示了各模型在不同指標(biāo)上的具體表現(xiàn)，彰顯了 STORYWRITERLLAMA 和 STORYWRITERGLM 的卓越性能。

總結(jié)

STORYWRITER 算是我看到的長(zhǎng)篇故事生成領(lǐng)域的第一篇論文。它提出了多智能體長(zhǎng)篇故事生成框架，通過(guò)模擬人類創(chuàng)作過(guò)程中的不同角色和任務(wù)分工，巧妙地解決了長(zhǎng)篇故事生成中的 discourse coherence 和 narrative complexity 等核心難題。同時(shí)，它構(gòu)建了高質(zhì)量的數(shù)據(jù)集 LONGSTORY，為模型的訓(xùn)練和評(píng)估提供了豐富的資源。此外，STORYWRITER 還開(kāi)發(fā)出先進(jìn)的長(zhǎng)篇故事生成 LLM STORYWRITERLLAMA 和 STORYWRITERGLM，這些模型在長(zhǎng)篇故事生成任務(wù)中展現(xiàn)出了卓越的性能。

盡管 STORYWRITER 的試驗(yàn)數(shù)據(jù)比較漂亮，但其實(shí)研究仍存在一些局限性。例如，由于成本的限制，目前團(tuán)隊(duì)選擇使用 GPT-4o-mini 作為生成模型，并僅用于蒸餾輕量級(jí) 8b 模型。這一選擇在一定程度上限制了模型的性能表現(xiàn)，如果采用更強(qiáng)大的模型，應(yīng)該可以進(jìn)一步提升 STORYWRITER 的能力。此外，當(dāng)前研究主要聚焦于英語(yǔ)數(shù)據(jù)，這在一定程度上限制了其在全球多語(yǔ)言環(huán)境中的應(yīng)用范圍。還有在評(píng)估環(huán)節(jié)，雖然研究者提出了一些評(píng)估方式，但“文無(wú)第一”，類似的評(píng)估可以作為參考，但無(wú)法作為市場(chǎng)接納度的金標(biāo)準(zhǔn)（否則即是“AI八股”）。研究者還使用了SFT方式來(lái)提升生成模型的性能，但在實(shí)戰(zhàn)落地中，SFT本身的特性，決定了它在生成性能方面，能夠提升的空間會(huì)很有限。我倒是認(rèn)為，可以嘗試通過(guò)RFT的方式，采用市場(chǎng)數(shù)據(jù)來(lái)進(jìn)行特定市場(chǎng)領(lǐng)域的強(qiáng)化微調(diào)。（注意，我特意聲明是特定市場(chǎng)）

在數(shù)據(jù)知識(shí)產(chǎn)權(quán)方面，研究團(tuán)隊(duì)嚴(yán)格遵守所使用數(shù)據(jù)集、模型和代碼庫(kù)的許可證規(guī)定，并承諾將代碼、LONGSTORY 數(shù)據(jù)集、STORYWRITERGLM 和 STORYWRITERLLAMA 在 MIT 許可證下進(jìn)行開(kāi)源，以促進(jìn)知識(shí)共享和技術(shù)交流，這要點(diǎn)贊。在 AI 輔助方面，研究過(guò)程中雖然使用了 ChatGPT 對(duì)部分句子進(jìn)行潤(rùn)色，但嚴(yán)格遵循了相關(guān)倫理規(guī)范，確保了研究的原創(chuàng)性和真實(shí)性。

長(zhǎng)篇故事生成的未來(lái)已然到來(lái)。文字是一切內(nèi)容的起點(diǎn)，IP 是泛娛樂(lè)行業(yè)的寶藏。這個(gè)源頭可以涌現(xiàn)各種形態(tài)的內(nèi)容表達(dá)形式，小說(shuō)僅僅只是開(kāi)端，出版、動(dòng)漫、影視、游戲……是其可以延展的文學(xué)價(jià)值、商業(yè)價(jià)值。這篇論文所闡述的內(nèi)容，讓我意猶未盡，因?yàn)槔锩娴姆椒ㄋ圃嘧R(shí)，如有機(jī)會(huì)，真想與論文的作者面對(duì)面的交流一下，我有行業(yè)實(shí)踐，你有理論研究，兩相結(jié)合豈不快哉。

責(zé)任編輯：龐桂玉來(lái)源：覺(jué)察流

LLM 人工智能智能體 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)