斯坦福開(kāi)源學(xué)術(shù)研究神器STORM再進(jìn)化,AI智能體像人一樣進(jìn)行圓桌討論
今年 4 月,斯坦福大學(xué)推出了一款利用大語(yǔ)言模型(LLM)輔助編寫(xiě)類(lèi)維基百科文章的神器。它就是開(kāi)源的 STORM,可以在三分鐘左右將你輸入的主題轉(zhuǎn)換為長(zhǎng)篇文章或者研究論文,并能夠以 PDF 格式直接下載。
具體來(lái)講,STORM 在 LLM 的協(xié)助下,通過(guò)檢索、多角度提問(wèn)和模擬專(zhuān)家對(duì)話(huà)等方式,在整理收集到的信息基礎(chǔ)上生成寫(xiě)作大綱,并最終形成一份詳細(xì)、深入和準(zhǔn)確的內(nèi)容報(bào)告。STORM 尤其擅長(zhǎng)需要大量研究和引用的寫(xiě)作任務(wù)。更難得的是,用戶(hù)可以直接在 STORM 的網(wǎng)站免費(fèi)體驗(yàn)。
此后,STORM 不斷推出新的功能和服務(wù),在 GitHub 上的 Star 量已經(jīng)超過(guò)了 12k。

GitHub 地址:https://github.com/stanford-oval/storm
就在最近,該團(tuán)隊(duì)又推出全新功能 ——Co-STORM。與 STORM 的區(qū)別在于,它引入了協(xié)作對(duì)話(huà)機(jī)制,并采用輪次管理策略,實(shí)現(xiàn)流暢的協(xié)作式 AI 學(xué)術(shù)研究。功能包括如下:
Co-STORM LLM 專(zhuān)家:這種類(lèi)型的智能體會(huì)根據(jù)外部知識(shí)來(lái)源生成答案并能根據(jù)對(duì)話(huà)歷史提出后續(xù)問(wèn)題。
主持人(Moderator):該智能體會(huì)根據(jù)檢索器發(fā)現(xiàn)但未在前幾輪直接使用的信息生成發(fā)人深省的問(wèn)題。當(dāng)然,問(wèn)題生成也可以基于事實(shí)。
人類(lèi)用戶(hù):人類(lèi)用戶(hù)將主動(dòng)觀察對(duì)話(huà)以更深入地了解主題,或者通過(guò)注入對(duì)話(huà)來(lái)引導(dǎo)討論焦點(diǎn),積極參與對(duì)話(huà)。
Co-STORM 的界面是下面這樣的。

體驗(yàn)地址:https://storm.genie.stanford.edu/
我們讓 Co-STORM 就戰(zhàn)爭(zhēng)與和平(war and peace)主題來(lái)生成一篇文章,大約需要三分鐘。

在生成文章之后,我們可以看到,主持人提出問(wèn)題,并得到基本信息提供者、文學(xué)教授、紀(jì)錄片導(dǎo)演等不同 AI 智能體的回復(fù),然后開(kāi)啟新一輪次的提問(wèn)。

此外,Co-STORM 的相關(guān)論文已被 EMNLP 2024 主會(huì)議收錄。

論文地址:https://www.arxiv.org/pdf/2408.15232
運(yùn)行原理概覽
下圖為 Co-STORM 框架。整體而言,Co-STORM 模擬用戶(hù)、觀點(diǎn)引導(dǎo)專(zhuān)家和主持人之間的協(xié)作對(duì)話(huà)。
運(yùn)行原理如下所示:首先維護(hù)動(dòng)態(tài)更新的思維導(dǎo)圖(3.2),從而幫助用戶(hù)跟蹤和參與對(duì)話(huà)(3.3)。
在 3.4,提示模擬專(zhuān)家根據(jù)對(duì)話(huà)歷史來(lái)確定對(duì)話(huà)意圖,并生成基于互聯(lián)網(wǎng)的問(wèn)題或答案。
在 3.5,提示模擬主持人利用未使用的信息和思維導(dǎo)圖生成新問(wèn)題,從而自動(dòng)引導(dǎo)對(duì)話(huà)。
最后,思維導(dǎo)圖可用來(lái)生成完整的引用報(bào)告以作為總結(jié)。

評(píng)估結(jié)果
自動(dòng)評(píng)估可以實(shí)現(xiàn)可擴(kuò)展測(cè)試,并允許對(duì)用戶(hù)行為進(jìn)行一致的模擬。
研究者將 Co-STORM 與以下基線進(jìn)行比較:(1)RAG Chatbot,該基線從搜索引擎檢索信息并通過(guò)一問(wèn)一答范式與用戶(hù)交互;(2)STORM + QA,該基線使用 STORM 框架為給定主題生成報(bào)告以提供基本信息。
下表 3 展示了報(bào)告質(zhì)量和對(duì)話(huà)中問(wèn)答輪次質(zhì)量的評(píng)估結(jié)果。問(wèn)答輪次和最終報(bào)告是人類(lèi)與 Co-STORM 交互時(shí)學(xué)習(xí)的主要來(lái)源。STORM + QA 在研究給定主題時(shí)考慮了多種觀點(diǎn),與 RAG Chatbot 相比,確實(shí)提高了報(bào)告質(zhì)量所有四個(gè)評(píng)分維度的表現(xiàn)。
同樣,Co-STORM 的表現(xiàn)優(yōu)于 RAG Chatbot,特別是在深度和新穎性方面,它通過(guò)模擬具有多個(gè)智能體角色的協(xié)作對(duì)話(huà),類(lèi)似于圓桌討論。就對(duì)話(huà)質(zhì)量而言,Co-STORM 中的問(wèn)答輪次在一致性和參與度方面明顯優(yōu)于兩個(gè)基線。

Co-STORM 的一個(gè)關(guān)鍵特性是 LM 智能體可以代表用戶(hù)提問(wèn)。如下圖 3 所示,在檢查提問(wèn)輪次時(shí),Co-STORM 多智能體設(shè)計(jì)的優(yōu)勢(shì)變得更加明顯,只需要一位專(zhuān)家和一位主持人就可以極大地獲益。
重要的是,CoSTORM 中的主持人角色會(huì)根據(jù)有關(guān)主題的未使用信息提出問(wèn)題。這樣的角色代表?yè)碛懈嘁阎粗╧nown unknowns)的人,有效地引導(dǎo)對(duì)話(huà),幫助用戶(hù)在未知未知(unknown unknowns)空間中發(fā)現(xiàn)更多信息。

下表 4 為人工評(píng)分結(jié)果,圖 4 為成對(duì)比較結(jié)果。可以得出結(jié)論,CoSTORM 可以幫助用戶(hù)找到與其目標(biāo)相關(guān)的更廣泛、更深層次的信息。


更多技術(shù)細(xì)節(jié)和評(píng)估結(jié)果請(qǐng)參考原論文。































