斯坦福AI科研神器開源,一鍵成文GPT-4o mini加持!科研寫作徹底解放雙手
AI寫作神器,竟被斯坦福開源了!
在OpenAI與Perplexity絞盡腦汁去動(dòng)谷歌搜索的蛋糕時(shí),斯坦福研究團(tuán)隊(duì)卻「于無聲處響驚雷」,一鳴驚人推出了支持避開信息盲點(diǎn)、全面整合可靠信息、從頭寫出維基長文的STORM&Co-STORM系統(tǒng)。
圖片
背后模型是由必應(yīng)搜索,以及GPT-4o mini加持。
圖片
簡單來講,STORM&Co-STORM系統(tǒng)分為兩部分。
STORM通過讓「LLM專家」與「LLM主持人」進(jìn)行多角度問答,以此從提綱,到段落與文章的迭代式生成。
Co-STORM則是能夠通過讓多智能體之間互相對(duì)話并生成可交互的動(dòng)態(tài)思維導(dǎo)圖,以避免遺漏掉用戶沒注意到的信息需求。
該系統(tǒng)只需輸入英文主題詞,就能生成有效整合了多源信息的高質(zhì)量長文(如維基百科文章)。
圖片
體驗(yàn)鏈接:https://storm.genie.stanford.edu/
進(jìn)入主頁,可以自選模式STORM和Co-STORM。
圖片
給定主題后,STORM便可以在3分鐘內(nèi)就形成如下演示中的一篇「形神兼?zhèn)洹沟慕Y(jié)構(gòu)化高質(zhì)量長文。
圖片
我們也可以在給出的文章上面點(diǎn)擊「See BrainSTORMing Process」來獲取如下圖所示中,不同LLM Role的頭腦風(fēng)暴過程。
圖片
在「發(fā)現(xiàn)」欄中,還可以參考當(dāng)前其他學(xué)者生成的一些文章,以及聊天的示例。
圖片
另外,個(gè)人生成的文章和聊天記錄,都可以在側(cè)邊欄My Library中找到。
系統(tǒng)一經(jīng)發(fā)布,大家紛紛上手體驗(yàn),許多人驚嘆道,STORM & Co-STORM實(shí)在讓人眼前一亮!
「你只需輸入一個(gè)主題,它就會(huì)搜索數(shù)百個(gè)網(wǎng)站,然后把主要發(fā)現(xiàn)寫成一篇文章。關(guān)鍵是每個(gè)人都可以免費(fèi)使用!」
圖片
網(wǎng)友Josh Peterson更是利用STORM,第一時(shí)間去結(jié)合NotebookLLM自動(dòng)生成了播客。
具體流程是這樣的:使用STORM生成4篇文章,然后將其中2篇提交給GPT-4o分析并提出后續(xù)主題。最后再把它們添加到NotebookLM里,一期有聲的播客就做好了。
圖片
網(wǎng)友Pavan Kumar則是認(rèn)為STORM揭示了一個(gè)重大趨勢(shì):「 就算是沒有博士學(xué)歷,也可以創(chuàng)作出現(xiàn)階段博士生才能有的成果。而將來一年的課程內(nèi)容也足以媲美如今4-7年才能修讀到的課程內(nèi)容。」
圖片
STORM協(xié)助從頭寫出維基好文
圖片
論文鏈接:https://arxiv.org/pdf/2402.14207
傳統(tǒng)長文寫作(如維基百科文章)需要大量人工進(jìn)行寫作前的準(zhǔn)備,包括資料搜集和大綱構(gòu)建,而目前的生成式寫作方法通常忽略這些步驟。
但是這也意味著生成文章往往面臨著信息角度覆蓋不周到,文章內(nèi)容不夠充實(shí)的問題。
而STORM可以通過多個(gè)LLM-Role互相提問與回答來讓文章內(nèi)容所涉及的角度更加詳實(shí)周全。
如下圖所示,STORM系統(tǒng)分為三大階段:
1. 多視角問題生成:
- 為了覆蓋主題的不同方面,系統(tǒng)引入多角色模擬(如專家、普通用戶),并生成視角引導(dǎo)的問題- 圖(A)顯示了簡單問題生成的效果有限,圖(B)演示了通過視角引導(dǎo)問題生成的多樣性提升
2. 大綱生成與完善:
- 使用模型的內(nèi)置知識(shí)生成初步大綱。- 系統(tǒng)通過對(duì)話(圖C)模擬提問并完善大綱,使其更具深度
3. 全文生成:
- 基于大綱逐節(jié)生成文章,利用檢索到的信息增加內(nèi)容可信度和引用
圖片
從給定的主題入手,STORM系統(tǒng)通過查閱相關(guān)的維基百科文章(步驟1-2)來確定涵蓋該主題的各種視角。
接著,它會(huì)模擬這樣一場(chǎng)對(duì)話:一方是維基百科撰寫者,其會(huì)依據(jù)給定視角提出問題,另一方則是基于可靠網(wǎng)絡(luò)來源的專家(步驟3-6)。
根據(jù)LLM的固有知識(shí), 從不同視角收集到的對(duì)話內(nèi)容, 最終精心編排了寫作大綱(步驟7-8)。
STORM系統(tǒng)自動(dòng)化寫作的整體流程
由于早期的研究采用了不同的設(shè)置,并未使用大語言模型(LLM),因此難以直接進(jìn)行比較。
所以研究者使用了以下三種基于LLM的基線方法:
1. Direct Gen:一種直接提示LLM生成提綱的基線方法,生成的提綱隨后用于創(chuàng)作完整的文章。
2. RAG:一種檢索增強(qiáng)生成(Retrieval-Augmented Generation)基線方法,該方法通過主題進(jìn)行搜索,并利用搜索結(jié)果與主題一起生成提綱或完整的文章。
3. oRAG(提綱驅(qū)動(dòng)的RAG):與RAG在提綱創(chuàng)建上完全一致,但進(jìn)一步通過章節(jié)標(biāo)題檢索額外信息,以逐章節(jié)地生成文章內(nèi)容。
圖片
從上表可以發(fā)現(xiàn),利用STORM生成的文章完全不輸于人類水平,并且也優(yōu)于目前LLM生成文章的幾種范式,如效果最強(qiáng)的oRAG。
但不可否認(rèn)的是,STORM生成文章的質(zhì)量在中立性和可驗(yàn)證性方面仍然落后于經(jīng)過精心修訂的人工撰寫文章。
雖然STORM在研究給定主題時(shí)發(fā)現(xiàn)了不同的視角,但收集的信息可能仍然傾向于互聯(lián)網(wǎng)的主流來源,并可能包含促銷內(nèi)容。
該研究的另一個(gè)局限性是,盡管研究者專注于從零開始生成類似維基百科文章,但他們也僅考慮生成自由組織的文本。而人工撰寫的高質(zhì)量維基百科文章通常包含結(jié)構(gòu)化數(shù)據(jù)和多模態(tài)信息。
因此,目前利用LLM生成文章所面臨的最關(guān)鍵的挑戰(zhàn),依然是基于事實(shí)去生成擁有多模態(tài)結(jié)構(gòu)的高質(zhì)量文章。
智能體溝通打破人類盲點(diǎn),顯著降低認(rèn)知負(fù)擔(dān)
對(duì)于一些學(xué)習(xí)任務(wù)來講,在搜集整合信息中,通常會(huì)由于個(gè)人或搜索引擎偏好而造成信息遺漏,以至于無法觸及信息盲點(diǎn)(即未意識(shí)到的信息需求)。
研究團(tuán)隊(duì)在下列論文中所提出的Co-STORM正是為了改善這一情況,以大幅促進(jìn)學(xué)習(xí)效率。
圖片
論文鏈接:https://www.arxiv.org/abs/2408.15232
在學(xué)習(xí)工作中,使用搜索引擎面臨著需要閱覽過多的冗余信息,而和Chatbots問答聊天,則又不知道如何進(jìn)行準(zhǔn)確的提問。但是這兩種獲取信息的方式都無法觸及「信息盲點(diǎn)」,況且認(rèn)知負(fù)擔(dān)還不小。
那如果閱讀現(xiàn)有的一些報(bào)道呢?這雖然降低了認(rèn)知負(fù)擔(dān),但并不支持交互,無法讓我們?nèi)ジM(jìn)一步的進(jìn)行深度學(xué)習(xí)。
而與上述信息獲取方式不同,Co-STORM智能體能夠代表用戶提問,能夠多方位地獲取新信息,探索到自己的「信息盲點(diǎn)」。然后通過動(dòng)態(tài)思維導(dǎo)圖組織信息,并最終生成綜合報(bào)告。
圖片
如下圖所示,Co-STORM由以下模塊組成:
- 多智能體協(xié)作對(duì)話:由「專家」和「主持人」進(jìn)行模擬對(duì)話,探討主題各個(gè)方面的相關(guān)內(nèi)容。
- 動(dòng)態(tài)思維導(dǎo)圖:實(shí)時(shí)追蹤對(duì)話內(nèi)容,將信息按層次組織,幫助用戶理解和參與。
- 報(bào)告生成:系統(tǒng)基于思維導(dǎo)圖生成引用明確、內(nèi)容翔實(shí)的總結(jié)報(bào)告。
圖片
為了更真實(shí)地反映用戶體驗(yàn),研究者對(duì)20名志愿者進(jìn)行了人類評(píng)估,比較了Co-STORM與傳統(tǒng)搜索引擎和RAG Chatbot的表現(xiàn)。結(jié)果顯示:
1. 信息探索體驗(yàn):
- Co-STORM顯著提升了信息的深度和廣度
- 用戶發(fā)現(xiàn)其能夠有效引導(dǎo)探索盲點(diǎn)
2. 用戶偏好:
- 70%的用戶更喜歡Co-STORM,認(rèn)為其顯著減少了認(rèn)知負(fù)擔(dān)- 用戶特別認(rèn)可動(dòng)態(tài)思維導(dǎo)圖對(duì)跟蹤和理解信息的幫助
圖片
不過,目前STORM&Co-STORM還僅支持英語交互,未來或許官方團(tuán)隊(duì)會(huì)將其擴(kuò)展至擁有多語言交互能力。
圖片
最后,正如網(wǎng)友TSLA的感受一樣,「我們正生活在一個(gè)非凡的時(shí)代。今天,不僅所有的信息都變得觸手可及,甚至連信息獲取的方式也可以完全根據(jù)自己的水平量身定制,讓學(xué)習(xí)任何東西都成為可能。」
圖片
主要作者介紹

Yucheng Jiang是斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的碩士研究生。
他的研究目標(biāo)是通過創(chuàng)建能夠與用戶無縫協(xié)作的系統(tǒng),提升學(xué)習(xí)能力、決策效率和工作生產(chǎn)力。

Yijia Shao是斯坦福大學(xué)自然語言處理(NLP)實(shí)驗(yàn)室的二年級(jí)博士生,由楊笛一教授指導(dǎo)。
此前,她是北京大學(xué)元培學(xué)院的本科生,通過與Bing Liu教授的合作,開始接觸并從事機(jī)器學(xué)習(xí)和自然語言處理的研究。
參考資料:
https://x.com/dr_cintas/status/1874123834070360343
https://storm.genie.stanford.edu/





































