偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)

發(fā)布于 2025-1-3 12:34
瀏覽
0收藏

今天分享一篇來自南陽理工的一篇文章《Large Language Models for Automated Open-domain Scientific Hypotheses Discovery》。本研究的目標(biāo)是探索如何使用大型語言模型,尤其是GPT-4,來自動發(fā)現(xiàn)科學(xué)假設(shè)。目前假設(shè)性歸納研究的局限性在于使用的數(shù)據(jù)不是原始網(wǎng)絡(luò)語料庫,而是手動選擇后的句子,導(dǎo)致了來源較為封閉;同時,現(xiàn)有的假設(shè)標(biāo)注大多是常識性知識,任務(wù)挑戰(zhàn)性不足。本文提出了首個針對社會科學(xué)學(xué)術(shù)假設(shè)發(fā)現(xiàn)的自然語言處理(NLP)數(shù)據(jù)集,該數(shù)據(jù)集包含了50篇最新發(fā)布于頂級社會科學(xué)期刊的論文,以及發(fā)展這些論文中假設(shè)所必需的原始網(wǎng)絡(luò)語料庫。同時提出了一個MooSE框架,驗(yàn)證了利用GPT4構(gòu)建的多Agent系統(tǒng)直接從web raw corpus自動發(fā)現(xiàn)科學(xué)假設(shè)的可行性。

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)圖片

? Title: Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

? URL:?? https://arxiv.org/abs/2309.02726??

? Code:?? https://github.com/zongliny/moose??

1 Motivation

? 假設(shè)歸納被認(rèn)為是科學(xué)家對世界進(jìn)行觀察并嘗試提出假設(shè)來解釋這些觀察結(jié)果時的主要推理類型。現(xiàn)有的假設(shè)歸納研究有兩個局限

a.受限于人工選定的句子,而非原始網(wǎng)絡(luò)語料,導(dǎo)致其來源較為封閉;

b.現(xiàn)有研究中的ground truth假設(shè)多為常識性知識,使得任務(wù)挑戰(zhàn)性降低。

? 如何基于最原始網(wǎng)絡(luò)語料,自動觀察并提出對人類而言都是全新的科學(xué)假設(shè)非常有意義。

2 Methods

這篇論文首次提出了一個用于社會科學(xué)學(xué)術(shù)假設(shè)發(fā)現(xiàn)的自然語言處理(NLP)數(shù)據(jù)集,并嘗試實(shí)現(xiàn)一個MOOSE框架去解決該問題。

數(shù)據(jù)集特點(diǎn):

? 該數(shù)據(jù)集由50篇最近發(fā)表在頂級社會科學(xué)期刊上的論文組成。

? 收集了提出這些論文中假設(shè)所需的原始網(wǎng)絡(luò)語料庫。

最終目標(biāo):是創(chuàng)建一個系統(tǒng),只給予一堆原始網(wǎng)絡(luò)語料庫,便能自動生成有效、新穎且對人類研究者有幫助的假設(shè)。

2.1 數(shù)據(jù)集步驟

1. 選擇論文:從頂級社會科學(xué)期刊選擇50篇在2023年1月之后發(fā)表的論文。涵蓋社會科學(xué)如心理學(xué)、人力資源管理、信息系統(tǒng)等領(lǐng)域。

2. 專家標(biāo)注:對于每一篇選定的論文,社會科學(xué)研究領(lǐng)域的專家會收集其主要假設(shè),并識別其背景和靈感來源(background + inspirations -> hypothesis) => reasoning process。然后,專家們會在網(wǎng)絡(luò)語料庫中找到與這些背景和靈感相似的內(nèi)容,并收集每個匹配內(nèi)容的完整段落,這些段落作為原始網(wǎng)絡(luò)語料庫的一部分。

3. 避免數(shù)據(jù)污染:沒有直接復(fù)制論文的背景和靈感,嘗試在raw web courpus中找到語義上相似的文本內(nèi)容作為替代。以實(shí)現(xiàn)本文提到的從raw web corpus提出research hypotheses的目標(biāo)。

4. 收集相關(guān)材料:還收集了所有50篇論文的鏈接,以及相關(guān)的14篇survey文章(這些survey論文可能有助于檢查假設(shè)的新穎性)。

5. 數(shù)據(jù)集構(gòu)建:最終,這個數(shù)據(jù)集完全由一位社會科學(xué)研究領(lǐng)域的博士生構(gòu)建完成。文檔中提到,由于數(shù)據(jù)集涉及許多手動選擇過程,因此這些手動選擇的內(nèi)容更多地被用作基準(zhǔn)人類性能的比較。

2.2 MOOSE框架介紹

MOOSE(MultimOdule framewOrk with paSt present future feEdback)的多模塊框架,用于自動化開放領(lǐng)域科學(xué)假設(shè)的發(fā)現(xiàn)(TOMATO任務(wù))。其特點(diǎn)是結(jié)合了大型語言模型的生成能力和復(fù)雜的反饋機(jī)制,以自動化地從大量文本數(shù)據(jù)中發(fā)現(xiàn)和提煉出可能對科學(xué)研究有價(jià)值的新假設(shè)。

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)

整體框架:

1. 基礎(chǔ)框架(MOOSE-base):MOOSE框架的核心是一個基礎(chǔ)多模塊框架,它模擬了社會科學(xué)研究者提出初始研究假設(shè)的過程。這個過程包括以下幾個步驟:

? 背景發(fā)現(xiàn)器(Background Finder):模塊通過閱讀原始網(wǎng)絡(luò)語料庫來尋找合適的研究背景。

? 靈感標(biāo)題發(fā)現(xiàn)器(Inspiration Title Finder):在找到背景后,模塊搜索與背景相關(guān)的標(biāo)題,以幫助找到可能的靈感來源。

? 靈感發(fā)現(xiàn)器(Inspiration Finder):根據(jù)選定的標(biāo)題,模塊在相關(guān)文檔中找到能夠啟發(fā)假設(shè)形成的句子或段落。

? 假設(shè)提議器(Hypothesis Proposer):利用背景和靈感來提出研究假設(shè)。

2. 反饋機(jī)制:為了提高生成假設(shè)的質(zhì)量,MOOSE框架引入了三種反饋機(jī)制:

? 即時反饋(Present-Feedback):當(dāng)某個模塊的輸出可以被直接評估時,通過其他大型語言模型(LLMs)提供反饋,模塊可以根據(jù)反饋和之前的生成結(jié)果進(jìn)行再生成,以改進(jìn)輸出。

? 過去反饋(Past-Feedback):在無法直接評估某個模塊的輸出時,框架繼續(xù)運(yùn)行直到生成可以評估的輸出,然后利用這些信息為之前的模塊提供反饋(例如生成Inspiration Title時,可能沒法直接評價(jià)好壞,可以等依賴Inspiration Title生成具體Hypothesis后,通過評估Hypothesis質(zhì)量反推當(dāng)時生成Title的效果)。

a.說明:在文中提出的MOOSE框架中,Past-feedback被應(yīng)用于Inspiration Title Finder模塊。Inspiration Title Finder的任務(wù)是從大量文本標(biāo)題中找出可能對形成科學(xué)假設(shè)有啟發(fā)性的標(biāo)題。然而,直接評估這些標(biāo)題的質(zhì)量和相關(guān)性可能比較困難,因?yàn)樗鼈兪欠衲軌蚣ぐl(fā)出有意義的假設(shè)還未知。因此,系統(tǒng)會先繼續(xù)運(yùn)行,直到生成一個假設(shè)(hypothesis),這個假設(shè)受到之前選擇的標(biāo)題的影響,并且可以被直接評估。然后,系統(tǒng)會使用這個假設(shè)和它的評估結(jié)果作為反饋,來改進(jìn)之前選擇的標(biāo)題。如果一個假設(shè)經(jīng)過評估被認(rèn)為是新穎且合理的,那么可以推斷出啟發(fā)這個假設(shè)的標(biāo)題是合適的,反之亦然。通過這種方式,系統(tǒng)可以在未來的迭代中選擇更好的標(biāo)題,以提高最終假設(shè)的質(zhì)量。Past-feedback的關(guān)鍵在于,它允許系統(tǒng)從未來的評估中學(xué)習(xí),并利用這些知識來改進(jìn)過去的決策,這在某些復(fù)雜的生成任務(wù)中是非常有用的。

   b.未來反饋(Future-Feedback):為后續(xù)模塊提供額外信息,幫助它們生成更高質(zhì)量的輸出。包括提供輸出的理由(FF1)和在關(guān)鍵模塊前插入一個輔助模塊來分擔(dān)推理負(fù)擔(dān)(FF2)。

1. Future-feedback-1 (FF1): 這種類型的反饋機(jī)制涉及到為后續(xù)模塊提供當(dāng)前輸出的解釋或理由。不僅僅是提供生成的假設(shè)本身(oi),還提供生成這些假設(shè)的理由或解釋,這樣后續(xù)模塊(Mj,j>i)就可以更好地利用這些信息。例如,在MOOSE框架中,Background Finder和Inspiration Title Finder模塊被修改為不僅生成背景或標(biāo)題,還提供選擇它們的理由。這樣做的目的是幫助后續(xù)模塊更全面地理解所提供的信息,并在此基礎(chǔ)上生成更深入、更有針對性的假設(shè)。

2. Future-feedback-2 (FF2): 這種類型的反饋機(jī)制涉及到在關(guān)鍵模塊之前插入一個額外的模塊,以分擔(dān)一些推理負(fù)擔(dān)。例如,在MOOSE框架中,Hypothesis Proposer模塊負(fù)責(zé)提出假設(shè),這是一個復(fù)雜且重要的任務(wù)。為了提高這個模塊的輸出質(zhì)量,框架在Hypothesis Proposer之前引入了一個Hypothesis Suggestor模塊(作為Mj?0.5),它的任務(wù)是提供初步的建議,如何利用背景和靈感來構(gòu)建假設(shè)。然后,Hypothesis Proposer模塊可以根據(jù)這些建議進(jìn)一步發(fā)展出更新穎、更復(fù)雜的假設(shè)。(看著有點(diǎn)像COT的思考過程)

  • ? Future-feedback是文中提出的另一種反饋機(jī)制,旨在為未來的模塊生成提供額外有用的信息,以提高生成質(zhì)量。具體來說,F(xiàn)uture-feedback關(guān)注于如何幫助后續(xù)模塊更有效地利用當(dāng)前模塊的輸出來生成更高質(zhì)量的結(jié)果。在MOOSE框架中,F(xiàn)uture-feedback分為兩種類型:Future-feedback-1 (FF1) 和 Future-feedback-2 (FF2)??偨Y(jié):Future-feedback的目的是增強(qiáng)模塊間的協(xié)作,通過提供額外的解釋、理由或初步建議,幫助后續(xù)模塊更有效地利用前一個模塊的輸出,從而提高整個系統(tǒng)生成假設(shè)的質(zhì)量和新穎性。

特點(diǎn):

? 模塊化設(shè)計(jì):MOOSE框架采用模塊化設(shè)計(jì),每個模塊負(fù)責(zé)一個特定的任務(wù),并且可以獨(dú)立優(yōu)化和改進(jìn)。

? 迭代反饋:通過引入反饋機(jī)制,MOOSE框架能夠不斷迭代和改進(jìn)生成的假設(shè),提高了假設(shè)的質(zhì)量和新穎性。

? 自動化和開放領(lǐng)域:MOOSE框架旨在自動化地從開放領(lǐng)域的原始網(wǎng)絡(luò)語料庫中生成科學(xué)假設(shè),無需人工干預(yù)。

? 多方面評估:MOOSE框架不僅關(guān)注假設(shè)的新穎性,還包括有效性、一致性和清晰度等多個評估方面,以確保生成的假設(shè)對科學(xué)研究具有實(shí)際幫助。

3 Conclusion

? 構(gòu)建了一個領(lǐng)先的NLP數(shù)據(jù)集,適用于開放域的科學(xué)假設(shè)發(fā)現(xiàn)。

? 提出了多模塊框架MOOS以及三種反饋機(jī)制,有助于提高假設(shè)生成的效果,驗(yàn)證了從網(wǎng)絡(luò)raw corpus生成科學(xué)假設(shè)的有效性。

二、詳細(xì)內(nèi)容

1.FeedBack模塊對最終生成結(jié)果的影響

GPT4評估結(jié)果

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


人類專家評估結(jié)果:

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


結(jié)論1:MOOSE-base 在新穎性和有幫助性方面表現(xiàn)優(yōu)于基線模型,但在有效性方面略低。

結(jié)論2:加入未來反饋的MOOSE能提升整體表現(xiàn)。 所有指標(biāo)都有所提升。

結(jié)論3::同時加入未來反饋和過去反饋的MOOSE在新穎性方面有顯著提升??赡芤馕吨^去反饋更側(cè)重于提升假設(shè)的新穎性,但可能以犧牲一定程度的有效性和有幫助性為代價(jià)。

2.Present-feedback迭代次數(shù)對性能的影響(GPT4)

GPT4評估結(jié)果

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


人類專家評估結(jié)果:

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


結(jié)論1:present-feedback對于提高假設(shè)生成系統(tǒng)的性能是有效的,可以顯著提高生成假設(shè)的有效性、新穎性和對研究人員的幫助程度。

結(jié)論2:隨著反饋迭代次數(shù)的增加,性能提升效果持續(xù),但可能存在一個最佳的迭代次數(shù),超過這個次數(shù)后性能提升的邊際效益可能減少。

3 background選擇方法和Inspirations選擇方法對實(shí)驗(yàn)結(jié)果的影響

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


實(shí)驗(yàn)設(shè)置:

1. 目的:分析不同的背景(background)和靈感(inspirations)檢索方法對于最終生成的科學(xué)假設(shè)的質(zhì)量有何影響。

2. 檢索方法:

? 隨機(jī)選擇背景和隨機(jī)選擇靈感(Random background and rand inspirations)。

? 隨機(jī)選擇背景和使用 BM25 算法選擇靈感(Rand background and BM25 inspirations)。

? 使用 GPT-3.5 選擇背景和靈感(GPT-3.5 picked background and inspirations)。

實(shí)驗(yàn)結(jié)論:

結(jié)論1: 選擇背景和靈感的方法對生成假設(shè)的有效性、新穎性和有幫助性有顯著影響,隨機(jī)選擇背景和靈感能夠產(chǎn)生相對新穎的假設(shè),但有效性和有幫助性較低。

結(jié)論2: BM25 在新穎性方面表現(xiàn)較好,而真實(shí)背景和靈感在有效性和有幫助性方面表現(xiàn)最佳。

結(jié)論3: GPT-3.5挑選的背景和靈感在有幫助性方面表現(xiàn)最佳,且在新穎性方面也表現(xiàn)不錯。

結(jié)論4: 利用Groundtruth background and inspirations生成的Hypotheses與真實(shí)的Hypotheses相比,新穎性方面得分并不高但是Validness比較高,可能是因?yàn)樗鼈兓谝延械难芯砍晒Uf明可能需要在Novelty和Validness之間找到平衡。

4.其他消融實(shí)驗(yàn)

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學(xué)假設(shè)-AI.x社區(qū)


結(jié)論1: Future Feedback(特別是 FF2),對假設(shè)生成的質(zhì)量有顯著影響,能夠提高新穎性和有效性。

結(jié)論2: 引入related survey對新穎性評估有重要影響,切斷與相關(guān)調(diào)查的訪問會提高新穎性。 因?yàn)锽M25檢索到的相關(guān)調(diào)查內(nèi)容較少,導(dǎo)致新穎性檢測器傾向于認(rèn)為假設(shè)是新穎的。

結(jié)論3: 語料庫的選擇和使用方式也會影響生成假設(shè)的新穎性和有效性。使用randomized corpus策略選擇數(shù)據(jù),有效性得分略有提高,而新穎性得分下降。這可能是因?yàn)樵谶@種設(shè)置下,MOOSE 傾向于選擇與背景相同靈感語料庫的靈感,導(dǎo)致結(jié)果不夠新穎。

? 先前的實(shí)驗(yàn):background passages -> backgrounds and inspirations passages -> inspirations

? w/ randomized corpus : inspiration corpus -> background, inspiration and background corpus -> inspiration extraction

三、總結(jié)

這篇論文提出了首個用于社會科學(xué)學(xué)術(shù)假設(shè)發(fā)現(xiàn)的NLP數(shù)據(jù)集,并開發(fā)了一個多模塊框架MOOSE以及三種不同的反饋機(jī)制,用以自動地生成科學(xué)假設(shè)。該方法不僅提高了生成假設(shè)的質(zhì)量和新穎性,也驗(yàn)證了大型語言模型在科學(xué)研究中自動化發(fā)現(xiàn)新假設(shè)的潛力。

結(jié)論1: 該研究首次發(fā)布了開放域科學(xué)假設(shè)發(fā)現(xiàn)的NLP數(shù)據(jù)集,填補(bǔ)了現(xiàn)有領(lǐng)域中的空白。

結(jié)論2: 論文提出的多模塊框架和三種反饋機(jī)制(Present、Future、Past)顯著提升了假設(shè)生成的性能,在多項(xiàng)評估中表現(xiàn)優(yōu)異。

結(jié)論3:在生成科學(xué)假設(shè)時通常會遇到的一個權(quán)衡問題,即有效性(validness)與新穎性(novelty)之間的權(quán)衡。通常如果一個方法或系統(tǒng)在生成假設(shè)時達(dá)到了高新穎性,那么它很難同時達(dá)到高有效性。

本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦