讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看
網(wǎng)絡(luò)的普及,加上文獻(xiàn)數(shù)量的爆炸式增長,如今的科研人員要面臨的一個(gè)主要難題就是,盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來幫助理解某個(gè)復(fù)雜的領(lǐng)域或系統(tǒng),但由于信息量的巨大,人類無法全面地閱讀和理解所有文獻(xiàn)。
就像是面對(duì)一個(gè)巨大的圖書館,雖然每本書都包含了寶貴的知識(shí),但沒有人能夠閱讀所有的書籍并從中獲得一個(gè)完整的認(rèn)知。
因此,盡管科學(xué)的進(jìn)步為我們提供了大量的數(shù)據(jù),但如何有效地整合和理解這些數(shù)據(jù)仍然是一個(gè)亟待解決的問題。
最近Nature上有一篇專欄文章,介紹了一些現(xiàn)有的、文獻(xiàn)綜述自動(dòng)化生成的方法,并指出了這類方法主要面臨的困境及用戶痛點(diǎn)。
文章鏈接:https://www.nature.com/articles/d41586-024-03676-9
盡管身處ChatGPT時(shí)代,但想要完全沒有人類參與,讓AI「一鍵」完成系統(tǒng)性綜述生成,集查詢、整理、文獻(xiàn)篩選、總結(jié)歸納等于一身,并且沒有幻覺錯(cuò)誤,仍然是一項(xiàng)不可能完成的任務(wù)。
用AI做文獻(xiàn)綜述
幾十年來,研究人員們一直在嘗試提升「將大量相關(guān)研究匯編成綜述」的速度,由于工作量過大,很多綜述在提交的時(shí)候往往就已經(jīng)過時(shí)了。
ChatGPT等大模型展現(xiàn)出的超強(qiáng)語言理解能力,也再次激發(fā)了人們對(duì)于自動(dòng)化綜述的興趣,今年9月, 美國初創(chuàng)公司FutureHouse構(gòu)建了一個(gè)新系統(tǒng),宣稱能夠在幾分鐘內(nèi)生成一個(gè)比維基百科更準(zhǔn)確的科學(xué)知識(shí)綜合頁面,并且已經(jīng)為大約17,000個(gè)人類基因(human gene)生成了維基百科風(fēng)格的條目,其中大部分在此前缺乏詳細(xì)的描述介紹。
一些科學(xué)文獻(xiàn)搜索引擎也已經(jīng)開始引入AI驅(qū)動(dòng)能力,來幫助用戶通過查找、排序和總結(jié)出版物來制作敘述性文獻(xiàn)綜述,但目前質(zhì)量普遍比較低。
大多數(shù)研究人員都認(rèn)可,離實(shí)現(xiàn)自動(dòng)化「金標(biāo)準(zhǔn)綜述」還有很長的路要走,整個(gè)過程涉及嚴(yán)格的程序來搜索和評(píng)估論文,還包括元分析來合成結(jié)果,或許10年、甚至100年后才能略有進(jìn)展。
計(jì)算機(jī)輔助評(píng)審
幾十年來,計(jì)算機(jī)軟件一直在輔助研究人員搜索和解析研究文獻(xiàn)。
早在大型語言模型(LLMs)出現(xiàn)之前,科學(xué)家們就開始使用機(jī)器學(xué)習(xí)和其他算法來幫助識(shí)別特定研究,或快速從論文中提取發(fā)現(xiàn),但類似ChatGPT這樣的大模型讓自動(dòng)綜述的能力顯著提升。
不過,研究人員表示,要求ChatGPT或其他AI聊天機(jī)器人從頭開始撰寫學(xué)術(shù)文獻(xiàn)綜述,是相當(dāng)不現(xiàn)實(shí)的。
如果模型被要求對(duì)某個(gè)主題的研究進(jìn)行綜述,LLM可能會(huì)從一些可信的學(xué)術(shù)研究、不準(zhǔn)確的博客中,或是其他未知的信息來源中整合信息,而不會(huì)對(duì)最相關(guān)、最高質(zhì)量的文獻(xiàn)進(jìn)行權(quán)衡。
LLMs的運(yùn)行機(jī)制,即通過反復(fù)生成對(duì)查詢?cè)诮y(tǒng)計(jì)上合理的單詞,決定了模型對(duì)同一個(gè)問題會(huì)生成不同的答案,并「幻想」出一些錯(cuò)誤信息,比如眾所周知的「不存在」的學(xué)術(shù)引用,和人類進(jìn)行綜述的過程可以說是毫無相似之處。
一個(gè)更復(fù)雜的過程是檢索增強(qiáng)生成(RAG),包括將預(yù)先選定的論文語料庫上傳到LLM,并要求模型從中提取關(guān)鍵點(diǎn),并基于這些研究給出答案,可以在一定程度上減少幻覺現(xiàn)象,但無法完全消滅幻覺。
RAG的過程中,還可以設(shè)置信息來源,類似Consensus和Elicit等專門的、AI驅(qū)動(dòng)的科學(xué)搜索引擎就是這樣做的,雖然大多數(shù)公司沒有透露系統(tǒng)工作的確切細(xì)節(jié),但大體上就是將用戶的問題轉(zhuǎn)化為對(duì)學(xué)術(shù)數(shù)據(jù)庫(如Semantic Scholar和PubMed)的搜索,并返回最相關(guān)的結(jié)果。
基于搜索結(jié)果,大型語言模型(LLM)會(huì)總結(jié)這些研究,并將其綜合成一個(gè)「帶引用來源」的答案,用戶可以根據(jù)具體需要選擇要引用的工作。
丹麥南部大學(xué)奧登塞分校的博士后研究員Mushtaq Bilal認(rèn)為,這些工具肯定能讓提升綜述和寫作的效率,并且還自己開發(fā)了一個(gè)工具Research Kick。
至少搜索引擎引用的內(nèi)容是絕對(duì)真實(shí)存在的,用戶可以進(jìn)一步點(diǎn)擊查看,自己分辨。
不同的輔助工具有不同的特點(diǎn),例如Scite系統(tǒng)可以快速生成支持或反駁某個(gè)主張的論文的詳細(xì)分解,Elicit等系統(tǒng)可以從論文的不同部分提取間接(方法、結(jié)論等)。
大多數(shù)AI科學(xué)搜索引擎不能全自動(dòng)地生成準(zhǔn)確的文獻(xiàn)綜述,其輸出更像是「一個(gè)本科生通宵達(dá)旦,然后總結(jié)出幾篇論文的主要觀點(diǎn)」,所以研究人員最好使用這些工具來優(yōu)化綜述過程中的部分環(huán)節(jié)。
但這種工具還有一些缺點(diǎn),例如只能搜索開放獲取的論文和摘要,而非文章的全文,Elicit搜索約1.25億篇論文,Consensus包含超過2億篇。
大部分研究文獻(xiàn)都處于付費(fèi)墻后,而且搜索大量全文計(jì)算量很大,讓AI應(yīng)用運(yùn)行數(shù)百萬篇文章的全部文本將需要很多時(shí)間,計(jì)算成本也會(huì)非常高。
系統(tǒng)性綜述仍然很難
敘述性地總結(jié)文獻(xiàn)已經(jīng)非常難了,如果想把相關(guān)工作系統(tǒng)性地綜述更是難上加難,一個(gè)專業(yè)的研究人員也需要花費(fèi)數(shù)月甚至數(shù)年才能完成。
根據(jù)Glasziou團(tuán)隊(duì)的分析,系統(tǒng)綜述包括至少25個(gè)仔細(xì)的步驟,在梳理文獻(xiàn)后,研究人員必須從長列表中篩選出最相關(guān)的論文,然后提取數(shù)據(jù),過濾出可能存在偏見的研究,并綜合結(jié)果。
這些步驟通常還需要另一位研究人員進(jìn)行重復(fù),以檢查不一致性。
在ChatGPT出現(xiàn)之前,Glasziou開始嘗試創(chuàng)造科學(xué)界的世界紀(jì)錄:在兩周內(nèi)完成一篇系統(tǒng)綜述。
Glasziou和其他幾位同事,包括Marshall和Thomas,已經(jīng)開發(fā)了計(jì)算機(jī)工具來提高效率,當(dāng)時(shí)可用的軟件包括RobotSearch,能夠快速從一系列研究中識(shí)別出隨機(jī)試驗(yàn);RobotReviewer可以幫助評(píng)估研究是否存在因?yàn)槲闯浞置せa(chǎn)生偏見的風(fēng)險(xiǎn)。
第一次嘗試最終總共用了九個(gè)工作日;后來團(tuán)隊(duì)又將該記錄縮短到了五天。
這個(gè)過程還能變得更快嗎?
Elicit是一家專注于幫助研究人員進(jìn)行系統(tǒng)綜述而不僅僅是敘述性綜述的公司,但該工具并不提供一鍵式系統(tǒng)綜述,而是自動(dòng)化其中某些步驟,包括篩選論文和提取數(shù)據(jù)等。
大多數(shù)使用Elicit進(jìn)行系統(tǒng)綜述的研究人員都會(huì)上傳使用其他搜索引擎找到的相關(guān)論文,但用戶普遍擔(dān)心這類工具可能無法滿足研究的兩個(gè)基本標(biāo)準(zhǔn):透明度和可復(fù)制性。
如果不理解具體的算法,那就不算是系統(tǒng)綜述,而只是一篇簡單的綜述文章。
今年早些時(shí)候,Glasziou團(tuán)隊(duì)成員Clark領(lǐng)導(dǎo)了一項(xiàng)系統(tǒng)綜述,研究了使用生成式AI工具輔助系統(tǒng)綜述的研究,最終團(tuán)隊(duì)只找到了15項(xiàng)已發(fā)表的研究,并將AI的性能與人進(jìn)行充分對(duì)比。
這些尚未發(fā)表或同行評(píng)審的結(jié)果表明,這些AI系統(tǒng)可以從上傳的研究中提取一些數(shù)據(jù),并評(píng)估臨床試驗(yàn)的偏差風(fēng)險(xiǎn)。
現(xiàn)有的模型在閱讀和評(píng)估論文方面似乎做得還不錯(cuò),但在所有其他任務(wù)上表現(xiàn)得非常糟糕,包括設(shè)計(jì)和進(jìn)行完善徹底的文獻(xiàn)搜索。
潛在風(fēng)險(xiǎn)
自動(dòng)化信息合成也伴隨著風(fēng)險(xiǎn)。
研究人員多年來就知道許多系統(tǒng)評(píng)價(jià)存在冗余或質(zhì)量差等問題,而人工智能可能會(huì)使這些問題變得更糟;作者可能會(huì)有意或無意地使用人工智能工具來快速完成不遵循嚴(yán)格程序或包含低質(zhì)量工作的評(píng)審,并得到誤導(dǎo)性的結(jié)果。
除了綜述別人的工作外,Glasziou表示,這類模型還可以促使研究人員快速檢查以前發(fā)表的文獻(xiàn),找出其中的錯(cuò)誤,來繼續(xù)提高研究人員的水平。
甚至在未來,人工智能工具可以通過尋找P-hacking等明顯跡象來幫助標(biāo)記和過濾掉質(zhì)量較差的論文。
Glasziou將這種情況視為一種平衡:人工智能工具可以幫助科學(xué)家做出高質(zhì)量的評(píng)審,但也可能會(huì)讓部分研究者快速生成不合格的論文,目前還不知道會(huì)對(duì)出版的文獻(xiàn)產(chǎn)生什么影響。
有些研究者認(rèn)為,合成和理解世界知識(shí)的能力不應(yīng)僅僅掌握在不透明的營利性公司手中,希望未來可以看到非營利組織構(gòu)建并仔細(xì)測(cè)試人工智能工具,小心謹(jǐn)慎地,盡可能保證每次提供的答案都是正確的。