偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者 原創(chuàng)

發(fā)布于 2024-8-15 09:27
瀏覽
0收藏

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

一、結(jié)論寫(xiě)在前面

論文來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、上海AI Lab

論文標(biāo)題:MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

論文鏈接:??https://arxiv.org/pdf/2407.20183??

代碼鏈接:??https://github.com/InternLM/MindSearch??

摘要

通過(guò)結(jié)合LLMs和搜索引擎來(lái)解決信息搜索與整合任務(wù)因三個(gè)挑戰(zhàn)而表現(xiàn)不佳:(1)復(fù)雜請(qǐng)求往往無(wú)法通過(guò)一次搜索準(zhǔn)確且完整地檢索;(2)待整合的相關(guān)信息分散在多個(gè)網(wǎng)頁(yè)中,伴隨大量噪音;(3)大量?jī)?nèi)容冗長(zhǎng)的網(wǎng)頁(yè)可能迅速超出LLMs的最大上下文長(zhǎng)度。

受人類(lèi)專(zhuān)家解決現(xiàn)實(shí)問(wèn)題方式的啟發(fā),論文提出了MindSearch,這是一個(gè)基于LM的簡(jiǎn)單而有效的多agent框架,包括一個(gè)WebPlanner(模擬人類(lèi)思維進(jìn)行問(wèn)題推理)和多個(gè)WebSearcher(管理信息搜索過(guò)程)給定一個(gè)用戶(hù)查詢(xún),WebPlanner首先將查詢(xún)分解為多個(gè)可并行解決的原子子問(wèn)題,并將它們分派給相應(yīng)的WebSearcher。為了進(jìn)一步增強(qiáng)推理能力,WebPlanner將復(fù)雜的問(wèn)題解決過(guò)程建模為迭代圖構(gòu)建:通過(guò)預(yù)定義一系列與拓?fù)渌季S圖構(gòu)建相關(guān)的標(biāo)準(zhǔn)代碼接口,WebPlanner能夠通過(guò)生成Python代碼在圖中逐步添加節(jié)點(diǎn)/邊,從而將問(wèn)題逐步分解為順序/并行的子問(wèn)題。同時(shí),負(fù)責(zé)每個(gè)子問(wèn)題的WebSearcher采用分層檢索過(guò)程,從大量搜索頁(yè)面中提取有價(jià)值的數(shù)據(jù)供LLMs使用,顯著提高了信息聚合效率。通過(guò)將推理和檢索過(guò)程的不同方面分配給專(zhuān)門(mén)的agent,MindSearch有效減輕了每個(gè)單一agent的負(fù)擔(dān),促進(jìn)了長(zhǎng)上下文的更穩(wěn)健處理。它無(wú)縫地彌合了搜索引擎的原始數(shù)據(jù)檢索能力與LLMs的上下文理解能力之間的差距。    

基于GPT-4或InternLM2.5-7B模型,MindSearch在閉集和開(kāi)集QA問(wèn)題的響應(yīng)質(zhì)量上,無(wú)論在深度還是廣度方面,均顯示出顯著改進(jìn)。此外,基于InternLM2.5-7B模型的MindSearch生成的響應(yīng)更受人類(lèi)青睞,優(yōu)于ChatGPT-Web(基于GPT-4)和Perplexity.ai應(yīng)用,這表明基于開(kāi)源模型的MindSearch已經(jīng)能夠提供與專(zhuān)有AI搜索引擎相競(jìng)爭(zhēng)的解決方案。

二、論文的簡(jiǎn)單介紹

2.1 論文的背景

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

圖1:MindSearch的總體框架。它由兩個(gè)主要組成部分構(gòu)成:WebPlanner和WebSearcher。WebPlanner作為高級(jí)規(guī)劃器,協(xié)調(diào)推理步驟和多個(gè)WebSearcher。WebSearcher執(zhí)行細(xì)粒度的網(wǎng)絡(luò)搜索,并將有價(jià)值的信息匯總回規(guī)劃器,形成一個(gè)簡(jiǎn)單而有效的多agent框架

LLM與搜索引擎的互補(bǔ)優(yōu)勢(shì)凸顯了它們結(jié)合的強(qiáng)大機(jī)遇,LLM的推理能力可以通過(guò)搜索引擎訪(fǎng)問(wèn)的廣泛網(wǎng)絡(luò)信息得到補(bǔ)充,可能徹底改變網(wǎng)絡(luò)信息檢索和整合的解決方案。先前的工作(Asai et al., 2023; Chan et al., 2024)僅將信息檢索和整合任務(wù)視為簡(jiǎn)單的檢索增強(qiáng)生成(RAG)任務(wù)。雖然這種表述簡(jiǎn)單直接,但往往導(dǎo)致性能不佳,對(duì)基于網(wǎng)絡(luò)的信息檢索的深度和復(fù)雜性處理表面化,面對(duì)更復(fù)雜的用戶(hù)查詢(xún)時(shí)存在三大挑戰(zhàn):    

(1) 現(xiàn)實(shí)世界的問(wèn)題通常需要在檢索相關(guān)信息之前進(jìn)行深入分析和問(wèn)題適當(dāng)分解,這無(wú)法通過(guò)一次性檢索網(wǎng)頁(yè)來(lái)實(shí)現(xiàn)。

(2) 海量的搜索網(wǎng)頁(yè)和大量的信息噪聲對(duì)LLM進(jìn)行有效的信息整合提出了巨大挑戰(zhàn)。

(3) 網(wǎng)絡(luò)搜索內(nèi)容的迅速激增可能很快超過(guò)LLM的最大上下文長(zhǎng)度,這進(jìn)一步降低了信息整合的性能。

2.2 MindSearch

為了有效整合搜索引擎的網(wǎng)絡(luò)信息檢索能力與LLMs的推理和信息整合能力,MindSearch包含了一個(gè)WebPlanner和一組WebSearchers(圖1)。WebPlanner首先通過(guò)圖推理將用戶(hù)問(wèn)題分解為順序或并行的搜索任務(wù),并根據(jù)搜索反饋決定下一步行動(dòng)。WebSearcher負(fù)責(zé)查詢(xún),并在互聯(lián)網(wǎng)上執(zhí)行分層信息檢索以回答子問(wèn)題。論文還討論了多agent設(shè)計(jì)范圍內(nèi)的上下文管理。

2.2.1 WebPlanner:通過(guò)圖構(gòu)建進(jìn)行規(guī)劃

WebPlanner作為高級(jí)規(guī)劃器,負(fù)責(zé)協(xié)調(diào)推理步驟和其他agent。然而,論文觀(guān)察到,僅提示LLM規(guī)劃整個(gè)數(shù)據(jù)工作流架構(gòu)并不能產(chǎn)生令人滿(mǎn)意的表現(xiàn)。具體而言,當(dāng)前的LLMs在分解復(fù)雜問(wèn)題及其拓?fù)潢P(guān)系理解方面存在困難,導(dǎo)致搜索查詢(xún)粒度過(guò)粗。這種方法未能充分利用LLMs作為人類(lèi)與搜索引擎之間中介的潛力,無(wú)法將人類(lèi)意圖轉(zhuǎn)化為逐步搜索任務(wù)并提供準(zhǔn)確響應(yīng)。

為了提升大型語(yǔ)言模型(LLM)解決復(fù)雜問(wèn)題的能力,論文建模了問(wèn)題解決過(guò)程的DAG(有向無(wú)環(huán)圖)。給定一個(gè)用戶(hù)問(wèn)題Q,解決方案軌跡為G(Q)=,其中V是一組節(jié)點(diǎn)v,每個(gè)節(jié)點(diǎn)代表一個(gè)獨(dú)立的網(wǎng)絡(luò)搜索,包括一個(gè)輔助的START節(jié)點(diǎn)(初始問(wèn)題)和一個(gè)END節(jié)點(diǎn)(最終答案)。E表示指示節(jié)點(diǎn)(搜索內(nèi)容)之間推理拓?fù)潢P(guān)系的定向邊。這種DAG形式主義捕捉了尋找最優(yōu)執(zhí)行路徑的復(fù)雜性,為語(yǔ)言模型提供了一個(gè)更正式和直觀(guān)的表示。

利用當(dāng)前LLM在代碼任務(wù)上的卓越性能,論文明確提示模型通過(guò)編寫(xiě)代碼與圖進(jìn)行交互。為此,論文預(yù)定義了向圖中添加節(jié)點(diǎn)或邊的原子代碼函數(shù)(圖2中的步驟1和2)。在每一輪中,LLM首先閱讀整個(gè)對(duì)話(huà),包括之前生成的代碼和網(wǎng)絡(luò)搜索結(jié)果,然后輸出對(duì)思維圖進(jìn)行推理的想法和新代碼,這些代碼由Python解釋器執(zhí)行。在執(zhí)行過(guò)程中,一旦一個(gè)節(jié)點(diǎn)被添加到推理圖中,它就會(huì)調(diào)用Websearcher執(zhí)行搜索過(guò)程并總結(jié)信息。    

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

圖 2 : WebPlanner 如何通過(guò)規(guī)劃即編碼逐步解決問(wèn)題的具體示例。在每個(gè)回合中,WebPlanner 輸出一系列思考以及生成的代碼。代碼將被執(zhí)行并產(chǎn)生搜索結(jié)果返回給規(guī)劃器。在最后一個(gè)回合,WebPlanner 直接提供最終響應(yīng)而無(wú)需生成任何代碼。    

由于新添加的節(jié)點(diǎn)僅依賴(lài)于先前步驟中生成的節(jié)點(diǎn),論文可以并行處理它們以實(shí)現(xiàn)更快的信息聚合速度。當(dāng)所有信息收集完畢后,規(guī)劃器通過(guò)添加結(jié)束節(jié)點(diǎn)(圖 2 中的步驟 3)生成最終響應(yīng)。

通過(guò)與 Python 解釋器集成,WebPlanner 通過(guò)統(tǒng)一的代碼動(dòng)作與圖進(jìn)行交互,動(dòng)態(tài)構(gòu)建推理路徑。這種“代碼即規(guī)劃”的過(guò)程使 LLM 能夠充分利用其卓越的代碼生成能力,在長(zhǎng)上下文場(chǎng)景中受益于控制和數(shù)據(jù)流,從而在解決復(fù)雜問(wèn)題時(shí)表現(xiàn)更佳。

2.2.2 WebSearcher:分層檢索的網(wǎng)頁(yè)瀏覽

WebSearcher 作為具有互聯(lián)網(wǎng)訪(fǎng)問(wèn)權(quán)限的高級(jí) RAG(檢索與生成)agent,根據(jù)搜索結(jié)果總結(jié)有價(jià)值的響應(yīng)(圖 3)。由于網(wǎng)絡(luò)上的內(nèi)容極其龐大,LLM 在有限的上下文長(zhǎng)度內(nèi)(例如 8K 個(gè)token)處理所有相關(guān)頁(yè)面是具有挑戰(zhàn)性的。為了解決這個(gè)問(wèn)題,論文采用了一種直接的從粗到細(xì)的選擇策略。首先,LLM 根據(jù) WebPlanner 分配的問(wèn)題生成幾個(gè)類(lèi)似的查詢(xún),以擴(kuò)大搜索內(nèi)容并提高相關(guān)信息的召回率。然后,這些查詢(xún)通過(guò)各種搜索 API(如 Google、Bing 和 DuckDuckGo)執(zhí)行,返回包括網(wǎng)頁(yè) URL、標(biāo)題和摘要的關(guān)鍵內(nèi)容。搜索結(jié)果根據(jù)網(wǎng)頁(yè) URL 自動(dòng)合并,并提示 LLM 選擇最有價(jià)值的頁(yè)面進(jìn)行詳細(xì)閱讀。然后,所選網(wǎng)頁(yè) URL 的完整內(nèi)容被添加到 LLM 的輸入中。在閱讀這些結(jié)果后,LLM 根據(jù)搜索結(jié)果生成響應(yīng)以回答原始問(wèn)題。這種分層檢索方法顯著降低了瀏覽大量網(wǎng)頁(yè)的難度,并允許高效提取具有深入細(xì)節(jié)的高度相關(guān)信息。

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

圖3:WebSearcher的詳細(xì)工作流程。它包括最多4個(gè)步驟:查詢(xún)重寫(xiě)、搜索內(nèi)容聚合、詳細(xì)頁(yè)面選擇和最終總結(jié)。

2.2.3 在MindSearch中管理LLM上下文

MindSearch通過(guò)提供一個(gè)簡(jiǎn)單的多agent解決方案,來(lái)處理復(fù)雜的信息搜索和與搜索引擎的集成。這種范式也自然地實(shí)現(xiàn)了不同agent之間的長(zhǎng)上下文管理,從而提高了框架的整體效率,特別是在需要模型快速閱讀大量網(wǎng)頁(yè)的情況下。由于WebPlanner將搜索任務(wù)分配給不同的搜索agent,并且僅依賴(lài)于WebSearcher的搜索結(jié)果,因此WebPlanner可以純粹專(zhuān)注于用戶(hù)問(wèn)題的分解和分析,而不會(huì)被過(guò)長(zhǎng)的網(wǎng)頁(yè)搜索結(jié)果分散注意力。同時(shí),每個(gè)WebSearcher只需要搜索其任務(wù)子查詢(xún)的內(nèi)容,而不受其他內(nèi)容的影響。得益于明確的角色分配,MindSearch在整個(gè)過(guò)程中大大減少了上下文計(jì)算,為L(zhǎng)LM的長(zhǎng)上下文任務(wù)提供了一個(gè)高效的上下文管理解決方案。這種多agent框架也為訓(xùn)練單一LLM提供了直接且簡(jiǎn)單的長(zhǎng)上下文任務(wù)構(gòu)建流程,這一點(diǎn)在(Team, 2024)中也有所體現(xiàn)。最終,MindSearch在不到3分鐘的時(shí)間內(nèi)收集和整合了來(lái)自超過(guò)300頁(yè)的相關(guān)信息,而人類(lèi)專(zhuān)家完成類(lèi)似認(rèn)知工作量大約需要3小時(shí)。    

由于多個(gè)agent之間存在顯式的上下文狀態(tài)傳遞,論文需要在整個(gè)工作流程中謹(jǐn)慎處理上下文。論文實(shí)證發(fā)現(xiàn),僅關(guān)注規(guī)劃器分解的查詢(xún)可能會(huì)在信息收集階段由于搜索agent內(nèi)部的局部感受野而丟失有用信息。如何有效地處理多個(gè)agent之間的上下文并非易事。論文發(fā)現(xiàn),通過(guò)有向圖邊構(gòu)建的拓?fù)潢P(guān)系有助于論文輕松處理不同agent之間的上下文。更具體地說(shuō),論文在執(zhí)行每個(gè)搜索agent時(shí),簡(jiǎn)單地將來(lái)自其父節(jié)點(diǎn)以及根節(jié)點(diǎn)的響應(yīng)作為前綴。因此,每個(gè)WebSearcher可以有效地專(zhuān)注于其子任務(wù),同時(shí)不會(huì)丟失先前的相關(guān)上下文以及最終目標(biāo)。

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

圖4:人類(lèi)專(zhuān)家對(duì)開(kāi)放集QA問(wèn)題的主觀(guān)評(píng)估結(jié)果


2.3 實(shí)驗(yàn)

論文在兩類(lèi)主要的問(wèn)題回答(QA)任務(wù)上評(píng)估MindSearch:閉集QA和開(kāi)放集QA,這反映了MindSearch的主觀(guān)和客觀(guān)判斷。為了公平比較,所有模型僅通過(guò)BING搜索API訪(fǎng)問(wèn)互聯(lián)網(wǎng),不考慮額外的參考來(lái)源。    

2.3.1 開(kāi)放集QA

2.3.1.1 實(shí)施細(xì)節(jié)?

為了更好地評(píng)估實(shí)用性和搜索性能,論文精心挑選了100個(gè)真實(shí)世界的人類(lèi)查詢(xún),并從MindSearch(InternLM2.5-7b-chat)、Perplexity.ai(其Pro版本)和使用搜索插件的ChatGPT)收集響應(yīng)。論文請(qǐng)五位人類(lèi)專(zhuān)家根據(jù)以下三個(gè)方面手動(dòng)選擇他們偏好的響應(yīng):

?深度:深度指答案的徹底性和深度。具有深度的響應(yīng)提供詳細(xì)信息并深入探討問(wèn)題的復(fù)雜性。

?廣度:廣度涉及答案所涵蓋的范圍和多樣性。具有廣度的回答觸及問(wèn)題的各個(gè)方面或多個(gè)相關(guān)領(lǐng)域,提供不同的視角或解決方案。

?事實(shí)性:事實(shí)性是指答案的準(zhǔn)確性和基于事實(shí)的程度。它應(yīng)基于可靠的數(shù)據(jù)和信息,避免錯(cuò)誤或誤導(dǎo)性?xún)?nèi)容,確保所提供信息的真實(shí)性和可信度。

最終結(jié)果通過(guò)多數(shù)投票決定。在評(píng)估過(guò)程中,回答與其方法之間的對(duì)應(yīng)關(guān)系對(duì)評(píng)估者不可見(jiàn),以保證公平性。

2.3.1.2 結(jié)果與分析

評(píng)估結(jié)果如圖4所示,論文還提供了圖 5 中的定量結(jié)果。從圖 4 中,論文可以觀(guān)察到模型回答在深度和廣度方面的絕對(duì)改進(jìn),這驗(yàn)證了論文提出的 WebPlanner 的優(yōu)越性。通過(guò)將代碼集成到 DAG 構(gòu)建階段,LLM 能夠逐步將復(fù)雜問(wèn)題分解為可執(zhí)行的查詢(xún),同時(shí)平衡時(shí)間效率和搜索空間的探索之間的權(quán)衡。此外,MindSearch 針對(duì)問(wèn)題進(jìn)行了更細(xì)粒度的搜索主題,因此與其他模型相比提供了更緊湊和詳細(xì)的回答。然而,MindSearch 在事實(shí)性方面并未表現(xiàn)出更好的性能。論文懷疑更詳細(xì)的搜索結(jié)果可能會(huì)分散模型對(duì)初始問(wèn)題的注意力,尤其是在 LLM 持有不完整的長(zhǎng)上下文能力時(shí)。因此,MindSearch 的一個(gè)自然未來(lái)工作是減輕網(wǎng)絡(luò)瀏覽過(guò)程中的幻覺(jué)問(wèn)題。    

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

圖 5:MindSearch 與 Perplexity.ai(Pro)在同一問(wèn)題上的解決方案軌跡比較。得益于其細(xì)粒度搜索,MindSearch 提供了更詳細(xì)和恰當(dāng)?shù)捻憫?yīng)

表 1:在各種封閉集問(wèn)答任務(wù)上的性能比較。論文選擇了兩個(gè)具有代表性的大型語(yǔ)言模型(LLMs):GPT-4o(閉源)和 InternLM2.5-7b-chat(開(kāi)源)

中科大、上海AI Lab發(fā)表的MindSearch思·索: 模擬模仿人類(lèi)思維引發(fā)的深度AI探索者-AI.x社區(qū)

除了定量結(jié)果外,論文還提供了 Perplexity.ai(Pro)與 MindSearch 之間的定性響應(yīng)比較,以直觀(guān)地理解它們的性能。從圖 5 中,論文可以觀(guān)察到 MindSearch 產(chǎn)生了更具體和詳細(xì)的響應(yīng)。論文實(shí)證發(fā)現(xiàn),更好的響應(yīng)可以歸因于與 Perplexity.ai 相比更恰當(dāng)?shù)囊?guī)劃搜索路徑,這也表明如何分解人類(lèi)意圖是最終問(wèn)題的關(guān)鍵步驟。    

2.3.2 封閉集問(wèn)答

2.3.2.1實(shí)施細(xì)節(jié)?

論文在廣泛的封閉集問(wèn)答任務(wù)上廣泛評(píng)估了論文的方法,包括 Bamboogle、Musique和 HotpotQA。為了進(jìn)一步驗(yàn)證論文方法的泛化性,論文選擇了閉源 LLM(GPT-4o)和開(kāi)源 LLM(InternLM2.5-7b-chat)作為論文的 LLM 后端。由于論文的方法采用零樣本實(shí)驗(yàn)設(shè)置,論文利用主觀(guān) LLM 評(píng)估器(GPT4-o)來(lái)評(píng)估 HotpotQA 的正確性。

2.3.2.2 結(jié)果與分析

在表1中,論文將論文的方法與兩種直接的基線(xiàn)方法進(jìn)行了比較:不使用搜索引擎的原始LLM(w/o Search Engine),以及簡(jiǎn)單地將搜索引擎視為外部工具并采用ReAct風(fēng)格交互的方法(ReAct Search)。論文可以得出結(jié)論,MindSearch顯著優(yōu)于其原始基線(xiàn)方法,驗(yàn)證了所提出方法的有效性。當(dāng)從閉源LLM轉(zhuǎn)移到開(kāi)源LLM時(shí),這些優(yōu)勢(shì)進(jìn)一步放大,這進(jìn)一步證明了MindSeach提供了一種簡(jiǎn)單的方法來(lái)增強(qiáng)弱LLM的知識(shí)廣度并緩解幻覺(jué)問(wèn)題。

?

本文轉(zhuǎn)載自 ??AI帝國(guó)???,作者: 無(wú)影寺


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦