偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o

發(fā)布于 2025-11-4 07:30
瀏覽
0收藏

搜索“總結(jié)2023年NeurIPS、ICML、ICLR三大ML頂會(huì)的最佳論文,還要分析熱門領(lǐng)域趨勢(shì)”,搜了十幾頁(yè)結(jié)果:有的只說(shuō)某個(gè)會(huì)議論文分析,有的提了最佳論文但是沒(méi)有趨勢(shì),零散得像沒(méi)串起來(lái)的珠子;讓AI回答,它倒是說(shuō)得頭頭是道,結(jié)果一半細(xì)節(jié)查不到來(lái)源,疑似“瞎編”;更糟的是,好不容易攢了一堆資料,AI又彈出“內(nèi)容太多,超出我的記憶容量”——這是不是你查復(fù)雜信息時(shí)的日常崩潰?

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

最近我在讀ICLR 2025的一篇論文時(shí),突然眼前一亮:來(lái)自中科大和上海AI實(shí)驗(yàn)室的團(tuán)隊(duì),搞出了個(gè)叫MindSearch(中文名“思·索”)的多智能體框架,居然把這些痛點(diǎn)優(yōu)化了。它能像人一樣“邊思考邊找信息”,3分鐘就能完成原本要花3小時(shí)的資料搜集整合,甚至用開(kāi)源的InternLM2.5-7B模型做出來(lái)的效果,比ChatGPT-Web(基于GPT-4o)和Perplexity.ai還受人類待見(jiàn)。今天就從研究員的角度,跟你聊聊這東西到底是怎么“讀懂人心”的。

先搞懂:我們查復(fù)雜資料時(shí),到底在“卡”什么?

在聊技術(shù)之前,得先說(shuō)說(shuō)我們面對(duì)“復(fù)雜問(wèn)題”時(shí),本質(zhì)上在跟什么較勁。比如“總結(jié)2023年NeurIPS、ICML、ICLR三大ML頂會(huì)的最佳論文,還要分析熱門領(lǐng)域趨勢(shì)”,這種問(wèn)題難就難在三點(diǎn)——這也是MindSearch要解決的核心痛點(diǎn):

第一,“一次性搜不全”。你不可能用一個(gè)關(guān)鍵詞就把三個(gè)頂會(huì)的最佳論文全揪出來(lái),更別說(shuō)還要趨勢(shì)分析。就像你要辦一場(chǎng)生日宴,不可能一趟超市就買齊蛋糕、食材、裝飾——得拆成多個(gè)任務(wù),可傳統(tǒng)搜索工具要么“一次性亂買一堆”,要么“漏買關(guān)鍵項(xiàng)”。

第二,“信息噪音太多”。搜出來(lái)的結(jié)果里,可能混著2022年的論文、非“最佳論文”的普通文章,甚至還有自媒體的片面解讀。這就像你買食材時(shí),攤位上混著不新鮮的菜、跟宴席無(wú)關(guān)的零食,挑半天才能找到能用的,特別費(fèi)時(shí)間。

第三,“AI記不住太多東西”。就算你挑出20篇有用的網(wǎng)頁(yè),每篇幾千字,LLM的“記憶容量”(也就是context length)根本裝不下——相當(dāng)于你買了一堆菜,廚房臺(tái)面太小,根本擺不開(kāi),沒(méi)法動(dòng)手做飯。

我們團(tuán)隊(duì)之前也試過(guò)用傳統(tǒng)的“檢索增強(qiáng)生成(RAG)”解決這類問(wèn)題,比如讓AI先搜再寫,但結(jié)果總是差強(qiáng)人意:要么搜得太淺,要么整合得太亂,本質(zhì)上就是沒(méi)解決這三個(gè)痛點(diǎn)。而MindSearch的巧妙之處,就在于它學(xué)了“人類解決復(fù)雜問(wèn)題的思路”——先拆任務(wù),再分工找信息,最后整合。

傳統(tǒng)方法為啥不行?像“用勺子挖游泳池”

在MindSearch之前,行業(yè)里解決“AI+搜索”的思路主要有兩種,都有點(diǎn)“治標(biāo)不治本”:

第一種是純LLM硬扛。就是讓GPT-4o這類模型直接回答,實(shí)在不知道就“瞎編”。這就像你不查菜譜、不買食材,直接讓廚師憑空做一桌宴席——偶爾能蒙對(duì)幾道簡(jiǎn)單菜,但復(fù)雜的肯定翻車。實(shí)驗(yàn)里也能看出來(lái),純GPT-4o在HotpotQA(復(fù)雜多跳問(wèn)答)的平均正確率只有53.5%,開(kāi)源模型更是只有42.9%。

第二種是RAG或ReAct式搜索。RAG是“先搜一堆資料,再讓AI總結(jié)”,像一次性買完所有菜再做飯,不管食材用不用得上;ReAct是“邊搜邊想”,比如先搜“NeurIPS 2023最佳論文”,拿到結(jié)果再搜“ICML的”,一步一步來(lái)。但這種方式效率太低,而且容易在中間步驟“走歪”——比如搜完NeurIPS,忘了還要分析趨勢(shì),最后漏了關(guān)鍵信息。實(shí)驗(yàn)里ReAct在GPT-4o上的正確率也只到55.1%,沒(méi)比純LLM好多少。

簡(jiǎn)單說(shuō),這些方法要么“沒(méi)工具硬干”,要么“有工具但不會(huì)用”,就像用勺子挖游泳池,費(fèi)了半天勁,進(jìn)度還是慢得讓人著急。

MindSearch的核心:讓AI像“餐廳后廚”一樣分工干活

MindSearch的突破,本質(zhì)上是搞了個(gè)“AI版后廚團(tuán)隊(duì)”——兩個(gè)核心角色:WebPlanner(相當(dāng)于“主廚”)和WebSearcher(相當(dāng)于“專業(yè)采購(gòu)員”)。這倆角色分工明確、互相配合,完美解決了前面說(shuō)的三個(gè)痛點(diǎn)。

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

1. WebPlanner:“主廚”的活兒——把復(fù)雜問(wèn)題拆成“可執(zhí)行的采購(gòu)清單”

你去餐廳點(diǎn)“一桌融合菜”,主廚不會(huì)直接讓采購(gòu)員“買所有菜”,而是先拆成“買澳洲和?!薄百I松露”“買日本米”這些具體需求,還會(huì)標(biāo)清楚“哪些可以同時(shí)買”“哪些要等前一步買完再買”。WebPlanner干的就是這個(gè)活:把用戶的復(fù)雜問(wèn)題,拆成一個(gè)個(gè)“原子化子問(wèn)題”,再用“動(dòng)態(tài)流程圖”(論文里叫DAG,不用記這個(gè)詞)管理步驟。

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

舉個(gè)例子,用戶問(wèn)“介紹一款中國(guó)產(chǎn)的3A游戲,要細(xì)節(jié)”:

? WebPlanner先把問(wèn)題拆成“中國(guó)有哪些3A游戲”“原神的開(kāi)發(fā)背景”“原神的玩法核心”“原神的全球銷量”這些子問(wèn)題——每個(gè)子問(wèn)題都像一個(gè)“采購(gòu)需求”,只聚焦一個(gè)點(diǎn),不貪心。

? 然后它會(huì)畫個(gè)“流程圖”:先搜“中國(guó)3A游戲列表”(這是第一步),拿到結(jié)果后,再同時(shí)搜“原神”“黑神話:悟空”的細(xì)節(jié)(這些可以并行,不用等一個(gè)搜完再搜)——就像主廚讓采購(gòu)員同時(shí)去肉鋪和蔬菜鋪,節(jié)省時(shí)間。

這里最讓我驚訝的是,WebPlanner還用“寫代碼”的方式來(lái)管理這個(gè)流程圖。你可能會(huì)問(wèn):“讓AI寫代碼?這不是更復(fù)雜了嗎?”其實(shí)反而是為了“更精準(zhǔn)”。就像主廚寫清楚“買500克M9和牛,不要凍肉”,比口頭說(shuō)“買些好牛肉”更不容易出錯(cuò)。如果代碼寫錯(cuò)了(比如子問(wèn)題重復(fù)了),Python解釋器會(huì)報(bào)錯(cuò),WebPlanner能馬上修正——相當(dāng)于采購(gòu)員發(fā)現(xiàn)清單寫錯(cuò)了,立刻跟主廚確認(rèn),不會(huì)買錯(cuò)東西。

我們之前做類似任務(wù)時(shí),最頭疼的就是“AI拆問(wèn)題拆得太粗”,比如把“原神玩法+銷量”放一個(gè)子問(wèn)題里,結(jié)果搜出來(lái)的信息混在一起,不好整合。MindSearch這種“代碼化拆分工單”的方式,很好優(yōu)化了這個(gè)問(wèn)題。

2. WebSearcher:“采購(gòu)員”的活兒——精準(zhǔn)找信息,不買“沒(méi)用的菜”

采購(gòu)員接到清單后,不會(huì)隨便亂買:先去多個(gè)市場(chǎng)看看(廣撒網(wǎng)),再挑靠譜的攤位(選網(wǎng)頁(yè)),最后只買新鮮的食材(提取關(guān)鍵信息)。WebSearcher的“分層檢索”就是這個(gè)邏輯,顯著優(yōu)化了“信息噪音多”和“AI記不下”的問(wèn)題。

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

具體分三步:

? 第一步:“多問(wèn)幾個(gè)渠道”。比如要搜“原神全球銷量”,WebSearcher不會(huì)只搜“原神銷量”,還會(huì)生成“Genshin Impact global sales 2024”“原神各地區(qū)收入占比”等多個(gè)相關(guān)查詢——就像采購(gòu)員去超市、農(nóng)貿(mào)市場(chǎng)、線上平臺(tái)都問(wèn)一遍,確保不漏掉關(guān)鍵信息。

? 第二步:“挑靠譜的攤位”。搜出來(lái)的結(jié)果可能有100個(gè)網(wǎng)頁(yè),WebSearcher會(huì)先看標(biāo)題和摘要,挑出“米哈游官方財(cái)報(bào)”“Newzoo游戲行業(yè)報(bào)告”這種靠譜來(lái)源,排除“玩家論壇猜測(cè)”“過(guò)時(shí)的2021年數(shù)據(jù)”——相當(dāng)于采購(gòu)員只在口碑好的攤位買,避免買到假貨。

? 第三步:“只帶有用的食材回來(lái)”。WebSearcher會(huì)把挑中的網(wǎng)頁(yè)內(nèi)容提煉成“關(guān)鍵信息”(比如“2024年原神全球累計(jì)收入超60億美元,移動(dòng)端占比70%”),再交給WebPlanner——不會(huì)把整個(gè)網(wǎng)頁(yè)的幾萬(wàn)字都塞給AI,完美解決“記憶容量不夠”的問(wèn)題。

實(shí)驗(yàn)里能看出來(lái),這種方式效率極高:MindSearch能在3分鐘內(nèi)處理300多個(gè)網(wǎng)頁(yè)的信息,而人類要干3小時(shí)——相當(dāng)于你花喝一杯咖啡的時(shí)間,搞定原本要一下午的查資料工作。

它到底比別人強(qiáng)在哪?三個(gè)“反常識(shí)”的創(chuàng)新

MindSearch能在實(shí)驗(yàn)里“打敗”ChatGPT-Web和Perplexity.ai,不是靠“模型更牛”,而是靠“流程更聰明”。有三個(gè)創(chuàng)新點(diǎn),我覺(jué)得特別值得說(shuō):

1. 不是“先搜再想”,而是“邊想邊搜,動(dòng)態(tài)調(diào)整”

傳統(tǒng)方法都是“先搜一堆資料,再整理”,就像采購(gòu)員先買完所有菜,再讓主廚想怎么做。而MindSearch是“主廚邊想菜單,邊讓采購(gòu)員補(bǔ)買食材”——比如WebPlanner先讓W(xué)ebSearcher搜“原神開(kāi)發(fā)背景”,拿到結(jié)果發(fā)現(xiàn)“原神用了自研的Anime Shading技術(shù)”,馬上新增一個(gè)子問(wèn)題“原神的Anime Shading技術(shù)細(xì)節(jié)”,讓W(xué)ebSearcher再去搜。

這種“動(dòng)態(tài)調(diào)整”特別適合復(fù)雜問(wèn)題,就像你寫報(bào)告時(shí),越查越發(fā)現(xiàn)有新的關(guān)鍵點(diǎn)要補(bǔ)充,MindSearch能自動(dòng)跟上這種“思考節(jié)奏”,而不是一開(kāi)始就定死所有步驟。

2. 不是“信息越多越好”,而是“精準(zhǔn)分層,過(guò)濾噪音”

很多人覺(jué)得“AI搜信息,越多越好”,但MindSearch反其道而行之:通過(guò)“多查詢生成→網(wǎng)頁(yè)篩選→信息提煉”的分層步驟,主動(dòng)“扔掉沒(méi)用的信息”。就像優(yōu)秀的采購(gòu)員不會(huì)買一堆菜回來(lái)占地方,而是只買“用得上、質(zhì)量好”的——這樣既減輕了AI的“記憶負(fù)擔(dān)”,又提高了信息的準(zhǔn)確性。

實(shí)驗(yàn)里也能驗(yàn)證這一點(diǎn):如果去掉“多查詢生成”這個(gè)步驟,MindSearch的正確率會(huì)從64.0%降到60.6%;去掉“網(wǎng)頁(yè)篩選”,會(huì)降到58.0%——可見(jiàn)“過(guò)濾噪音”比“多搜信息”更重要。

3. 開(kāi)源模型也能打贏閉源,靠的是“流程優(yōu)化”

這是最讓我意外的一點(diǎn):用開(kāi)源的InternLM2.5-7B(參數(shù)只有70億)做的MindSearch,居然在人類評(píng)價(jià)中超過(guò)了用GPT-4o(閉源大模型)的ChatGPT-Web。原因很簡(jiǎn)單:閉源模型雖然“腦子好”,但沒(méi)“好工具”;而MindSearch給開(kāi)源模型配了“精準(zhǔn)拆任務(wù)+高效找信息”的工具,相當(dāng)于給普通廚師配了“專業(yè)采購(gòu)員+精準(zhǔn)菜譜”,最后做出的菜反而比“天才廚師但沒(méi)工具”更好。

這對(duì)行業(yè)來(lái)說(shuō)是個(gè)好消息:以后不用非得依賴閉源大模型,用開(kāi)源模型+好的流程設(shè)計(jì),也能做出高質(zhì)量的AI搜索工具。

實(shí)際用起來(lái)怎么樣?人類評(píng)估說(shuō)了算

光說(shuō)原理沒(méi)用,得看實(shí)際效果。團(tuán)隊(duì)做了兩個(gè)關(guān)鍵實(shí)驗(yàn),結(jié)果很有說(shuō)服力:

第一個(gè)是“人類主觀評(píng)價(jià)”:找5個(gè)專家,盲測(cè)MindSearch(InternLM2.5-7B)、ChatGPT-Web(GPT-4o)、Perplexity.ai Pro的回答,從“深度”“廣度”“事實(shí)性”三個(gè)維度打分。結(jié)果是:

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

? 深度:MindSearch 83% vs ChatGPT-Web 73% vs Perplexity 70%——比如回答“嫦娥六號(hào)采樣難點(diǎn)”,MindSearch會(huì)詳細(xì)說(shuō)“鵲橋二號(hào)中繼衛(wèi)星怎么解決通信”,而其他工具可能只提“有通信問(wèn)題”。

? 廣度:MindSearch 73% vs 其他兩個(gè)分別是24%和17%——比如回答“3A游戲”,MindSearch會(huì)覆蓋開(kāi)發(fā)、玩法、銷量、技術(shù),其他工具可能只說(shuō)玩法。

? 事實(shí)性:MindSearch 70%,跟其他兩個(gè)差不多——這是目前的小短板,團(tuán)隊(duì)說(shuō)未來(lái)會(huì)優(yōu)化“信息溯源”,減少瞎編的可能。

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

第二個(gè)是“閉集QA測(cè)試”(比如HotpotQA):用GPT-4o和InternLM2.5-7B分別跑MindSearch和傳統(tǒng)方法。結(jié)果是:

ICLR'25中科大+上海AI實(shí)驗(yàn)室提出MindSearch:AI查資料3分鐘頂3小時(shí),開(kāi)源模型打贏GPT-4o-AI.x社區(qū)

? GPT-4o+MindSearch的正確率是59.8%,比純GPT-4o(53.5%)高6.3%;

? InternLM2.5-7B+MindSearch的正確率是49.2%,比純開(kāi)源模型(42.9%)高6.3%——而且越復(fù)雜的問(wèn)題(比如“多跳問(wèn)答”),MindSearch的優(yōu)勢(shì)越明顯。

簡(jiǎn)單說(shuō):MindSearch不是“讓AI更聰明”,而是“讓AI更會(huì)干活”——就像一個(gè)普通團(tuán)隊(duì),靠好的分工和流程,能打贏比自己“單兵能力強(qiáng)”但沒(méi)章法的對(duì)手。

現(xiàn)在還不完美,但方向很亮

當(dāng)然,MindSearch不是“萬(wàn)能的”,還有幾個(gè)明顯的局限,團(tuán)隊(duì)也在論文里坦誠(chéng)說(shuō)了:

第一,不能處理視覺(jué)信息。如果用戶問(wèn)“原神的角色設(shè)計(jì)風(fēng)格有什么特點(diǎn)”,需要看圖片對(duì)比,MindSearch現(xiàn)在還做不到——只能處理文字信息。

第二,不能跟網(wǎng)頁(yè)互動(dòng)。比如要查“某游戲的最新更新日志”,需要點(diǎn)進(jìn)官網(wǎng)的“更新公告”頁(yè)面,MindSearch現(xiàn)在只能搜現(xiàn)成的網(wǎng)頁(yè)結(jié)果,不能主動(dòng)“點(diǎn)擊、跳轉(zhuǎn)”網(wǎng)頁(yè)。

第三,引用質(zhì)量沒(méi)評(píng)估。雖然它會(huì)標(biāo)注信息來(lái)源,但沒(méi)判斷“這個(gè)來(lái)源靠不靠譜”——比如引用了“玩家論壇的猜測(cè)”和“官方財(cái)報(bào)”,現(xiàn)在還沒(méi)法區(qū)分優(yōu)先級(jí)。

但這些都是“可以改進(jìn)的問(wèn)題”,不是方向錯(cuò)了。我覺(jué)得MindSearch的最大價(jià)值,是給行業(yè)指了一條路:未來(lái)的AI搜索工具,核心競(jìng)爭(zhēng)力不是“模型多大”,而是“能不能像人一樣思考、分工、解決復(fù)雜問(wèn)題”。

最后:這東西對(duì)我們普通人意味著什么?

可能你會(huì)說(shuō):“這跟我有啥關(guān)系?我又不做學(xué)術(shù)研究?!逼鋵?shí)關(guān)系很大——以后你查復(fù)雜信息,可能再也不用“搜半天、理不清、怕瞎編”了:

比如你想“給父母選一款適合的養(yǎng)老醫(yī)療險(xiǎn)”,MindSearch能拆成“2024年主流養(yǎng)老醫(yī)療險(xiǎn)有哪些”“某款產(chǎn)品的報(bào)銷范圍”“60歲以上老人的投保條件”“用戶理賠案例”這些子問(wèn)題,自動(dòng)找信息、整合答案,甚至對(duì)比不同產(chǎn)品的優(yōu)缺點(diǎn)——不用你自己翻十幾頁(yè)保險(xiǎn)條款,也不用怕AI瞎編“理賠成功率”。

再比如學(xué)生寫論文,要“分析某部電影的社會(huì)影響”,MindSearch能自動(dòng)搜“電影的票房數(shù)據(jù)”“影評(píng)人評(píng)價(jià)”“社會(huì)學(xué)論文對(duì)它的分析”“觀眾調(diào)研結(jié)果”,還會(huì)標(biāo)注來(lái)源,避免抄襲風(fēng)險(xiǎn)。

就像當(dāng)年搜索引擎把“查資料”從“跑圖書館”變成“在家點(diǎn)鼠標(biāo)”,MindSearch這類工具可能會(huì)把“查復(fù)雜資料”從“崩潰的幾小時(shí)”變成“輕松的幾分鐘”。

如果你也有過(guò)“查資料查到崩潰”的經(jīng)歷,或者對(duì)“AI怎么像人一樣思考”感興趣,歡迎在評(píng)論區(qū)聊聊——你平時(shí)查復(fù)雜信息時(shí),最頭疼的是什么?

參考資料:

? 標(biāo)題:MINDSEARCH: MIMICKING HUMAN MINDS ELICITS DEEP AI SEARCHER

? 作者:Zehui Chen?1, Kuikun Liu?2, Qiuchen Wang1, Jiangning Liu2, Wenwei Zhang2, Kai Chen2?, Feng Zhao1?

? 單位:1MoE Key Laboratory of Brain-inspired Intelligent Perception and Cognition, USTC; 2Shanghai AI Laboratory

? 鏈接:https://openreview.net/pdf?id=xgtXkyqw1f

本文轉(zhuǎn)載自??旺知識(shí)??,作者:旺知識(shí)

標(biāo)簽
已于2025-11-4 07:30:53修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄