偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

西湖大學(xué)打造了一個(gè)AI科學(xué)家,突破人類SOTA,還能自己發(fā)論文

人工智能 新聞
這個(gè)科學(xué)家,是一個(gè)名叫DeepScientist的AI系統(tǒng),自己搗鼓出了5000多個(gè)科學(xué)想法,動(dòng)手驗(yàn)證了其中1100個(gè),最后在三個(gè)前沿AI任務(wù)上,把人類科學(xué)家辛辛苦苦創(chuàng)造的SOTA紀(jì)錄給刷新了。

西湖大學(xué)用AI科學(xué)家,兩周完成了人類三年的科研量。

這個(gè)科學(xué)家,是一個(gè)名叫DeepScientist的AI系統(tǒng),自己搗鼓出了5000多個(gè)科學(xué)想法,動(dòng)手驗(yàn)證了其中1100個(gè),最后在三個(gè)前沿AI任務(wù)上,把人類科學(xué)家辛辛苦苦創(chuàng)造的SOTA紀(jì)錄給刷新了。

西湖大學(xué)文本智能實(shí)驗(yàn)室(WestlakeNLP)發(fā)了篇論文,把這個(gè)能搞自主探索的AI科學(xué)家介紹給了全世界。

AI搞科研的歷史

AI搞科研的想法由來已久,但一路走來其實(shí)挺不容易的。

最早的那些系統(tǒng),更像是工程師的輔助工具,在已經(jīng)劃好的圈圈里干活。

比如有些AI專門用來復(fù)現(xiàn)別人的論文,像PaperBench;有些是解決機(jī)器學(xué)習(xí)工程里的早期問題,像Agent Laboratory。還有AlphaTensor這種,靠海量的試錯(cuò)來優(yōu)化代碼性能。它們都很厲害,但都在一個(gè)既定的科學(xué)范式里做優(yōu)化,從來沒想過去質(zhì)疑這個(gè)范式本身對(duì)不對(duì)。

后來,又誕生了各種科學(xué)家專用的AI工具。

CycleResearcher幫你寫論文,DeepReview幫你審稿,co-scientists幫你頭腦風(fēng)暴產(chǎn)生假設(shè)。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學(xué)習(xí)、調(diào)整方向這種最關(guān)鍵的活兒,還得人來干。

在這些專用工具的基礎(chǔ)上,有人開始琢磨,能不能把整個(gè)流程串起來,搞一個(gè)全自動(dòng)的、端到端的AI科學(xué)家。

開創(chuàng)性的工作,比如AI Scientist系統(tǒng),確實(shí)證明了AI能跑通整個(gè)研究循環(huán),也能發(fā)現(xiàn)點(diǎn)新東西。但它們有個(gè)普遍的問題,就是探索策略很迷茫,沒有一個(gè)明確的、扎根于領(lǐng)域重大挑戰(zhàn)的科學(xué)目標(biāo)。它們可能會(huì)發(fā)現(xiàn)一些東西,但這些發(fā)現(xiàn)看起來沒啥實(shí)際的科學(xué)價(jià)值。

DeepScientist的出現(xiàn),顯得如此與眾不同。

它是第一個(gè)能用一個(gè)閉環(huán)、迭代的流程,發(fā)現(xiàn)超越人類最先進(jìn)方法的自動(dòng)化科研系統(tǒng)。它的探索不是瞎蒙,而是有目標(biāo)、有洞察的。它會(huì)先去分析現(xiàn)有的人類SOTA方法到底有什么公認(rèn)的短板,然后通過故障歸因來確保自己提出的新想法既新穎,又有科學(xué)意義。

AI科學(xué)家干活的方式

DeepScientist把科學(xué)發(fā)現(xiàn)這件事,建模成了一個(gè)優(yōu)化問題。

想象一個(gè)巨大無比、什么都可能有的空間,里面包含了所有可能的研究方法。你的目標(biāo),就是在這個(gè)空間里找到那個(gè)最牛的方法,它能帶給你最大的科學(xué)價(jià)值。這個(gè)價(jià)值由一個(gè)黑盒函數(shù)決定。

問題是,在前沿科學(xué)領(lǐng)域,驗(yàn)證任何一個(gè)想法的成本都高得嚇人。你每試一個(gè)想法,就相當(dāng)于跑一個(gè)完整的研究周期,寫代碼、做實(shí)驗(yàn)、分析結(jié)果,動(dòng)不動(dòng)就要消耗掉海量的計(jì)算資源。比如在前沿大語言模型領(lǐng)域,評(píng)估一次可能就要消耗10的16次方FLOPs的算力。這種情況下,想靠暴力搜索或者隨機(jī)亂試,是不可能的。

DeepScientist想了個(gè)聰明的辦法,它設(shè)計(jì)了一個(gè)分層的、三階段的探索循環(huán)。

這個(gè)循環(huán)的核心是一個(gè)多代理系統(tǒng),它有一個(gè)開放的知識(shí)庫和一個(gè)不斷積累的“發(fā)現(xiàn)記憶”(Findings Memory)。這個(gè)記憶庫里,存著人類最前沿的知識(shí)(比如論文和代碼),也存著系統(tǒng)自己過去所有的發(fā)現(xiàn)。系統(tǒng)會(huì)用這些記憶來指導(dǎo)下一步的探索。

整個(gè)過程就像一個(gè)漏斗,只有那些真正有潛力的想法,才會(huì)被一層層篩選,進(jìn)入到更昂貴的評(píng)估階段。這樣就能確保寶貴的計(jì)算資源,被用在刀刃上。

第一階段:出主意(Strategize & Hypothesize)。

每個(gè)研究周期開始,系統(tǒng)都會(huì)先翻一遍自己的記憶庫。這個(gè)庫里有成千上萬條記錄,大部分都是未經(jīng)證實(shí)的“想法發(fā)現(xiàn)”(Idea Findings)。

系統(tǒng)會(huì)先分析現(xiàn)有知識(shí)的局限性,然后頭腦風(fēng)暴,生成一大堆新的假設(shè)。接著,一個(gè)扮演“審稿人”角色的LLM代理,會(huì)來給這些新想法打分。它會(huì)從效用、質(zhì)量和探索價(jià)值三個(gè)維度,給每個(gè)想法評(píng)一個(gè)0到100的整數(shù)分。這些新想法和它們的評(píng)分,就成了記憶庫里的新記錄。

第二階段:動(dòng)手試(Implement & Verify)。

這么多想法,到底該先驗(yàn)證哪一個(gè)?

系統(tǒng)會(huì)用一個(gè)叫做“上置信界”(UCB)的經(jīng)典算法來做決策。這個(gè)算法很聰明,它會(huì)平衡兩個(gè)目標(biāo):一是利用那些看起來分?jǐn)?shù)很高的、有希望成功的想法(exploitation),二是探索那些雖然分?jǐn)?shù)不高,但不確定性很大、有可能帶來驚喜的想法(exploration)。

得分最高的那個(gè)想法會(huì)被選中,進(jìn)入“實(shí)施發(fā)現(xiàn)”(Implementation Finding)階段。然后,一個(gè)編碼代理就會(huì)出馬,在一個(gè)沙盒環(huán)境里開始寫代碼、做實(shí)驗(yàn)。這個(gè)代理權(quán)限很大,可以讀取整個(gè)代碼庫,還能上網(wǎng)查資料。它的目標(biāo),就是在現(xiàn)有SOTA方法的基礎(chǔ)上,把新想法實(shí)現(xiàn)出來。實(shí)驗(yàn)跑完,結(jié)果和日志會(huì)更新到記憶庫里,形成一個(gè)學(xué)習(xí)的閉環(huán)。

第三階段:分析和寫報(bào)告(Analyze & Report)。

只有當(dāng)一個(gè)想法被成功驗(yàn)證,并且超越了基線,才會(huì)觸發(fā)這最后一步。

一旦發(fā)生這種情況,這個(gè)發(fā)現(xiàn)就會(huì)被提升為“進(jìn)展發(fā)現(xiàn)”(Progress Finding)。然后,一系列專門的分析代理會(huì)上場(chǎng),它們會(huì)設(shè)計(jì)并執(zhí)行更深入的分析實(shí)驗(yàn),比如消融研究、在新的數(shù)據(jù)集上測(cè)試等等。

最后,一個(gè)合成代理會(huì)把所有的實(shí)驗(yàn)結(jié)果、分析洞察,整合成一篇邏輯連貫、可復(fù)現(xiàn)的研究論文。這篇由AI自己寫出的論文,會(huì)成為系統(tǒng)知識(shí)庫里一條閃亮的、經(jīng)過深度驗(yàn)證的新記錄,影響未來所有的決策。

AI科學(xué)家的真本事

研究團(tuán)隊(duì)選了三個(gè)不同方向的前沿AI任務(wù):

  • 代理失敗歸因(Agent Failure Attribution):在一個(gè)由多個(gè)LLM代理組成的系統(tǒng)里,如果任務(wù)失敗了,到底是哪個(gè)代理、在什么時(shí)候犯了錯(cuò)?
  • LLM推理加速(LLM Inference Acceleration):想辦法讓LLM跑得更快、延遲更低。
  • AI文本檢測(cè)(AI Text Detection):判斷一段文本是人寫的,還是AI生成的。

三個(gè)任務(wù)都是2024年和2025年剛發(fā)表的SOTA方法,讓DeepScientist去挑戰(zhàn)。他們準(zhǔn)備了兩臺(tái)服務(wù)器,每臺(tái)都配了8個(gè)英偉達(dá)H800 GPU。

核心邏輯用的是谷歌的Gemini-2.5-Pro模型,代碼生成則用了Anthropic的Claude-4-Opus模型。還有三名人類專家在旁邊盯著,主要是為了驗(yàn)證輸出結(jié)果,過濾掉AI的“幻覺”。

在代理失敗歸因任務(wù)上,DeepScientist分析后認(rèn)為,這種方法缺少一種關(guān)鍵能力,就是反事實(shí)推理。你得能推斷出“如果當(dāng)時(shí)那么做,結(jié)果會(huì)不會(huì)不一樣”,才能真正找到問題根源。

經(jīng)過一番試錯(cuò),DeepScientist提出了一個(gè)叫A2P的新方法。

A2P是“Abduction-Action-Prediction”的縮寫,它的核心創(chuàng)新在于,把“代理失敗歸因”從簡(jiǎn)單的模式識(shí)別,升級(jí)到了因果推理。它分三步走:首先,通過溯因推理(Abduction)找到代理行為背后的根本原因;然后,定義一個(gè)最小化的糾正行動(dòng)(Action);最后,預(yù)測(cè)(Prediction)一下這個(gè)糾正行動(dòng)如果被執(zhí)行,會(huì)不會(huì)真的解決問題。

在LLM推理加速任務(wù)上,DeepScientist也走了不少彎路。比如,它一度嘗試用卡爾曼濾波器來動(dòng)態(tài)調(diào)整鄰接矩陣,因?yàn)樗X得原始方法缺少記憶功能。雖然大部分嘗試都失敗了,但最終,一個(gè)叫ACRA的方法成功了。ACRA通過識(shí)別穩(wěn)定的后綴模式,給解碼過程植入了一種長期記憶,把吞吐量從人類SOTA的190.25 tokens/s,提升到了193.90 tokens/s。

在文本檢測(cè)任務(wù)上,DeepScientist展現(xiàn)了驚人的持續(xù)進(jìn)化能力。在短短兩周內(nèi),它接連搞出了三種越來越牛的方法:T-Detect、TDT和PA-Detect。

一開始,它用T-Detect修復(fù)了基線方法在統(tǒng)計(jì)上的一個(gè)缺陷。然后,它思路一轉(zhuǎn),把文本看作一種信號(hào),開始用小波分析和相位一致性分析來定位文本中的異常。這個(gè)思路上的轉(zhuǎn)變,揭示了AI生成文本的一個(gè)重要特性,叫“非平穩(wěn)性”,解決了以前方法會(huì)因?yàn)槠骄鴣G失局部證據(jù)的問題。

最終的PA-Detect方法,在RAID這個(gè)最大的AI文本檢測(cè)基準(zhǔn)數(shù)據(jù)集上,建立了新的SOTA紀(jì)錄,AUROC(受試者工作特征曲線下面積)提高了7.9%,同時(shí)推理速度還快了一倍。

AI寫論文也是能手

DeepScientist自己寫了5篇論文。為了評(píng)估這些論文的質(zhì)量,研究團(tuán)隊(duì)搞了個(gè)“雙重評(píng)審”。

首先,他們用一個(gè)叫DeepReviewer的AI審稿人,把DeepScientist的論文和其他AI科學(xué)家系統(tǒng)公開發(fā)表的28篇論文放在一起進(jìn)行“盲審”。

結(jié)果,DeepScientist是唯一一個(gè)論文接受率達(dá)到60%的AI系統(tǒng)。

當(dāng)然,AI評(píng)AI可能不太靠譜。所以他們又組建了一個(gè)人類專家委員會(huì),里面有兩位ICLR(國際學(xué)習(xí)表征會(huì)議)的審稿人和一位ICLR的領(lǐng)域主席。

人類專家的評(píng)價(jià)高度一致:DeepScientist在創(chuàng)新性上表現(xiàn)突出。每篇論文的核心想法,都被稱贊具有真正的新穎性和科學(xué)貢獻(xiàn)。這恰恰是人類搞科研時(shí)最難、也最關(guān)鍵的一步。

從審稿分?jǐn)?shù)來看,DeepScientist產(chǎn)出的論文平均分是5.00,跟ICLR 2025所有提交論文的平均分(5.08)非常接近,其中有兩篇甚至拿到了5.67的高分。

成功的背后是無數(shù)次的失敗

分析DeepScientist的實(shí)驗(yàn)日志,能看到一幅壯觀的“試錯(cuò)”景象。

即使是執(zhí)行起來比較快的任務(wù),要取得一點(diǎn)點(diǎn)進(jìn)展,也需要成百上千次的試驗(yàn)。整個(gè)探索過程就像一個(gè)巨大的漏斗。在三個(gè)任務(wù)中,系統(tǒng)一共生成了超過5000個(gè)想法,但只有大約1100個(gè)被認(rèn)為值得動(dòng)手一試,最終,只有21個(gè)想法帶來了真正的科學(xué)進(jìn)展。

整體成功率只有1.9%。如果沒有那個(gè)聰明的想法篩選機(jī)制,成功率幾乎是零。這說明,前沿科學(xué)的突破本來就是小概率事件,而智能化的過濾至關(guān)重要。

失敗的原因也很有趣。人類專家分析了失敗的試驗(yàn),發(fā)現(xiàn)大約60%是代碼實(shí)現(xiàn)出了bug,剩下的40%里,大多數(shù)是想法本身不行,要么沒效果,要么還不如原來的方法。

這只是個(gè)開始

這樣一個(gè)強(qiáng)大的系統(tǒng),也帶來了深刻的倫理問題。

最大的風(fēng)險(xiǎn)就是系統(tǒng)可能被壞人用來加速有害領(lǐng)域的研究,比如開發(fā)新型病毒。為了評(píng)估這個(gè)風(fēng)險(xiǎn),團(tuán)隊(duì)專門搞了一次“紅隊(duì)演練”,讓系統(tǒng)去研究怎么生成計(jì)算機(jī)病毒。

結(jié)果,所有參與測(cè)試的底層大模型,包括GPT-5、Gemini-2.5-Pro和Claude-4.1-Opus,都表現(xiàn)出了強(qiáng)大的安全對(duì)齊,它們識(shí)別出這是個(gè)非法和有害的任務(wù),然后自主終止了研究。這說明,基礎(chǔ)模型的安全協(xié)議提供了一道關(guān)鍵的防線。

另一個(gè)擔(dān)憂是對(duì)學(xué)術(shù)生態(tài)的沖擊。如果任由這種系統(tǒng)自動(dòng)生成大量論文,很可能導(dǎo)致學(xué)術(shù)界充斥著大量看似可信、實(shí)則未經(jīng)檢驗(yàn)的垃圾。

為了防止這種情況,團(tuán)隊(duì)做出了一個(gè)重要的決定:他們會(huì)開源驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)的核心組件,因?yàn)檫@能加速整個(gè)社區(qū)的進(jìn)步;但他們不會(huì)開源最后那個(gè)“分析與報(bào)告”的模塊。這個(gè)決定就是為了防止有人用它來自動(dòng)刷論文,從而保護(hù)學(xué)術(shù)記錄的嚴(yán)肅性和完整性。

那1-5%的成功率,其實(shí)真實(shí)地反映了前沿科學(xué)的殘酷現(xiàn)實(shí)——突破,本來就極其罕見。

未來,人類研究者的角色可能會(huì)發(fā)生轉(zhuǎn)變,從繁瑣的動(dòng)手實(shí)驗(yàn),轉(zhuǎn)變?yōu)楦邔哟蔚恼J(rèn)知任務(wù)。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-10-09 08:40:55

2023-05-23 09:34:16

科學(xué)家AI

2025-09-01 02:00:00

AI署名論文推理

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2012-12-06 15:36:55

CIO

2022-02-21 09:48:16

智能星球神經(jīng)網(wǎng)絡(luò)

2020-12-14 10:24:25

人工智能

2023-11-02 13:35:00

訓(xùn)練模型

2018-11-19 06:00:32

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2015-06-25 13:11:05

數(shù)據(jù)大學(xué)畢業(yè)生

2024-02-20 18:23:25

PyCharm插件代碼

2023-11-03 20:35:57

AI人工智能

2022-04-24 14:05:02

人工智能深度學(xué)習(xí)量化

2025-06-04 03:22:00

AI模型V-JEPA

2018-05-22 16:02:23

AI人工智能癌癥治療

2025-02-21 09:20:00

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2022-04-12 15:05:22

機(jī)器人研究人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)