AI進(jìn)化時(shí)間表已現(xiàn)!LLM每7個(gè)月能力翻倍,2030年職場(chǎng)不復(fù)存在?
隨著大模型能力一路狂飆,各路測(cè)評(píng)基準(zhǔn)也遍地開花。
從經(jīng)典的MMLU、HellaSwag,到多模態(tài)方向的MMMU、MathVista,再到AGI風(fēng)格的Arena對(duì)決、Agent任務(wù)、Tool-use測(cè)試。
如何科學(xué)地衡量LLM在長(zhǎng)時(shí)、復(fù)雜、真實(shí)世界任務(wù)中的能力,至關(guān)重要。
今年3月,METR發(fā)布重磅研究《Measuring AI Ability to Complete Long Tasks》,首次提出令人眼前一亮的新指標(biāo):
50%任務(wù)完成時(shí)間視野(50%-task-completion time horizon)
——也就是:AI能以50%成功率完成的任務(wù),人類通常需要花多久?
論文鏈接:https://arxiv.org/pdf/2503.14499
據(jù)此,METR展開了一系列研究,包括任務(wù)復(fù)雜度設(shè)定、人類基準(zhǔn)時(shí)間測(cè)量、多模型對(duì)比實(shí)驗(yàn)到層層統(tǒng)計(jì)回歸建模。
最終,團(tuán)隊(duì)精準(zhǔn)量化了AI智力演進(jìn)速度,并拋出驚人預(yù)測(cè):
按照目前增長(zhǎng)速度,5年之后,大模型可能就能在一天內(nèi)自動(dòng)完成原本需要人類數(shù)月才能完成的復(fù)雜任務(wù)。
別眨眼,LLM每7個(gè)月實(shí)力翻倍!
METR團(tuán)隊(duì)選出每一時(shí)間段的最強(qiáng)模型,建立了一個(gè)精確的「大事年表」,進(jìn)一步定量分析模型能力隨時(shí)間的增長(zhǎng)情況。
結(jié)果顯示出清晰的指數(shù)增長(zhǎng)趨勢(shì):在過去的六年中,模型能力每7個(gè)月翻一番。
圖中的陰影區(qū)域表示通過在任務(wù)家族、任務(wù)以及任務(wù)嘗試之間進(jìn)行分層自助法(hierarchical bootstrap),計(jì)算得出95%的置信區(qū)間。
不過,這個(gè)指數(shù)增長(zhǎng)趨勢(shì)非常陡峭,所以于對(duì)誤差有很高的容忍度。
即便絕對(duì)測(cè)量誤差達(dá)到10倍,能力到來的時(shí)間也僅會(huì)改變大約2年左右。
因此,團(tuán)隊(duì)對(duì)不同能力何時(shí)出現(xiàn)的預(yù)測(cè)基本不會(huì)出錯(cuò)。
模型vs人類:用「人類耗時(shí)」測(cè)量大模型智力
METR這項(xiàng)研究的核心就是他們提出的這項(xiàng)指標(biāo):「任務(wù)完成時(shí)間視野」(task-completion time horizon)。
這個(gè)指標(biāo)相當(dāng)于給分別完成任務(wù)的人和AI加了個(gè)映射:
想象一組各不相同的任務(wù),人類完成這些任務(wù)分別需要不同的時(shí)間。
把這些任務(wù)交給AI模型去做,然后找出AI能以50%成功率完成的那一檔任務(wù)(但不考慮AI用的時(shí)間)。
然后對(duì)應(yīng)去看人類完成這一檔任務(wù)通常需要多長(zhǎng)時(shí)間。
這個(gè)人類所需的時(shí)間,就是該模型的50%-task-completion time horizon,也即「任務(wù)完成時(shí)間視野」。
為了證明這個(gè)基準(zhǔn)的有效性,METR團(tuán)隊(duì)做了翔實(shí)的統(tǒng)計(jì)分析。
結(jié)果顯示,人類基線完成某項(xiàng)任務(wù)所需時(shí)間,與各模型在該任務(wù)上的平均成功率之間存在負(fù)相關(guān)關(guān)系。
簡(jiǎn)而言之,人做起來越慢,模型做起來越容易失敗。
并且,用指數(shù)模型擬合這個(gè)負(fù)相關(guān)趨勢(shì)效果很好。
用模型成功率對(duì)人類完成時(shí)間的對(duì)數(shù)做回歸分析,算出的R2約為0.83,相關(guān)系數(shù)為0.91,這比不同模型之間平均成功率的相關(guān)系數(shù)還高。
因此,「以人類時(shí)間衡量任務(wù)難度」,這個(gè)指標(biāo)非常合理。
模型越新,任務(wù)越難:能力進(jìn)化有跡可循
證明了這個(gè)指標(biāo)的有效性,接下來還要看看各個(gè)模型在這個(gè)指標(biāo)上的表現(xiàn)。
團(tuán)隊(duì)進(jìn)一步檢驗(yàn)了不同模型能完成的任務(wù)所對(duì)應(yīng)的人類耗時(shí)。
結(jié)果相當(dāng)符合直覺:
2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需寫幾句話的簡(jiǎn)單任務(wù)。
而對(duì)于人類耗時(shí)超過1分鐘的任務(wù),它們則迅速敗下陣來。
相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)則可以完成一些人類要花數(shù)小時(shí)的任務(wù),甚至在十幾小時(shí)的超長(zhǎng)程任務(wù)上還能保持一定的成功率。
效率碾壓人類:2030年警告已拉響
按照「7個(gè)月翻一番」的這個(gè)速度下去,METR團(tuán)隊(duì)得到了一個(gè)驚人結(jié)論:
到2030年,最先進(jìn)的LLM有望以50%的可靠性,完成一個(gè)每周工作40小時(shí)的人類工程師花一個(gè)月才能完成的任務(wù)。
更令人毛骨悚然的是, LLM的速度可能遠(yuǎn)超人類——也許只需幾天,甚至幾小時(shí)。
到2030年,LLM可能已經(jīng)能輕松創(chuàng)辦一家公司、寫出一部像樣的小說,或是大幅改進(jìn)已有的大模型。
AI研究員Zach Stein-Perlman在博客中寫道,擁有此類能力的LLM的問世將帶來巨大的影響,無論是潛在好處還是潛在風(fēng)險(xiǎn)」。
Kinniment承認(rèn),LLM能力翻倍的速度讓人害怕,仿佛科幻片災(zāi)難前奏。
但她也表示,在現(xiàn)實(shí)中也可能有很多因素影響和減緩這種進(jìn)展。AI再聰明,仍然可能受到硬件、機(jī)器人技術(shù)等瓶頸的掣肘。