一招分辨刷榜作弊大模型,博士小哥開(kāi)源AI數(shù)學(xué)“照妖鏡”
如今很多大模型都聲稱擅長(zhǎng)數(shù)學(xué),誰(shuí)有真才實(shí)學(xué)?誰(shuí)是靠背測(cè)試題“作弊”的?
有人在今年剛剛公布題目的匈牙利全國(guó)數(shù)學(xué)期末考試上做了一把全面測(cè)試。
很多模型一下子就“現(xiàn)原形”了。

先看綠色部分,這些大模型在經(jīng)典數(shù)學(xué)測(cè)試集GSM8k和全新卷子上取得的成績(jī)差不多,共同組成參照標(biāo)準(zhǔn)。
再看紅色部分,在GSM8K上的成績(jī)顯著高于同參數(shù)規(guī)模的大模型,一到全新卷子上成績(jī)卻明顯下降,與同規(guī)模大模型差不多了。
研究者把他們歸類為“疑似或已知在GSM8k上訓(xùn)練過(guò)”。
網(wǎng)友看過(guò)這項(xiàng)測(cè)試后表示,是時(shí)候開(kāi)始在大模型從來(lái)沒(méi)見(jiàn)過(guò)的題目上搞評(píng)測(cè)了。

也有人認(rèn)為,這項(xiàng)測(cè)試+每個(gè)人實(shí)際上手使用大模型的經(jīng)驗(yàn),是目前唯一靠譜的評(píng)估手段。

馬斯克Grok僅次于GPT-4,開(kāi)源Llemma成績(jī)出色
測(cè)試者Keiran Paster是多倫多大學(xué)博士生、谷歌學(xué)生研究者,也是測(cè)試中Lemma大模型的作者之一。

讓大模型考匈牙利全國(guó)高中數(shù)學(xué)期末考試,這招出自馬斯克的xAI。
xAI的Grok大模型發(fā)布時(shí),除了幾個(gè)常見(jiàn)的測(cè)試集,還額外做了這項(xiàng)測(cè)試,就是為了排除模型無(wú)意中在網(wǎng)絡(luò)數(shù)據(jù)見(jiàn)過(guò)測(cè)試題的問(wèn)題。
這個(gè)考試今年5月底才考完,當(dāng)前大模型基本沒(méi)機(jī)會(huì)見(jiàn)過(guò)這套試題。
xAI發(fā)布時(shí)還公布了的GPT-3.5、GPT-4、Claude 2的成績(jī)作為比較。

在這組數(shù)據(jù)基礎(chǔ)上,Paster進(jìn)一步測(cè)試了多個(gè)生成數(shù)學(xué)能力強(qiáng)的開(kāi)源模型。
并把測(cè)試題目、測(cè)試腳本、各模型回答結(jié)果都開(kāi)源在了Huggingface上,供大家檢驗(yàn)以及進(jìn)一步測(cè)試其他模型。

結(jié)果來(lái)看,GPT-4和Claude-2組成第一梯隊(duì),在GSM8k和新卷子上成績(jī)都很高。
雖然這不代表GPT-4和Claude 2的訓(xùn)練數(shù)據(jù)中完全沒(méi)有GSM8k的泄露題,但至少它倆泛化能力不錯(cuò)、能做對(duì)新題,就不計(jì)較了。
接下來(lái),馬斯克xAI的Grok-0(33B)和Grok-1(未公布參數(shù)規(guī)模)表現(xiàn)都不錯(cuò)。
Grok-1是“未作弊組”里成績(jī)最高的,新卷子成績(jī)甚至高過(guò)Claude 2。
Grok-0在GSM8k上的表現(xiàn)接近GPT3.5-Turbo,新卷子上略差一些。
除了上面這幾個(gè)閉源模型,測(cè)試中其他的都是開(kāi)源模型了。
Code Llama系列是Meta自己在Llama 2基礎(chǔ)上微調(diào)的,主打根據(jù)自然語(yǔ)言生成代碼,現(xiàn)在看來(lái)數(shù)學(xué)能力比同規(guī)模的模型稍差。

在Code Llama的基礎(chǔ)上,多所大學(xué)和研究機(jī)構(gòu)共同推出Llemma系列,并由EleutherAI開(kāi)源。
團(tuán)隊(duì)從科學(xué)論文、包含數(shù)學(xué)的網(wǎng)絡(luò)數(shù)據(jù)和數(shù)學(xué)代碼中收集了Proof-Pile-2數(shù)據(jù)集,訓(xùn)練后的Llemma能使用工具和做形式定理證明,無(wú)需任何進(jìn)一步的微調(diào)。
Llemma 34B在新卷子上與GPT-3.5 Turbo水平接近。

Mistral系列則是法國(guó)AI獨(dú)角獸Mistral AI訓(xùn)練的,Apache2.0開(kāi)源協(xié)議比Llama更寬松,成為羊駝家族之后最受開(kāi)源社區(qū)歡迎的基礎(chǔ)模型。

“過(guò)擬合組”里的OpenChat 3.5和MetaMath Mistral都是基于Mistral生態(tài)微調(diào)而來(lái)。
MetaMath和MAmmoTH Code則是基于Code Llama生態(tài)。
有在實(shí)際業(yè)務(wù)中選擇開(kāi)源大模型的就要小心避開(kāi)這一組了,它們很有可能只是刷榜成績(jī)好看,但實(shí)際能力弱于同規(guī)模模型。

不少網(wǎng)友都對(duì)Paster這項(xiàng)試驗(yàn)表示感謝,認(rèn)為這正是了解模型實(shí)際情況所需要的。

也有人提出擔(dān)心:
從這一天起,所有訓(xùn)練大模型的人都會(huì)加入匈牙利歷年數(shù)學(xué)考試題。
同時(shí)他認(rèn)為,解決辦法可能是有一家擁有專有測(cè)試的專門(mén)大模型評(píng)估公司。

另一項(xiàng)提議是建立一個(gè)逐年更新的測(cè)試基準(zhǔn),來(lái)緩和過(guò)度擬合問(wèn)題。
































