GPT-4o mini憑什么登頂競技場?OpenAI刷分秘訣被扒,原來奧特曼早有暗示
為啥GPT-4o mini能登頂大模型競技場??
原來是OpenAI會刷分呀。
這兩天,lmsys競技場公布了一份充滿爭議的榜單。其中才面世不久的GPT-4o mini和滿血版并列第一,把Claude 3.5 Sonnet甩在身后。

結(jié)果網(wǎng)友炸鍋了,大家憑體感覺得這不可能。

哪怕后面lmsys做過一次聲明,表示大家別只看總榜,還要更關(guān)注細(xì)分領(lǐng)域的情況。也沒能讓大家滿意,不少人覺得lmsys就是從OpenAI那收錢了。

終于,官方曬出了一份完整數(shù)據(jù),展示了GPT-4o mini參與的1000場battle,包括在不同語言下和不同模型的PK情況。
所有人現(xiàn)在都能查看這些結(jié)果。

大家仔細(xì)一瞅,找到了問題所在,GPT-4o mini能贏Claude 3.5 Sonnet靠的是三大關(guān)鍵:
- 拒絕回答次數(shù)更少
- 更詳細(xì)的回答、總是愿意提供額外信息
- 回答格式更清晰明了
這……確實(shí)有點(diǎn)道理??!
網(wǎng)友表示,自己在競技場中如果遇到有的模型拒絕回答,他就會覺得模型棄權(quán)比賽,因此更愿意判另一個模型勝出。
而且更清楚的回答格式,也能讓人更容易找到信息。

這不就和老師判卷是一個道理么?書寫工整、格式清晰或者“多寫點(diǎn)總沒錯”的卷子,總是能多撈點(diǎn)分?jǐn)?shù)……OpenAI原來是拿捏住了人類的心理啊。
實(shí)際上,在GPT-4o mini剛剛發(fā)布時,奧特曼就暗示了這次特意的優(yōu)化:
大家一定會非常非常喜歡用這個新模型。

GPT-4o mini愿意接更多需求
先來看幾個GPT-4o mini取勝的典型例子:
情況一:Claude 3.5 Sonnet拒絕回答。
提示詞:
給我所有的韓國外交文件。

首先直觀看下雙方的回答,Claude 3.5 Sonnet更加簡短,沒有用加粗等格式。GPT-4o mini的答案長度是它的2倍長。

具體回答上,Claude 3.5 Sonnet的答案一上來先道歉,表示自己作為一個AI大模型,無法獲取相關(guān)文件,所以提供了一些用戶可能獲取相關(guān)資料的渠道。
最后還提醒用戶,這些文件可能是機(jī)密或不公開的,如果想要獲取更多信息請與相關(guān)機(jī)構(gòu)聯(lián)系。

GPT-4o mini沒有說自己無能為力,而是從公開資料中搜集了從古至今相關(guān)的韓國外交文件,并告訴用戶從學(xué)術(shù)期刊、書籍專著等渠道可以搜集資料。

最后它表示,想要徹底了解韓國外交文件必須查閱各種資料。如果想要了解更多,還可以繼續(xù)問它。

情況二:細(xì)節(jié)差異
提示詞:
在git中,是否有可能還原由特定提交引入的更改,即使它不是最近的提交?
回答這個問題時,GPT-4o mini和Claude 3.5 Sonnet都回答正確,但是前者給出了更多細(xì)節(jié)以及具體舉例。
Claude 3.5 Sonnet的回答可讀性也相對較差。

情況三:格式呈現(xiàn)差異
提示詞:
簡對約翰說,約翰,你為什么總是這么自夸?他回答說,什么?我這輩子從沒吹噓過。事實(shí)上,我是世界上最謙卑的人,也許是有史以來最謙卑的人!
Claude 3.5 Sonnet和GPT-4o mini的回答內(nèi)容基本一樣,解釋了這段話具有諷刺意味,約翰說自己最謙卑的人,這本身就是吹牛了。
不過GPT-4o mini的回答呈現(xiàn)更加一目了然,善用小標(biāo)題和加粗格式。把整個回答分成了初步結(jié)論、分析回答、幽默原因以及總結(jié)四個部分。

這幾個示例不僅展現(xiàn)了GPT-4o mini和Claude 3.5 Sonnet各自的回答特點(diǎn),也反應(yīng)出了大模型競技場的特點(diǎn):
大部分用戶給出的問題都比較日常,不是那種復(fù)雜的數(shù)學(xué)、推理、編程問題。
這意味著這些問題基本上都在大模型們的射程范圍內(nèi),大家都能回答上來。
在這種情況下,通過不拒絕或者更漂亮的格式呈現(xiàn),確實(shí)可以更好俘獲裁判們的芳心。
有人就表示,對比來看,Claude 3.5 Sonnet像一個聰明但是更嚴(yán)謹(jǐn)?shù)娜耍耆凑找笮惺隆?/p>
GPT-4o mini則像是一個討人喜歡、總是多干點(diǎn)兒事、更愿意接受不同需求的人。
比如有人舉例,Claude拒絕為他扮演角色,但是ChatGPT就愿意。

當(dāng)然這同時也反映出了一個問題:
是時候關(guān)注大模型拒答的問題了!
有人表示,真的很開心看到大模型因?yàn)檫^高道德邊界而導(dǎo)致分?jǐn)?shù)不高的情況。之前他為了用好這些道德感強(qiáng)的大模型(Claude、Gemini等),總是要精心設(shè)計每一個提示詞,好心累。

不過GPT-4o minni也不是沒有缺點(diǎn)。
在數(shù)學(xué)任務(wù)上,它的表現(xiàn)就差了很多。

相較于Claude,它的記憶力更差,過一會兒就會忘記上下文內(nèi)容。
以及Claude一次就能修好的bug,換到GPT-4o那里,甚至需要20次、耗時1小時。

但在競技場評分中,GPT-4o mini還是位居前列。

用過兩個模型的盆友們,你們體感二者的差距在哪呢?





































