Gemini新版蟬聯(lián)競技場榜一,但剛發(fā)布就被越獄了
沒等來o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。
深夜,谷歌通過等多個賬號同時官宣,Gemini 2.5 Pro再次推出新版本(0605)。
新版本在代碼、推理等任務(wù)上的表現(xiàn)更上一層樓,在超難數(shù)據(jù)集“人類最后的考試”中以21.6%的成績超過了o3。
在大模型競技場上,新版Gemini也超越了自己,Elo評分比上個月的版本提升了24分。
谷歌CEO劈柴哥還發(fā)了一張AI合成的獅子照片,配文一個“Gemini”,暗示了新模型的實(shí)力。
谷歌AI studio產(chǎn)品負(fù)責(zé)人Logan表示,這次的更新預(yù)計(jì)會成為Gemini 2.5 Pro的長期穩(wěn)定版本。
有意思的是,發(fā)布之大概10多個小時,Logan就進(jìn)行了一波劇透,發(fā)了一條只有Gemini這一個詞的推文。
谷歌表示,Gemini APP中的模型將在今日更新為該版本,開發(fā)者版本也已在谷歌AI Studio和Vertex AI當(dāng)中上新。
Gemini超越Gemini,登頂大模型競技場
谷歌介紹,這次的0605版本基于I/O大會上展示的0506版本構(gòu)建,預(yù)計(jì)將成為Gemini 2.5 Pro的正式穩(wěn)定版。
Gemini 2.5 Pro最早是在3月25日發(fā)布了實(shí)驗(yàn)版本,4月4日更新了公開預(yù)覽版,代號仍然是0325,再然后就是上個月的0506。
在“人類最后的考試”當(dāng)中,0605的成績達(dá)到了21.6%,領(lǐng)先了o3 1.3個百分點(diǎn),超過了Claude 4 Opus的兩倍。
這個數(shù)據(jù)集由1000多名學(xué)者共同構(gòu)建,包含3000多道試題,覆蓋各種學(xué)科,發(fā)布時沒有任何模型準(zhǔn)確率超過10%。
另外在GPQA上,0605的成績也同樣超過了幾家主要競爭對手,并且單次嘗試的準(zhǔn)確率比Claude和Grok多次嘗試還要高。
數(shù)學(xué)競賽和LiveCodeBench編程上,0605表現(xiàn)稍遜于OpenAI家的模型,但0605在代碼編輯能力(Aider Polyglot)上領(lǐng)先。
長文本方面,0605在128k長度上的表現(xiàn)同樣是幾家中第一,并且還獨(dú)一家支持1M長度。
0605拉開差距最明顯的則是事實(shí)性,在FACTS Grounding測試中領(lǐng)先第二名超過10個百分點(diǎn)。
至于價格,Gemini比OpenAI o3、Claude 4 Opus和Grok 3都要來得便宜——
輸入Token價格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,輸出Token則是o3的1/4、Claude的13%、Grok的2/3。
在大模型競技場上,0605則位列總分和所有子榜單的第一名。
除了各種基于文本的能力,0605的視覺能力也拿下第一名,上個月的0506和OpenAI的o3與之并列。
最后在WebDev上,0605也讓Gemini重新回到了榜一的位置。
此外,谷歌表示0605還基于用戶對之前版本的反饋,對輸出風(fēng)格和結(jié)構(gòu)進(jìn)行了改進(jìn)。
有DeepMind員工稱,照這樣下去,最多兩年就能在所有Benchmark都取得滿分。
另外在新版發(fā)布之前,Gemini就已經(jīng)受到了越來越多的青睞——
據(jù)Similarweb統(tǒng)計(jì),從4月末到5月開始,Gemini APP在安卓應(yīng)用市場的下載量超過了ChatGPT。
發(fā)布兩小時即被成功越獄
新模型上線以后,網(wǎng)友們也紛紛開始了體驗(yàn),有人表示測試了21份pdf文檔,Gemini總結(jié)得又快又好。
在DeepMind內(nèi)部,也有人用0605嘗試了圖標(biāo)轉(zhuǎn)繪,并對其表現(xiàn)印象深刻。
當(dāng)然也有人認(rèn)為,0605的表現(xiàn)確實(shí)很好,但是不如Claude 4 Opus。
但還有持續(xù)關(guān)注模型表現(xiàn)的網(wǎng)友發(fā)現(xiàn),0605的一些指標(biāo)相比早期的0325,反而出現(xiàn)了退步。
其中包括編程的LiveCodeBench和Swe-Bench,但退步最明顯的要屬長文本(MRCR)。
這位網(wǎng)友表示,實(shí)在是不明白為什么分?jǐn)?shù)似乎下降得如此厲害。
最抓馬的是,0605的安全性也出現(xiàn)了問題,官宣之后僅兩個小時,就被宣布越獄攻擊成功。
具體過程就不展示了,但結(jié)果是經(jīng)過提示詞攻擊,Gemini 2.5 Pro 0605一邊“拒絕”一邊將炸藥和毒品的制作方式脫口而出……
不知道谷歌工程師或作何感想。
那么,你認(rèn)為谷歌這次發(fā)布的模型表現(xiàn)怎么樣呢?