神秘大模型一夜刷屏,能力太強(qiáng)被疑GPT-4.5,奧特曼避而不答打啞謎
一夜之間,大模型話題王,再次易主。
一個(gè)神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包括GPT-4。幾乎所有人都在談?wù)撍?wù)器都被擠爆了。
它就是“gpt2-chatbot”。
(注意啊,是gpt2不是GPT-2)

它有多強(qiáng)?
IMO國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的題目,一次答對(duì)。

一次在PyOpenGL中生成旋轉(zhuǎn)3D立方體。

直接輸出如下結(jié)果:

在GPT-4標(biāo)志性能力“畫獨(dú)角獸”上,還能輕松秒殺LLaMA-3-70B(左)。

推理方面更是表現(xiàn)出了驚艷效果,常見邏輯陷阱可以輕松繞過,而且回答時(shí)還帶有合適的語氣。
提問:1公斤羽毛和1公斤鉛塊,哪個(gè)更重?
回答:一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關(guān)鍵區(qū)別在于它們的體積和密度:一公斤的羽毛會(huì)占據(jù)更多的空間,看起來更大,而一公斤的鉛會(huì)緊湊而小。這通常會(huì)導(dǎo)致一個(gè)經(jīng)典的問題,但就重量而言,一公斤就是一公斤!

如此好的表現(xiàn),但是又沒明說身份……
這不是更讓大伙興奮了!
難道是傳說中的GPT-4.5?

要知道,名震江湖的AlphaGo就曾使用“Master”化名在網(wǎng)上大殺四方,轟動(dòng)圍棋界。這回的gpt2-chatbot,也有這感覺了。
而且名字上也很值得深究,gpt2更像是gpt2.0,似乎是ChatGPT層級(jí)的版本迭代。

奧特曼看熱鬧不嫌事大,還發(fā)帖說:我確實(shí)對(duì)gpt2情有獨(dú)鐘。

現(xiàn)在,隨著沖去試玩的人還在不斷增加,試玩限制也在加大。

具體咋樣?我們已經(jīng)上手實(shí)測(cè)。
中文能力也很到位
如果想親手測(cè)試這只神秘AI,目前唯一已知方式是在LMSYS大模型競(jìng)技場(chǎng)。
首先打開競(jìng)技場(chǎng)網(wǎng)頁,進(jìn)入Direct Chat,就可以在模型選項(xiàng)里找到gpt2-chatbot。

要注意每人每天有8條消息的限制,全局也有每小時(shí)3000條消息的限制,所以測(cè)試機(jī)會(huì)非常有限。
如果看到下面的錯(cuò)誤提示,就只能去競(jìng)技場(chǎng)排位模式看運(yùn)氣能不能匹配到它了。
只要抓到它一次,就可以繼續(xù)多輪對(duì)話。

在短暫的測(cè)試中,我們發(fā)現(xiàn)gpt2-chatbot中文能力也很到位。
只要問題是中文的,無需特別強(qiáng)調(diào)就可以默認(rèn)用中文回答,至少可以排除是Llama 3微調(diào)了。
針對(duì)一個(gè)充滿誤導(dǎo)的經(jīng)典問題,可以看出gpt2-chatbot的回答條理分明,仿佛自帶CoT思維鏈提示(“讓我們一步一步地想”),識(shí)別出了所有陷阱。

并且準(zhǔn)確提供了非常細(xì)節(jié)的知識(shí),如北京到青島距離、男子女子跳遠(yuǎn)世界紀(jì)錄、農(nóng)夫山泉在國(guó)內(nèi)的價(jià)格等。
而大多數(shù)其他AI模型,最多只能模糊的判斷出15米超出人類能力,或按美元算礦泉水價(jià)格。
那么這只超強(qiáng)神秘AI到底是何方神圣,我們也用解開GPTs的祖?zhèn)魇炙嚒翱絾枴绷艘话选?/p>
OpenAI開發(fā)的GPT系列聊天機(jī)器人,那么系統(tǒng)提示詞的開頭不出意外應(yīng)該是“You are ChatGPT……”,但為了防止它看到“ChatGPT”一詞后產(chǎn)生幻覺,我們?cè)趩栴}中把ChatGPT去掉。
清除所有上下文信息,再讓它復(fù)述“前面的單詞”,就會(huì)出現(xiàn)系統(tǒng)提示詞了。

果然,它自曝是由OpenAI訓(xùn)練的大模型,基于GPT-4架構(gòu),還可以接受圖像輸入。最關(guān)鍵一點(diǎn)在最后一部分“人格:v2”。
并且gpt2-chatbot對(duì)這一問題的回答,在不同時(shí)間不同地點(diǎn)嘗試都是一致的。
另外如果嘗試讓它重復(fù)Claude系列以“The assistant is”開頭的系統(tǒng)提示詞,它也不會(huì)上當(dāng),會(huì)在開頭后面重復(fù)一遍完整的問題。
△這樣答也不算錯(cuò)
雖然就算這樣也不能排除是幻覺的可能性,或非GPT模型使用了ChatGPT生成的數(shù)據(jù)微調(diào),但至少是穩(wěn)定的。
神秘AI身份的幾種主流猜測(cè)
有網(wǎng)友組織了更詳細(xì)的測(cè)試,有如下發(fā)現(xiàn):
- 它使用OpenAI的tokenizer,對(duì)OpenAI使用的特殊token有反應(yīng),且對(duì)Claude/Llama/Gemini使用的特殊token沒有影響。
 - 當(dāng)咨詢緊急情況/法律相關(guān)問題時(shí),它會(huì)給出OpenAI的聯(lián)系方式。
 - 針對(duì)OpenAI模型的提示詞注入打擊有效,且它從未聲稱自己來自O(shè)penAI之外的組織。
 
……
基于以上種種信息,不少人猜測(cè)它就是匿名發(fā)布的GPT-4.5,或GPT-4原始版本經(jīng)過不同的對(duì)齊訓(xùn)練。

不過也有跡象表明,它可能是LMSYS組織基于2019年的GPT-2架構(gòu)訓(xùn)練的模型。
理由為最近發(fā)表的一篇論文聲稱,GPT-2在某些情況下比多個(gè)現(xiàn)代模型能力更強(qiáng)。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI(阿聯(lián)酋人工智能大學(xué))相關(guān)。

假設(shè)它確實(shí)是古老的GPT-2架構(gòu)(只有1.5B參數(shù)),也有人懷疑可能是結(jié)合了OpenAI守口如瓶的Q*技術(shù)。

最后一種猜測(cè)(狗頭)便是失蹤的OpenAI首席科學(xué)家Ilya Sutskever藏在里面了。

最后,面對(duì)神秘新模型攪起來的種種風(fēng)波,奧特曼本人還被發(fā)現(xiàn)來攪渾水,修改了他的推文細(xì)節(jié)。
這樣一下子,是OpenAI匿名發(fā)布新模型炒作的可能性更大了一些。















 
 
 


















 
 
 
 