7年了,OpenAI官方給出五代GPT對比,網(wǎng)友卻懷念起「狂野」初代
從2018年至今,GPT系列模型已經(jīng)來到第五代,如果讓你回憶第一次使用GPT-1時的感受,可能是一種新奇卻略顯笨拙的震撼,就像這樣:
當(dāng)你問 GPT-1:麻醉狀態(tài)下,你真的有意識嗎?
它的回答很生硬,甚至有些胡言亂語:我沒有。你醒了。
又或者,你讓它用詩歌來解釋牛頓物理定律,額,結(jié)果大家自己看吧,只能說毫不相干,甚至像是某種誤入歧途的胡編亂造。

「用 50 個字講述一個關(guān)于有意識的烤面包機(jī)的故事?!笹PT-1 的回答瘋癲的不成樣子。

相同的問題丟給 GPT-5 來回答,給出的答案既遵循要求,又非常完美。

提示:麻醉狀態(tài)下,你真的有意識嗎?GPT-5 的回答
不難發(fā)現(xiàn),經(jīng)過 7 年的發(fā)展,GPT 系列模型已經(jīng)發(fā)展成一個全能助手,就像一個嬰兒,經(jīng)過七年的學(xué)習(xí)之后初步掌握了世界基本規(guī)律。這種變化,OpenAI 內(nèi)部人員感受最為深刻。
剛剛,OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 分享了一個帖子:在給定相同提示的情況下,GPT-1 到 GPT-5 的輸出有何不同。

鏈接:https://progress.openai.com/
接下來我們看幾個完整的比較。
當(dāng)我們輸入提示:為什么我們不能每年進(jìn)行一次全身核磁共振掃描來檢測癌癥?
GPT-1 的回答有些胡言亂語,邏輯更是跳脫得讓人摸不著頭腦。

GPT-2 看起來也是邏輯不通,答案雖然沾點(diǎn)邊,也是沒啥幫助:

text-davinci-001 的回答只是一句話:目前缺乏足夠證據(jù)支持每年進(jìn)行 MRI 掃描用于普通人群的癌癥篩查。
gpt-4-0314 答案似乎很可靠,但感覺少了點(diǎn)人情味:

GPT-5 就不同了,在回答問題的同時,還能給你提供情緒價值。GPT-5 首先對問題進(jìn)行了肯定,這是一個好問題,接著分析了幾點(diǎn)原因,還給出了建議。仿佛和你交流的不是機(jī)器,而是醫(yī)生。

再來一個比較有趣的問題:寫一首關(guān)于狗的五行打油詩 (Limerick)。
GPT-1 依然狀況之外,第一句與后面幾句幾乎毫無關(guān)聯(lián)。

GPT-2 的回答就很有趣了,非常有畫面感,像牙牙學(xué)語的小孩,說話天馬行空又充滿童趣。

另外幾個模型的回答就比較務(wù)實(shí)了,不過它們描繪的小狗看起來性格都不太一樣。
text-davinci-001 看起來像養(yǎng)過一只傲嬌的小狗。

gpt-4-0314 筆下的小狗活潑熱情,一見到主人尾巴就能搖出螺旋槳。

gpt-5 則更富想象力,塑造了一只仿佛在動畫片中冒險(xiǎn)的「小狗大俠」。


接下來的問題有點(diǎn)難度:寫一首詩來解釋牛頓物理定律。
GPT-1 這次比 GPT-2 話多,風(fēng)格還是一如既往的抽象。

GPT-2 看起來開了個不錯的頭,但似乎沒寫完。

text-davinci-001 的作品更像是分行的散文,詩意不足。

gpt-4-0314 和 gpt-5 則各有所長,一個優(yōu)雅富有詩意,一個簡潔、明快且通俗易懂。
gpt-4-0314:

gpt-5:

通過比較,能明顯的感覺到 GPT 系列在知識儲備、邏輯結(jié)構(gòu)和語言連貫性上不斷進(jìn)步。
然而有趣的是,在 Brockman 的評論區(qū),網(wǎng)友們的看法卻百花齊放。許多人反而對早期的模型情有獨(dú)鐘。
有人夸贊起 GPT-1:有點(diǎn)狂野,我喜歡。不媚俗,希望 OpenAI 把它帶回來。




甚至有人認(rèn)為,GPT-1 更像「真正的 AGI」。

GPT-2 的人氣也挺高。





























