OpenAI震撼發(fā)布o(jì)1大模型!RL深度思考,技術(shù)差距拉開(kāi)
openai放大招了,是奧特曼在推上宣傳了很久的草莓真身,這次它真的來(lái)了。
圖片
又給大家?guī)?lái)一點(diǎn)小小的震撼,國(guó)內(nèi)大模型老板們也不再迷茫了,4o的多模態(tài)的還沒(méi)趕上呢,這下怎么又回到純文本了,不是說(shuō)大家都搞得差不多了嗎?
奧特曼表示,雖然 o1 的表現(xiàn)仍然存在缺陷,不過(guò)你在第一次使用它的時(shí)候仍然會(huì)感到震撼。
圖片
這對(duì)從業(yè)者絕對(duì)是一件大好事,老板們發(fā)現(xiàn)餅還比較大,還可以讓資本繼續(xù)投錢,百萬(wàn)洗數(shù)據(jù)槽工衣食所系!
直接延長(zhǎng)了從愚昧之巔到絕望之谷的到來(lái)。
圖片
OpenAI o1到底有多強(qiáng)?
這次發(fā)布的大模型主要針對(duì)的任務(wù)是復(fù)雜任務(wù)推理,比如競(jìng)賽難度的編程問(wèn)題,奧賽難度的數(shù)學(xué)問(wèn)題等。并且效果得到了極大的提升,大概從高中生提升到了博士生。比如寫代碼的水平:
圖片
該模型在 2024 年國(guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)賽題上得到了 213 分,達(dá)到了排名前 49% 的水平。
圖片
在最難的數(shù)學(xué),code,物理化學(xué)生物等benchmark上遙遙領(lǐng)先。在全美高中生數(shù)學(xué)競(jìng)賽AIME上,o1能達(dá)到74分(GPT4-o僅有12分),如果采樣1000次,結(jié)合reward model加權(quán)投票能到93分,能排進(jìn)全國(guó)前500名,超過(guò)USA Mathematical Olympiad的晉級(jí)分?jǐn)?shù)線;在GPQA,一個(gè)關(guān)于物理,化學(xué)和生物的智力測(cè)試上,OpenAI招募了一群相關(guān)領(lǐng)域有博士學(xué)位的專家和o1同臺(tái)競(jìng)技, o1能夠在GPQA-diamond questions.上超過(guò)這群專家。在視覺(jué)感知能力后方面,o1 在 MMMU 上取得了 78.2% 的分?jǐn)?shù),成為第一個(gè)與人類專家媲美的模型。
圖片
值得注意的是,OpenAI在o1的基礎(chǔ)上加強(qiáng)了模型的代碼能力,以o1為初始化又訓(xùn)了一個(gè)o1-IOI,用于參加2024年的國(guó)際奧林匹克信息競(jìng)賽(2024 International Olympiad in Informatics), 在和人類選手相同的條件下,在10h內(nèi)解決6道非常難的競(jìng)賽問(wèn)題,每個(gè)問(wèn)題最多允許提交50次。最終,o1-IOI能獲得一個(gè)216分的分?jǐn)?shù),在放開(kāi)提交次數(shù)后,o1-IOI能獲得362.14,超過(guò)了金牌線。這種和人類頂尖選手同臺(tái)競(jìng)技,才是最能反映模型能力的benchmark吧。在CodeForce上,打出了驚人的1807分。
圖片
并且安全性得分上也遙遙領(lǐng)先;
技術(shù)上最大的提升
一般的LLM訓(xùn)練,對(duì)齊,推理三個(gè)階段的耗時(shí)通常是:
圖片
這次,o1的耗時(shí)分布就變得很神奇。
圖片
并且我們能發(fā)現(xiàn)一個(gè)簡(jiǎn)單的例子需要消耗690多個(gè)token,5秒多。
圖片
OpenAI聲稱,訓(xùn)練階段,會(huì)通過(guò)強(qiáng)化學(xué)習(xí),讓o1完善其思維鏈并優(yōu)化所使用的策略。例如:識(shí)別并糾正錯(cuò)誤,將復(fù)雜步驟拆分為簡(jiǎn)單步驟,當(dāng)前方法不work時(shí),換一種方法在推理階段,模型同樣會(huì)在呈現(xiàn)給用戶的cot之外,做一個(gè)更深的的所謂的long internal chain of thought,所以推理時(shí)間會(huì)更長(zhǎng),相當(dāng)于COT套娃了,給COT再加一個(gè)COT。
圖片
但訓(xùn)練技術(shù)上怎么實(shí)現(xiàn)的呢?
知乎作者白蘇蘇給了一個(gè)關(guān)于推理階段內(nèi)在思維連提升性能的案例:
思維鏈:
圖片
內(nèi)在思維鏈:
圖片
但具體是怎么訓(xùn)練來(lái)的,openai只提到了強(qiáng)化學(xué)習(xí)幾個(gè)字,從推理速度上來(lái)看,模型在推理時(shí)候應(yīng)該是輸出了很多中間token,到了某個(gè)觸發(fā)詞{output}再真正的輸出。
這個(gè)能力怎么來(lái)的,網(wǎng)友MoonCancer發(fā)表了不同見(jiàn)解:
如果用的是常規(guī)的預(yù)訓(xùn)練數(shù)據(jù)集,中間的CoT部分完全是通過(guò)RL訓(xùn)練出來(lái),完全原生的,那么很好,LLM推理這個(gè)領(lǐng)域基本上結(jié)束了,我們離AGI又近了一步。
如果是用4o之類的模型合成大量細(xì)致的CoT數(shù)據(jù),然后進(jìn)行模仿,再學(xué)習(xí)把過(guò)于細(xì)致的部分隱藏起來(lái),那么貢獻(xiàn)基本上等同于把模型scale 10倍,是一種很好的模型增強(qiáng)方法。
如果是專門請(qǐng)人寫了大量CoT數(shù)據(jù)然后強(qiáng)行給模型finetune進(jìn)去,那真的是“有多少人工就有多少智能”。