OpenAI突發(fā)新模型:用GPT改進(jìn)GPT訓(xùn)練,左腳踩右腳登天,RLHF突破人類能力上限
OpenAI突然發(fā)布新模型!基于GPT-4訓(xùn)練,可以幫助下一代GPT訓(xùn)練。
CriticGPT,用于給代碼挑Bug時(shí)能找到75%以上,而相比之下人類只能找到不到25%。
它還可以給Bug寫“銳評(píng)”,在60%的情況下人類訓(xùn)練師更喜歡有CriticGPT幫助下的批評(píng)。
有網(wǎng)友開玩笑說(shuō),“只會(huì)批評(píng)的GPT,這不是我前妻么”。
但這項(xiàng)研究最重要之處在于,CriticGPT挑錯(cuò)能力可以泛化到代碼之外。
比如在RLHF訓(xùn)練中給AI的輸出挑錯(cuò),而且已經(jīng)進(jìn)入OpenAI內(nèi)部訓(xùn)練流程。
更好的RLHF就能訓(xùn)練出更強(qiáng)的模型,更強(qiáng)的模型又能通過(guò)更好地挑錯(cuò)來(lái)增強(qiáng)RLHF訓(xùn)練……
論文結(jié)論中赫然寫道:在真實(shí)世界數(shù)據(jù)中挑錯(cuò)誤上,AI還可以繼續(xù)進(jìn)步,人類智能已經(jīng)到頭了。
左腳踩右腳上天,難道真的被這幫人給搞出來(lái)了?
這是一篇來(lái)自被解散的超級(jí)對(duì)齊團(tuán)隊(duì)的“遺作”,由前負(fù)責(zé)人Jan Leike帶隊(duì)。
而Leike本人已經(jīng)跳槽去了隔壁Anthropic,繼續(xù)做這類研究。
基于GPT-4,改進(jìn)GPT-4
OpenAI官網(wǎng)文章變相承認(rèn)了,GPT-4之后這么久沒(méi)有大的改進(jìn),還真的遇到一些瓶頸:
隨著AI能力變強(qiáng),它犯的錯(cuò)也不那么顯眼了,人類訓(xùn)練師都難以發(fā)現(xiàn)不準(zhǔn)確之處。
人類給不出反饋,那RLHF“人類反饋強(qiáng)化學(xué)習(xí)”就無(wú)從談起了。
CriticGPT正是為了應(yīng)對(duì)這一挑戰(zhàn)而生。
CriticGPT基于GPT-4,也接受了RLHF訓(xùn)練出,但特別之處在于訓(xùn)練數(shù)據(jù)中包含大量的錯(cuò)誤輸入。
具體來(lái)說(shuō),分為三步:
- 讓人類標(biāo)注員在ChatGPT生成的代碼里故意植入一些微妙的bug。
- 標(biāo)注員扮演代碼審查員的角色,寫下他們對(duì)這些bug的評(píng)論。
- 用這些數(shù)據(jù)來(lái)訓(xùn)練CriticGPT,讓它學(xué)會(huì)如何發(fā)現(xiàn)和指出代碼中的問(wèn)題。
在具體訓(xùn)練過(guò)程中,他們還玩了點(diǎn)花樣。
比如不斷讓標(biāo)注員驗(yàn)證自己插入的bug是否足夠隱蔽,能夠騙過(guò)當(dāng)前版本的CriticGPT。這樣一來(lái),CriticGPT就被迫不斷進(jìn)化,學(xué)會(huì)發(fā)現(xiàn)越來(lái)越隱蔽的問(wèn)題。
思路有點(diǎn)像GAN的左右互搏,只不過(guò)生成器這個(gè)位置是人類來(lái)充當(dāng)?shù)摹?/p>
最后,OpenAI還使用了一種“強(qiáng)制采樣束搜索”(FSBS)的技術(shù),允許CriticGPT在生成評(píng)論時(shí)既能保持全面,又能減少”幻覺(jué)”和“雞蛋里挑骨頭”現(xiàn)象。
具體來(lái)說(shuō),F(xiàn)SBS會(huì)強(qiáng)制模型生成多個(gè)不同的評(píng)論片段,用獎(jiǎng)勵(lì)模型對(duì)這些片段進(jìn)行評(píng)分,最后根據(jù)評(píng)分和一個(gè)長(zhǎng)度修正因子來(lái)選擇最佳的評(píng)論組合。
通過(guò)調(diào)整長(zhǎng)度修正因子,可以在評(píng)論的全面性和準(zhǔn)確性之間找到最佳平衡點(diǎn),既不會(huì)錯(cuò)過(guò)重要問(wèn)題,又不會(huì)過(guò)度挑剔。
等一下,推理時(shí)搜索,這不正是和傳聞中的Q*一個(gè)思路,這次居然寫到了論文里。
可能是看外部團(tuán)隊(duì)(如顏水成)按這一思路的研究已經(jīng)夠多了,就不再藏著掖著了。
說(shuō)回到CriticGPT,取得了哪些結(jié)果呢?
- 在發(fā)現(xiàn)人為插入的bug方面,人類審核員平均只能找到25%,而CriticGPT的成功率高達(dá)75%以上
- 在評(píng)估自然出現(xiàn)的Bug時(shí),有63%的情況下人類更傾向于選擇CriticGPT的評(píng)論而非人類評(píng)論
- CriticGPT的評(píng)論被認(rèn)為比ChatGPT的更全面,更少出現(xiàn)”幻覺(jué)”和無(wú)關(guān)緊要的挑剔
- 在評(píng)估非代碼任務(wù)時(shí),成功識(shí)別出數(shù)百個(gè)在ChatGPT訓(xùn)練數(shù)據(jù)中被人類認(rèn)為是”完美”的錯(cuò)誤。
不過(guò)CriticGPT也不是十全十美,它也會(huì)有”幻覺(jué)”問(wèn)題,指出一些實(shí)際上不存在的問(wèn)題。
目前,人類和CriticGPT組隊(duì)工作效果最好:既能發(fā)現(xiàn)大部分問(wèn)題,又能避免AI的”幻覺(jué)”。
RLHF上限不再是人類
對(duì)于CriticGPT,負(fù)責(zé)這項(xiàng)研究的Jan Leike也補(bǔ)充了他自己的一些看法。
RLHF是創(chuàng)造出ChatGPT的核心技術(shù)之一,但隱患在于人類能力就是RLHF的天花板。
當(dāng)需要AI去解決人類無(wú)能為力的任務(wù)時(shí),人類給不出相應(yīng)反饋,AI也就無(wú)法改進(jìn)了。
CriticGPT的成功,意味著超級(jí)對(duì)齊團(tuán)隊(duì)設(shè)想中的可擴(kuò)展監(jiān)督,也就是用弱模型監(jiān)督訓(xùn)練更強(qiáng)的模型,終于有希望了。
不過(guò)他也透露,目前CriticGPT并沒(méi)有幫助人類顯著提高艱難任務(wù)上的準(zhǔn)確性,但是框架有了只要有更好的預(yù)訓(xùn)練模型就能不斷改進(jìn)。
為什么先從代碼任務(wù)開始入手呢?
一方面,代碼任務(wù)有現(xiàn)實(shí)意義,做出來(lái)的模型可以直接用上。
另一方面,代碼可以清晰明確的評(píng)估,比開放式對(duì)話更客觀,更容易評(píng)估CriticGPT發(fā)現(xiàn)的問(wèn)題是否真實(shí)和重要。
結(jié)果CriticGPT在代碼上訓(xùn)練,卻不僅能挑代碼Bug,還給1/4的ChatGPT生產(chǎn)數(shù)據(jù)挑出了問(wèn)題。
最后,由于原OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)已經(jīng)解散,已經(jīng)跳槽的Jan Leike插入了一條Anthropic招聘廣告:
想做后續(xù)研究的請(qǐng)去隔壁。
也是讓人不得不感嘆硅谷是真的沒(méi)有競(jìng)業(yè)協(xié)議。
One More Thing
同日,谷歌發(fā)布了開源大模型Gemma 2,OpenAI趕緊甩出一條消息來(lái)狙擊,這都第幾次了。
對(duì)于甩出來(lái)的不是Sora公測(cè)或者GPT-4o完整語(yǔ)音、視頻模式,也有很多人不滿。
有網(wǎng)友提了個(gè)更好的主意:
做個(gè)ReleaseGPT,專門用來(lái)發(fā)布承諾好的更新吧。
不過(guò)這次OpenAI久違的放出了論文,也還算有一些誠(chéng)意。
論文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf