最好7B模型再易主!打敗700億LLaMA2,蘋(píng)果電腦就能跑
花500刀“調(diào)教”的70億參數(shù)模型,打敗700億參數(shù)的Llama 2!
且筆記本就能輕松跑,效果媲美ChatGPT。
重點(diǎn):免費(fèi)、不要錢(qián)。
HuggingFace H4團(tuán)隊(duì)打造的開(kāi)源模型Zephyr-7B,鯊瘋了。

其底層模型是前段時(shí)間爆火、由有著“歐洲OpenAI”之稱(chēng)的Mistral AI打造的開(kāi)源大模型Mistral-7B。

要知道,Mistral-7B發(fā)布不到2周,各種微調(diào)版本相繼現(xiàn)世,大有Llama剛發(fā)布時(shí)迅速出現(xiàn)各種“羊駝”之風(fēng)。
而Zephyr能夠在各變種中脫穎而出,關(guān)鍵是團(tuán)隊(duì)在Mistral的基礎(chǔ)上,使用直接偏好優(yōu)化(DPO)在公開(kāi)數(shù)據(jù)集上微調(diào)了模型。
團(tuán)隊(duì)還發(fā)現(xiàn),刪除數(shù)據(jù)集的內(nèi)置對(duì)齊,可以進(jìn)一步提高M(jìn)T Bench性能。初代Zephyr-7B-alpha的MT-Bench平均得分7.09 ,超越Llama2-70B-Chat。
△MT-Bench是評(píng)估模型處理多輪對(duì)話能力的基準(zhǔn)測(cè)試,問(wèn)題集涵蓋寫(xiě)作、角色扮演、提取等8個(gè)類(lèi)別。
關(guān)鍵是,它接著又升級(jí)了!
H4團(tuán)隊(duì)推出二代Zephyr-7B-beta。他們補(bǔ)充道,探索了從GPT-4、Claude 2中提取對(duì)齊性,然后將其注入小模型中的想法,開(kāi)發(fā)出了將蒸餾直接偏好優(yōu)化(dDPO)用于小模型的方法。
二代Zephyr,MT-Bench平均得分升高至7.34。

在AlpacaEval上,Zephyr勝率為90.6%,優(yōu)于ChatGPT(3.5):

趕來(lái)的網(wǎng)友們對(duì)Zephyr給予了一致好評(píng),lmsys團(tuán)隊(duì)還亮出了Zephyr-7b-beta的Elo評(píng)分,目前已飆升得很高??:
內(nèi)部的Arena排行榜上已超過(guò)13B模型。

甚至有人表示:
在實(shí)際應(yīng)用中看到DPO方法表現(xiàn)很好,可能是今年大語(yǔ)言模型發(fā)展中最令人興奮的事情。

更多網(wǎng)友紛紛上手測(cè)試Zephyr效果,結(jié)果都出奇的好。
Mistral這個(gè)單詞在法語(yǔ)里代表一種干燥、寒冷且強(qiáng)勁的風(fēng),而Zephyr意思則是溫和、宜人的西風(fēng)。
Llama那邊是動(dòng)物園,這邊是氣象局無(wú)疑了。
最好的7B模型再易主
先來(lái)說(shuō)運(yùn)行Zephyr對(duì)電腦配置的要求。網(wǎng)友實(shí)測(cè)后表示“泰褲辣”!,筆記本(Apple M1 Pro)就夠用,“結(jié)果非常好”。

效果方面,Llama Index(此前名為GPT Index)團(tuán)隊(duì)也進(jìn)行了測(cè)試。

結(jié)果發(fā)現(xiàn),Zephyr是目前唯一一個(gè)在高級(jí)RAG/agentic任務(wù)上表現(xiàn)良好的開(kāi)源7B模型。
數(shù)據(jù)也顯示,Zephyr高級(jí)RAG任務(wù)效果可以和GPT-3.5、Claude 2相抗衡。
他們還繼續(xù)補(bǔ)充道,Zephyr不僅在RAG上效果突出,而且在路由、查詢(xún)規(guī)劃、檢索復(fù)雜SQL語(yǔ)句、結(jié)構(gòu)化數(shù)據(jù)提取方面也表現(xiàn)良好。

官方也給出了測(cè)試結(jié)果,在MT-Bench上,Zephyr-7B-beta與Llama2-Chat-70B等較大的模型相比具有強(qiáng)大的性能。

但在編碼和數(shù)學(xué)等更復(fù)雜的任務(wù)上,Zephyr-7B-beta落后于專(zhuān)有模型,需要更多的研究來(lái)縮小差距。
舍棄強(qiáng)化學(xué)習(xí)
大家都在紛紛測(cè)試Zephyr的效果,開(kāi)發(fā)人員卻表示,最有趣的不是各項(xiàng)指標(biāo),而是模型的訓(xùn)練方式。
亮點(diǎn)總結(jié)如下:
- 微調(diào)最好的小型開(kāi)源預(yù)訓(xùn)練模型:Mistral 7B
 - 大規(guī)模偏好數(shù)據(jù)集的用法:UltraFeedback
 - 不用強(qiáng)化學(xué)習(xí),使用直接偏好優(yōu)化(DPO)
 - 意料之外的是,偏好數(shù)據(jù)集的過(guò)擬合會(huì)產(chǎn)生更好的效果
 
展開(kāi)來(lái)說(shuō),正如開(kāi)頭所提到的,Zephyr的效果之所以能夠超越70B的Llama 2,主要是因?yàn)槭褂昧颂厥獾奈⒄{(diào)方法。
與傳統(tǒng)的PPO強(qiáng)化學(xué)習(xí)方法不同,研究團(tuán)隊(duì)使用了斯坦福大學(xué)和CZ Biohub不久前合作提出DPO方法。

研究人員表示:
DPO要比PPO穩(wěn)定得多。
DPO簡(jiǎn)單來(lái)講可以這樣解釋?zhuān)?/p>
要想使模型的輸出更加符合人類(lèi)偏好,一直以來(lái)傳統(tǒng)方法是用一個(gè)獎(jiǎng)勵(lì)模型來(lái)微調(diào)目標(biāo)模型。輸出得好給獎(jiǎng)勵(lì),輸出不好不給獎(jiǎng)勵(lì)。
而DPO的方法繞過(guò)了建模獎(jiǎng)勵(lì)函數(shù),相當(dāng)于直接在偏好數(shù)據(jù)上優(yōu)化模型。
總的來(lái)說(shuō),DPO解決了人類(lèi)反饋的強(qiáng)化學(xué)習(xí)訓(xùn)練難、訓(xùn)練成本高的問(wèn)題。
具體到Zephyr的訓(xùn)練上,研究團(tuán)隊(duì)最初是在UltraChat數(shù)據(jù)集精簡(jiǎn)后的變種上對(duì)Zephyr-7B-alpha進(jìn)行了微調(diào),這個(gè)數(shù)據(jù)集包含了ChatGPT生成的160萬(wàn)個(gè)對(duì)話(精簡(jiǎn)后剩下約20萬(wàn)個(gè))。
(之所以要精簡(jiǎn)過(guò)濾,是因?yàn)閳F(tuán)隊(duì)發(fā)現(xiàn)Zephyr有時(shí)大小寫(xiě)寫(xiě)不對(duì),比如“Hi. how are you?”;有時(shí)會(huì)以“I don’t have personal X”為開(kāi)頭進(jìn)行回應(yīng)。)
之后,他們又通過(guò)TRL的DPO Trainer方法,用公開(kāi)的openbmb/UltraFeedback數(shù)據(jù)集進(jìn)一步對(duì)齊了該模型。
數(shù)據(jù)集中包含了64000個(gè)來(lái)自各種模型的提示-響應(yīng)對(duì)。每個(gè)響應(yīng)都由GPT-4根據(jù)有用性等標(biāo)準(zhǔn)進(jìn)行排名,并賦予一個(gè)得分,從中推出AI偏好。
一個(gè)有趣的發(fā)現(xiàn)是,在用DPO的方法時(shí),隨著訓(xùn)練時(shí)間增加,過(guò)擬合后,效果居然更好了。研究人員認(rèn)為這類(lèi)似于SFT中的過(guò)擬合。

值得一提的是,研究團(tuán)隊(duì)還介紹,用這種方法微調(diào)模型,成本只需500美元,也就是在16個(gè)A100上跑8小時(shí)。

在升級(jí)Zephyr為beta版本時(shí),團(tuán)隊(duì)又繼續(xù)解釋了他們的方法。
他們思考了大模型所用的蒸餾監(jiān)督微調(diào)(dSFT),但用這種方法模型是不對(duì)齊的,不能很好地生成符合用戶(hù)意圖的輸出。

所以團(tuán)隊(duì)嘗試使用來(lái)自AI反饋(AI Feedback,AIF)的偏好數(shù)據(jù),用一個(gè)“教師模型”對(duì)輸出進(jìn)行排名,形成一個(gè)數(shù)據(jù)集,然后應(yīng)用蒸餾直接偏好優(yōu)化(dDPO)來(lái)訓(xùn)練一個(gè)與用戶(hù)意圖對(duì)齊的模型,且在微調(diào)期間不需要任何額外的抽樣。
研究人員還測(cè)試了不用SFT時(shí)的效果,結(jié)果性能大大降低,說(shuō)明dSFT步驟至關(guān)重要。

目前模型除了已開(kāi)源可商用,還有Demo可試玩,我們這就上手簡(jiǎn)單體驗(yàn)了一把。
Demo試玩體驗(yàn)
首先就不得不搬出“弱智吧”問(wèn)題來(lái)考一考了。
在“爸媽結(jié)婚不帶我”這個(gè)問(wèn)題上,Zephyr總體回答較為準(zhǔn)確。

ChatGPT在這道題目上,屬實(shí)打不過(guò)。

在測(cè)試中我們還發(fā)現(xiàn)Zephyr對(duì)OpenAI發(fā)布GPT-4等近期的事也知道:

這其實(shí)與其底層模型有關(guān),Mistral官方雖然沒(méi)有具體說(shuō)明訓(xùn)練數(shù)據(jù)截止日期。
但之前就有網(wǎng)友測(cè)試過(guò),今年三月份的事它也知道。

相比之下Llama 2的預(yù)訓(xùn)練數(shù)據(jù)截止到2022年9月,只有部分微調(diào)數(shù)據(jù)最多到2023年6月。
此外,Zephyr的響應(yīng)速度也非???,寫(xiě)代碼、編故事都不在話下。:

值得一提的是,Zephyr更擅長(zhǎng)用英文回答問(wèn)題,也會(huì)出現(xiàn)“幻覺(jué)”這一模型通病。
研究人員也有提到幻覺(jué)問(wèn)題,輸入框的下方也標(biāo)有一行小字,指明該模型生成的內(nèi)容可能不準(zhǔn)確或錯(cuò)誤。

關(guān)鍵是因?yàn)閆ephyr沒(méi)有用到人類(lèi)反饋強(qiáng)化學(xué)習(xí)這樣的方法與人類(lèi)偏好對(duì)齊,也沒(méi)有采用ChatGPT的回應(yīng)過(guò)濾方式。
emmm魚(yú)和熊掌總要選一個(gè)。
Zephyr只有70B參數(shù)就能做到這樣的效果,讓《100頁(yè)的機(jī)器學(xué)習(xí)書(shū)》作者Andriy Burkov也很吃驚,甚至表示:
Zephyr-7B戰(zhàn)勝Llama 2-70B,用的基礎(chǔ)模型是上下文窗口為8k token的Mistral-7B,理論上它的注意力范圍可高達(dá)128K tokens。
如果Zephyr是一個(gè)70B模型會(huì)怎樣呢?它會(huì)勝過(guò)GPT-4嗎?看起來(lái)很可能。

如果你對(duì)Zephyr-7B感興趣,可在huggingface試玩。
https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat
論文鏈接:https://arxiv.org/abs/2310.16944
















 
 
 

















 
 
 
 