「非常接近GPT-4」的WizardLM-2被微軟緊急撤回,有什么內(nèi)幕?
前段時間,微軟搞了個烏龍:隆重地開源了 WizardLM-2,又在不久后撤回得干干凈凈。
據(jù)現(xiàn)在可以查到的 WizardLM-2 發(fā)布信息,這是一個「真正媲美 GPT-4」的開源大模型,在復(fù)雜聊天、多語言、推理和代理方面的性能得到了提高。
該系列包括三個模型:WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。其中:
- WizardLM-2 8x22B 是最先進(jìn)的模型,也是對高度復(fù)雜任務(wù)進(jìn)行內(nèi)部評估后得出的最佳開源 LLM。
- WizardLM-2 70B 具備頂級推理能力,是同等規(guī)模的首選;
- WizardLM-2 7B 是速度最快的,其性能可與現(xiàn)有的 10 倍大的開源領(lǐng)先模型相媲美。
此外,通過人類偏好評估,WizardLM-28x22B 的能力「只是稍微落后于 GPT-4-1106 預(yù)覽版,但明顯強(qiáng)于 CommandRPlus 和 GPT4-0314。」
它會和 LLaMa 3 一樣,成為又一開源里程碑嗎?
當(dāng)大家忙著下載模型的時候,團(tuán)隊(duì)卻突然撤回了一切:博客、GitHub、HuggingFace 全部 404。
圖源:https://wizardlm.github.io/WizardLM2/
團(tuán)隊(duì)的解釋是:
所有 Huggingface 的朋友們,大家好!很抱歉,我們刪除了模型。我們已經(jīng)有一段時間沒有發(fā)布幾個月前的模型了,所以我們現(xiàn)在不熟悉新的發(fā)布流程:我們不小心遺漏了模型發(fā)布流程中的一個必要項(xiàng)目 — 毒性測試。這是目前所有新模型都需要完成的一個步驟。
我們目前正在快速完成這項(xiàng)測試,然后將盡快重新發(fā)布我們的模型。不用擔(dān)心,感謝關(guān)心和理解。
但 AI 社區(qū)對 WizardLM-2 的關(guān)注和討論沒有停止,疑點(diǎn)有幾個:
第一,被刪掉的開源項(xiàng)目不只是 WizardLM-2,該團(tuán)隊(duì)所有的 Wizard 系列工作都不見了,包括此前的 WizardMath 和 WizardCoder。
第二,有人質(zhì)疑,刪除模型權(quán)重的同時,為何連博客也刪除呢?如果是只是缺少測試部分,沒必要撤回得干干凈凈。
團(tuán)隊(duì)的解釋是:「根據(jù)相關(guān)規(guī)定。」具體什么規(guī)定?目前沒人知道。
第三,還有人猜測 WizardLM 背后的團(tuán)隊(duì)已經(jīng)被解雇,撤回 Wizard 系列項(xiàng)目也是被迫的。
不過,這種猜測被團(tuán)隊(duì)否認(rèn)了:
圖源:https://x.com/_Mira___Mira_/status/1783716276944486751
圖源:https://x.com/DavidFSWD/status/1783682898786152470
而且我們現(xiàn)在搜索作者的名字,也并沒有從微軟官網(wǎng)中完全消失:
圖源:https://www.microsoft.com/en-us/research/people/qins/
第四,有人猜測,微軟撤回這個開源模型,一是因?yàn)樾阅苓^于接近 GPT-4,二是因?yàn)楹?OpenAI 的技術(shù)路線「撞車」了。
具體是什么路線呢?我們可以看一下當(dāng)初博客頁面的技術(shù)細(xì)節(jié)。
團(tuán)隊(duì)表示,通過 LLM 訓(xùn)練,自然界中人類生成的數(shù)據(jù)日益枯竭,而 AI 精心創(chuàng)建的數(shù)據(jù)和 AI Step-by-Step 監(jiān)督的模型將是通往更強(qiáng)大 AI 的唯一途徑。
過去的一年里,微軟團(tuán)隊(duì)建立了一個完全由人工智能驅(qū)動的合成訓(xùn)練系統(tǒng),如下圖所示。
大概分為幾個版塊:
數(shù)據(jù)預(yù)處理:
- 數(shù)據(jù)分析:使用這個 pipeline 來獲得新源數(shù)據(jù)的不同屬性的分布,這有助于對數(shù)據(jù)有一個初步的了解。
- 加權(quán)采樣:最佳訓(xùn)練數(shù)據(jù)的分布往往與人類聊天語料的自然分布不一致,需要根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)調(diào)整訓(xùn)練數(shù)據(jù)中各屬性的權(quán)重。
Evol Lab:
- Evol-Instruct:投入了大量精力重新評估了最初 Evol-Instruct 方法中存在的各種問題,并對其進(jìn)行了初步修改,新方法能讓各種智能體自動生成高質(zhì)量的指令。
- Evol-Answer:引導(dǎo)模型多次生成和重寫回復(fù),可以提高其邏輯性、正確性和親和力。
AI Align AI(AAA):
- 協(xié)同教學(xué):收集 WizardLM 和各種授權(quán)開源和專有的最先進(jìn)模型,然后讓它們協(xié)同教學(xué)并相互提高,教學(xué)內(nèi)容包括模擬聊天、質(zhì)量評判、改進(jìn)建議和縮小技能差距等。
- Self-Teaching:WizardLM 可以通過激活學(xué)習(xí),為監(jiān)督學(xué)習(xí)生成新的進(jìn)化訓(xùn)練數(shù)據(jù),為強(qiáng)化學(xué)習(xí)生成偏好數(shù)據(jù)。
學(xué)習(xí):
- 監(jiān)督學(xué)習(xí)。
- 階段 - DPO:為了更有效地進(jìn)行離線強(qiáng)化學(xué)習(xí),將優(yōu)選數(shù)據(jù)分割成不同的片段,并逐級改進(jìn)模型。
- RLEIF:采用指令質(zhì)量獎勵模型(IRM)與過程監(jiān)督獎勵模型(PRM)相結(jié)合的方法,使得在線強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)更精確的正確性。
最后要說的是,任何猜測都是徒勞的,讓我們期待一下 WizardLM-2 的復(fù)出吧。