剛剛,開源大模型的新王誕生了:超越GPT-4o,模型還能自動(dòng)糾錯(cuò)
快速更迭的開源大模型領(lǐng)域,又出現(xiàn)了新王:Reflection 70B。
橫掃 MMLU、MATH、IFEval、GSM8K,在每項(xiàng)基準(zhǔn)測(cè)試上都超過(guò)了 GPT-4o,還擊敗了 405B 的 Llama 3.1。
這個(gè)新模型 Reflection 70B,來(lái)自 AI 寫作初創(chuàng)公司 HyperWrite。
HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 現(xiàn)在是「世界上最頂級(jí)的開源 AI 模型」。
Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,確保了與現(xiàn)有工具和 pipeline 的兼容性。
Reflection 70B 已在多個(gè)基準(zhǔn)測(cè)試中經(jīng)過(guò)嚴(yán)格測(cè)試,包括 MMLU 和 HumanEval。測(cè)試結(jié)果表明, Reflection 的表現(xiàn)始終優(yōu)于 Meta 的 Llama 系列,并與 GPT-4o 等全球頂尖的商用模型展開了激烈競(jìng)爭(zhēng)。
其中,它在 GSM8K 的得分甚至達(dá)到了 99.2%。要知道,GSM8k 中可能有有超過(guò) 1% 的被標(biāo)為正確的答案實(shí)際上有錯(cuò),也就是說(shuō),Reflection 70B 的得分幾乎與滿分無(wú)異。
值得注意的還有 Reflection 70B 的零樣本推理能力。面對(duì)從未接觸過(guò)的內(nèi)容,Reflection 70B 的表現(xiàn)超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測(cè)試中的得分。
Reflection 70B 特別適用于需要高精度的任務(wù),它將推理分為不同的步驟以提高精度。該模型可通過(guò) Hugging Face 下載,API 訪問(wèn)將于今天晚些時(shí)候通過(guò) GPU 服務(wù)提供商 Hyperbolic Labs 提供。
- Hugging Face:https://huggingface.co/mattshumer/Reflection-70B
- 試用網(wǎng)址:https://reflection-playground-production.up.railway.app/
假設(shè)訓(xùn)練有素 模型自動(dòng)糾錯(cuò)
在通用能力之外,Reflection 70B 的亮點(diǎn)還包括「錯(cuò)誤識(shí)別」和「錯(cuò)誤糾正」。
一種名為「Reflection-Tuning」的技術(shù),使得模型能夠在最終確定回復(fù)之前,先檢測(cè)自身推理的錯(cuò)誤并糾正。
Reflection 70B 引入了幾個(gè)用于推理和糾錯(cuò)的特殊 token,使用戶能夠以更結(jié)構(gòu)化的方式與模型交互。在推理過(guò)程中,模型會(huì)在特殊標(biāo)簽內(nèi)輸出其推理,以便在檢測(cè)到錯(cuò)誤時(shí)進(jìn)行實(shí)時(shí)糾正。
Playground 演示網(wǎng)站包含供用戶使用的建議提示詞,比如那些很經(jīng)典的例子:詢問(wèn) Reflection 70B 單詞「Strawberry」中有多少個(gè)「r」,以及哪個(gè)數(shù)字更大(9.11 還是 9.9),這兩個(gè)簡(jiǎn)單的問(wèn)題曾經(jīng)難倒過(guò)很多大模型。
Reflection 70B 在測(cè)試中顯得有些遲緩,但最終 60 多秒后給出了正確的答案。
Reflection 70B 的發(fā)布只是 Reflection 系列的開端。與此同時(shí),Reflection 405B 也在推出的路上了,預(yù)計(jì)下周上市。Shumer 表示,它的性能將遠(yuǎn)遠(yuǎn)超過(guò)目前的專有或閉源 LLM,例如目前全球領(lǐng)先的 OpenAI 的 GPT-4o。
Shumer 宣布,HyperWrite 正致力于將 Reflection 70B 模型集成到其主要的 AI 寫作助手產(chǎn)品中。
Reflection 405B 有望超越當(dāng)今市場(chǎng)上最頂尖的閉源模型。HyperWrite 將發(fā)布一份報(bào)告,詳細(xì)介紹訓(xùn)練過(guò)程和基準(zhǔn),以及 Reflection 模型背后的創(chuàng)新之處。
兩個(gè)人在幾周內(nèi)完成 歸功于 Glaive 的合成數(shù)據(jù)
Shumer 表示完成 Reflection 70B 只花了三周,團(tuán)隊(duì)只有他和另一位 AI 創(chuàng)業(yè)公司的創(chuàng)始人 Sahil Chaudhary 兩個(gè)人。
在這么短的時(shí)間內(nèi)做出效果如此好的模型,Shumer 稱,都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門為特定需求構(gòu)建數(shù)據(jù)集的初創(chuàng)公司。Shumer 在 X 平臺(tái)上反復(fù) que 這一點(diǎn):「聯(lián)系了 Sahil 之后,訓(xùn)練數(shù)據(jù)幾小時(shí)內(nèi)就生成好了?!顾€親自站臺(tái)安利:「如果你在訓(xùn)練 AI 模型,一定要試試 Glaive 提供的服務(wù)?!?/span>
Glaive 專注于解決 AI 開發(fā)中最大的瓶頸之一:高質(zhì)量、任務(wù)特定數(shù)據(jù)的可用性。在去年獲得了一輪 350 萬(wàn)美元的種子輪融資。
Sahil Chaudhary
小型、更專業(yè)化的語(yǔ)言模型在使用 Glaive 提供的服務(wù)后,能夠更快地完成訓(xùn)練。已經(jīng)有一些小模型使用該公司已經(jīng)證明了 Glaive 的能力,例如一個(gè) 3B 參數(shù)模型在 HumanEval 等任務(wù)上的表現(xiàn)超過(guò)了許多參數(shù)規(guī)模更大的開源模型。
火得措手不及 GPU 不夠用了
Reflection 70B 一經(jīng)發(fā)布,就火了,跑去試用的人太多,模型已經(jīng)反應(yīng)不過(guò)來(lái)了。
本來(lái)可以在線試用 Reflection 70B,但現(xiàn)在和它聊天反應(yīng)很慢。
但是根據(jù)手快的網(wǎng)友發(fā)來(lái)的測(cè)評(píng),Reflection 70B 也確實(shí)沒(méi)辜負(fù)六個(gè)基礎(chǔ)測(cè)試集里有四個(gè)都打敗了 Claude 3.5 Sonnet 的戰(zhàn)績(jī)。
比如,它是首個(gè)能想明白這道纏繞不清的邏輯題的大模型。
提示詞:有人在某地殺了 Agatha。Agatha、管家和 Charles 住在 此地,并且是那里唯一的居民。殺手恨他的目標(biāo),并且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒(méi)有人恨所有人。誰(shuí)殺了 Agatha?
向它提問(wèn):「柏林的魏森湖地區(qū)當(dāng)?shù)厝送ǔT谀睦锞蹠?huì)?當(dāng)?shù)赜心男┚包c(diǎn)?」。對(duì)于這些本地人才知道的答案,其他模型雖然也能給出一些正確的回復(fù),但是總會(huì)冒出一些在柏林之外的地點(diǎn)。Reflection 70B 是第一個(gè)能正確地說(shuō)出主要地點(diǎn),并且沒(méi)有幻覺的模型。
Reflection-70B 的編碼能力也得到了認(rèn)證。有網(wǎng)友在 ProLLM 的編碼輔助任務(wù)中對(duì) Reflection-70B 進(jìn)行了基準(zhǔn)測(cè)試。它確實(shí)是最好的開源模型之一,擊敗了 Llama-3.1 405B。
不過(guò),爆火的同時(shí),由于 Reflection 70B 的底層模型采用了 Meta 的 Llama 3.1 70B Instruct,這也引發(fā)了一些爭(zhēng)議。
有網(wǎng)友認(rèn)為:「Reflection 70B 只是一種元提示(Meta-Prompting)的進(jìn)步,似乎不能算是一種創(chuàng)新?!?/span>
但也有人對(duì)此提出反對(duì),認(rèn)為「利用思維鏈和讓大模型說(shuō)出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過(guò)程。
「萬(wàn)一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」
團(tuán)隊(duì)介紹
乍一看,Reflection 70B 似乎是橫空出世,HyperWrite 的知名度并不高。但其實(shí) Shumer 已是 AI 領(lǐng)域的創(chuàng)業(yè)老將了:2020 年,他與就 Jason Kuperberg 共同創(chuàng)立了 Otherside AI。
從左至右分別為 Otherside AI 的聯(lián)合創(chuàng)始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。
Otherside AI 憑借其當(dāng)家產(chǎn)品 HyperWrite 收獲了一波流量。HyperWrite 最初是一款根據(jù)要點(diǎn)撰寫郵件和消息的 Chrome 插件。后來(lái),它的功能越來(lái)越強(qiáng)大,拓展出了起草文章、總結(jié)文本等功能。截至 2023 年 11 月,HyperWrite 擁有兩百萬(wàn)用戶。隨著兩位聯(lián)合創(chuàng)始人登上了福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名為 HyperWrite。
在最新一輪融資中, HyperWrite 獲得了 280 萬(wàn)美元的投資。在這筆資金的加持下,HyperWrite 引入了 AI 驅(qū)動(dòng)功能,升級(jí)成了可以從網(wǎng)頁(yè)瀏覽器自動(dòng)完成預(yù)定航班、在 LinkedIn 上篩簡(jiǎn)歷的智能管家。
HyperWrite 在線幫你訂達(dá)美樂(lè)披薩的外賣。