偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

2.7B能打Llama 2 70B,微軟祭出「小語言模型」!96塊A100 14天訓(xùn)出Phi-2,碾壓谷歌Gemini nano

人工智能 新聞
都快到年底了,大模型領(lǐng)域還在卷,今天,Microsoft發(fā)布了參數(shù)量為2.7B的Phi-2——不僅13B參數(shù)以內(nèi)沒有對手,甚至還能和Llama 70B掰手腕!

大模型現(xiàn)在真的是越來越卷了!

11月OpenAI先是用GPTs革了套殼GPT們的命,然后再不惜獻祭董事會搏了一波天大的流量。

谷歌被逼急了,趕在年底之前倉促發(fā)布了超大模型Gemini,卷起了多模態(tài),甚至不惜「視頻造假」。

就在今天,微軟正式發(fā)布了曾在11月Ignite大會上預(yù)告的Phi-2!

憑借著2.7B的參數(shù),「小語言模型(SLM)」Phi-2幾乎打穿了所有13B以下的大模型——包括谷歌最新發(fā)布的Gemini Nano 2。

通過模型擴展和訓(xùn)練數(shù)據(jù)管理方面的創(chuàng)新,Phi-2展現(xiàn)了出色的推理和語言理解能力,在復(fù)雜的基準(zhǔn)測試中,Phi-2的性能可以打平比自己大25倍的模型,甚至略占上風(fēng)。

它用非?!该鐥l」的尺寸,獲得了良好的性能。

這讓研究人員和模型開發(fā)人員能夠很方便地使用Phi-2進行可解釋性、安全性方面的改進,并針對其他任務(wù)進行微調(diào)。

Phi-2目前已經(jīng)可以通過Azure AI Studio訪問。

但是值得注意的是,相比其他的開源模型基本上是基于Apache 2.0的授權(quán)協(xié)議,可以支持商用。Phi-2只能用于研究目的,不支持商用。

微軟最強「小模型」來了!

大語言模型現(xiàn)已增長到數(shù)千億的參數(shù)量,龐大的規(guī)模帶來了強大的性能,改變了自然語言處理領(lǐng)域的格局。

不過,能否通過恰當(dāng)?shù)挠?xùn)練方法(比如數(shù)據(jù)選擇等),使得小型的語言模型也能獲得類似的能力?

微軟的Phi-2給出了答案。

Phi-2打破了傳統(tǒng)語言模型的縮放定律,測試成績能夠PK比自己大25倍的模型。

對于Phi-2「以小博大」的成功,微軟闡述了兩點關(guān)鍵見解:

第一點:訓(xùn)練數(shù)據(jù)質(zhì)量對模型性能起著至關(guān)重要的作用。

作為大模型開發(fā)者的共識,微軟的研究人員在此基礎(chǔ)上更進一步——使用「教科書質(zhì)量」的數(shù)據(jù)。

在發(fā)布Phi-1的時候,開發(fā)團隊就提出了「教科書是你所需要的一切」(Textbooks Are All You Need)。

在本次Phi-2的開發(fā)中,團隊更是將這一點發(fā)揮到了極致。

Phi-2所使用的訓(xùn)練數(shù)據(jù),包含合成數(shù)據(jù)集,——專門用于教授模型常識推理和一般知識(科學(xué)、日?;顒雍托闹抢碚摰龋?/span>

此外,研發(fā)團隊還根據(jù)教育價值和內(nèi)容質(zhì)量,過濾了精心挑選的網(wǎng)絡(luò)數(shù)據(jù),進一步擴充了訓(xùn)練語料庫。

第二點:利用創(chuàng)新技術(shù)進行模型擴展。

以1.3B參數(shù)的Phi-1.5為基礎(chǔ),將其知識嵌入到2.7B參數(shù)的Phi-2中。這種規(guī)模化的知識轉(zhuǎn)移不僅加快了訓(xùn)練的收斂速度,而且明顯提高了Phi-2的基準(zhǔn)分?jǐn)?shù)。

上圖展示了Phi-2和Phi-1.5在各項測試之中的比較(其中BBH和MMLU分別使用3次和5次CoT(Chain of Thought))。

我們可以看到,在創(chuàng)新技術(shù)的加持下,Phi-2的性能取得了明顯提升。

96塊A100練了14天

Phi-2 是一個基于 Transformer 的模型,使用1.4T個tokens進行訓(xùn)練(包括用于NLP和編碼的合成數(shù)據(jù)集和Web數(shù)據(jù)集)。

訓(xùn)練Phi-2使用了96塊A100 GPU,耗時14天。

Phi-2是一個基礎(chǔ)模型,它沒有通過人類反饋的強化學(xué)習(xí)(RLHF)進行對齊,也沒有經(jīng)過微調(diào)。

盡管如此,與經(jīng)過對齊的現(xiàn)有開源模型相比,Phi-2在毒性(toxicity)和偏差(bias)方面有更好的表現(xiàn)。——這得益于采用了量身定制的數(shù)據(jù)整理技術(shù)。

上圖展示了根據(jù)ToxiGen中的13個人口統(tǒng)計學(xué)數(shù)據(jù),計算出的安全性分?jǐn)?shù)。

這里選取了6541個句子的子集,并根據(jù)復(fù)雜度和句子毒性在0到1之間進行評分。分?jǐn)?shù)越高,表明模型產(chǎn)生有毒句子的可能性越小。

評估

下面,研發(fā)團隊總結(jié)了Phi-2與流行語言模型相比在學(xué)術(shù)基準(zhǔn)上的表現(xiàn)。

基準(zhǔn)測試涵蓋了多個類別,Big Bench Hard(BBH)(使用CoT進行3次測試)、常識推理(PIQA、WinoGrande、ARC easy and challenge、SIQA)、語言理解(HellaSwag、OpenBookQA、MMLU(5次)、SQuADv2(2次)、BoolQ)、數(shù)學(xué)(GSM8k(8次))和編碼(HumanEval、MBPP(3次))。

Phi-2只有2.7B的參數(shù),在各種基準(zhǔn)上,性能超過了Mistral 7B和 Llama-2 13B的模型性能。

而且,與25倍體量的Llama-2-70B模型相比,它在多步推理任務(wù)(即編碼和數(shù)學(xué))上的性能還要更好。

此外,Phi-2與最近發(fā)布的Google Gemini Nano 2相比,性能也更好,盡管它的體量還稍小一些。

考慮到現(xiàn)在很多模型測試基準(zhǔn)有可能已經(jīng)被訓(xùn)練數(shù)據(jù)污染了,研究團隊在Phi-1的開發(fā)時,就盡量避免了訓(xùn)練數(shù)據(jù)被污染的可能。

微軟研究團隊也認(rèn)為,判斷語言模型性能的最佳方法是在實際使用場景上進行測試。

本著這種求真務(wù)實的精神,微軟還使用了幾個Microsoft內(nèi)部專有數(shù)據(jù)集和任務(wù)評估了Phi-2,并與Mistral和Llama-2進行了再次比較。得到的結(jié)果也還是說明Phi-2的平均性能要優(yōu)于Mistral-7B 和Llama-2家族(7B、13B 和 70B)。

除了這些基準(zhǔn)之外,Microsoft也忍不住對谷歌現(xiàn)在備受批評的Gemini演示視頻進行了一些挖掘,

視頻中展示了谷歌即將推出的最強大的人工智能模型Gemini Ultra,如何來解決相當(dāng)復(fù)雜的物理問題,甚至糾正學(xué)生在這些問題上的錯誤。

事實證明,盡管Phi-2的參數(shù)量遠遠小于Gemini Ultra,但也能夠正確回答問題,并使用相同的提示糾正學(xué)生。

上圖展示了Phi-2在一個簡單的物理問題上的輸出,包括近似正確的平方根計算。

與Gemini的測試類似,這里用學(xué)生的錯誤答案進一步詢問Phi-2,看看Phi-2是否能識別錯誤在哪里。

我們可以看到,盡管Phi-2沒有針對聊天或指令跟蹤進行微調(diào),但它還是識別出了問題所在。

不過需要注意的是,谷歌的演示視頻中使用學(xué)生手寫文本的圖像作為輸入,而Phi-2的測試中直接輸入了文本。

魔改提示工程,GPT-4逆襲Gemini Ultra

微軟放出了一個關(guān)于提示工程的研究Medprompt。他們通過創(chuàng)新的LLM提示工程技巧,在醫(yī)療領(lǐng)域獲得了之前需要專門的訓(xùn)練或者微調(diào)才能達到性能提升。

論文地址:https://www.microsoft.com/en-us/research/publication/can-generalist-foundation-models-outcompete-special-purpose-tuning-case-study-in-medicine/

而在這個提示工程的基礎(chǔ)之上,微軟發(fā)現(xiàn)提示策略可以具有更通用效果。最終通過Medprompt的修改版本引導(dǎo)GPT-4,微軟取得了MMLU上的SOTA成績。

剛好比谷歌Gemini發(fā)布時的成績好了一點點。

圖片

微軟用這個「不經(jīng)意間」取得的結(jié)果,狙擊了在Gemini發(fā)布時,谷歌用CoT@32擊敗GPT-4 5 shot的成績。

這暗中較勁,卻還要表現(xiàn)得舉重若輕的感覺,像極了讀書時班上兩個學(xué)霸因為競爭相互拆臺的場面。

網(wǎng)友熱議

此前,微軟的大佬就放出了在MT bench上對幾個模型的測試結(jié)果:

我們可以看到,僅僅2.7B的Phi-2系列,表現(xiàn)還是很不錯的。

對于Phi-2的表現(xiàn),網(wǎng)友也是不吝贊美之詞:

「哇,Phi-2聽起來像是游戲規(guī)則的改變者!它的功能強大到足以與大型語言模型相媲美,但又足夠小,可以在筆記本電腦或移動設(shè)備上運行,這真是太棒了。這為在設(shè)備有限的設(shè)備上進行自然語言處理開辟了一個全新的世界?!?/span>

有網(wǎng)友表示很著急:

「有人想出如何在Mac上運行Microsoft的新Phi-2嗎?」

當(dāng)然也有較為「尖銳」的網(wǎng)友拉出了OpenAI:

「如果一開始就不給模型喂垃圾,似乎就不必?fù)?dān)心對齊問題。@Openai 」

也有網(wǎng)友對小語言模型的前景充滿希望:

「非常希望Phi-3能夠在所有任務(wù)中勝過GPT-3.5」。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-09 13:21:00

AI開源

2023-09-18 09:36:58

微軟模型

2023-12-13 09:47:38

微軟人工智能

2024-04-29 12:14:03

模型數(shù)據(jù)開源

2024-06-05 08:33:29

2023-12-13 11:16:34

微軟Phi-2大型語言模型

2024-01-10 17:10:53

數(shù)據(jù)訓(xùn)練

2024-03-15 08:30:00

AI數(shù)據(jù)

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-02-22 10:09:00

開源模型

2024-05-30 12:50:05

2024-07-02 09:20:59

2024-12-13 14:03:44

模型訓(xùn)練AI

2025-01-08 09:30:00

Meta大模型訓(xùn)練

2024-06-28 13:42:07

2023-10-11 13:21:12

模型數(shù)據(jù)

2024-12-18 07:10:00

2023-09-27 12:56:09

人工智能訓(xùn)練

2024-09-09 09:20:00

2023-10-13 19:58:33

Mistral7B模型
點贊
收藏

51CTO技術(shù)棧公眾號