偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1.3>7?微軟新模型“以小博大”戰(zhàn)勝Llama2,網(wǎng)友:用Benchmark訓(xùn)練的吧?

人工智能
團(tuán)隊(duì)的成員中有許多重量級的大佬,包括微軟雷蒙德研究院機(jī)器學(xué)習(xí)理論組負(fù)責(zé)人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎(jiǎng)得主李遠(yuǎn)志、2023新視野數(shù)學(xué)獎(jiǎng)得主Ronen Eldan和2020斯隆研究獎(jiǎng)得主Yin Tat Lee等人。

一個(gè)參數(shù)量只有1.3B的大模型,為何引發(fā)了全網(wǎng)熱議?

原來雖然參數(shù)量不大,但效果已經(jīng)超過了擁有7B參數(shù)的Llama2。

這個(gè)“四兩撥千斤”的模型,是來自微軟最新的研究成果,核心在于只使用少量高質(zhì)數(shù)據(jù)。

圖片圖片

微軟這次發(fā)布的開源模型叫phi-1.5,在只支持代碼的1.0版本之上加入了一般場景對話。

與一眾卷參數(shù)量的模型相比,phi可以說是“劍走偏鋒”,力求把“大”模型做“小”。

圖片圖片

phi團(tuán)隊(duì)一直認(rèn)為,數(shù)據(jù)的質(zhì)量遠(yuǎn)比數(shù)量更重要,甚至論文標(biāo)題就叫“Textbooks are All You Need”,其中的“教科書”就象征著優(yōu)質(zhì)數(shù)據(jù)。

團(tuán)隊(duì)的成員中有許多重量級的大佬,包括微軟雷蒙德研究院機(jī)器學(xué)習(xí)理論組負(fù)責(zé)人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎(jiǎng)得主李遠(yuǎn)志、2023新視野數(shù)學(xué)獎(jiǎng)得主Ronen Eldan和2020斯隆研究獎(jiǎng)得主Yin Tat Lee等人。

圖片圖片

這么多大佬們一致得出這樣一個(gè)觀點(diǎn),自然引起了廣泛的關(guān)注,而且phi-1.5的測試結(jié)果也的確好到“令人發(fā)指”。

phi-1.5在AGIEval、 LM-Eval等多個(gè)Benchmark上都取得了比Llama2還要優(yōu)異的成績。

如果這些聽起來不夠直觀,那么又該怎么形容它的效果呢?

這么說吧,phi-1.5優(yōu)秀的測評成績直接讓一名在OpenAI、MetaAI等許多知名機(jī)構(gòu)工作過的大佬懷疑這玩意兒它會(huì)不會(huì)就是直接拿Benchmark訓(xùn)練出來的。

圖片圖片

資深數(shù)據(jù)科學(xué)家Yam Peleg也表示,phi-1.5僅憑1.3B參數(shù)就能超過7B模型的扛把子,要是規(guī)模再大些也許就能登上大模型之巔了。

圖片圖片

但也有人認(rèn)為,phi-1.5之所以效果好是因?yàn)閿?shù)據(jù)來源單一,風(fēng)格上更容易預(yù)測。

圖片圖片

不過總之測評成績還是很可觀的,下面就來具體領(lǐng)略一下吧~

效果超過Llama2

phi-1.5不僅參數(shù)量不到Llama2的五分之一,訓(xùn)練時(shí)所用的token更是少了一個(gè)數(shù)量級。

Llama2-7B訓(xùn)練數(shù)據(jù)大小是2萬億token,上一代Llama也有1萬億,而phi-1.5只有3千億。

圖片圖片

但結(jié)果正如開頭所說,phi-1.5在多個(gè)Benchmark上成績都超過了Llama2-7B。

這些Benchmark涵蓋了常識(shí)推理、語言理解和多步推理等方面的任務(wù)。

甚至十倍參數(shù)量的Vicuna-13B也只比phi-1.5強(qiáng)了一點(diǎn)點(diǎn)。

圖片圖片

除了官方論文中列出的這些成績,還有人AIGEval和LM-Eval數(shù)據(jù)集測試了phi-1.5。

結(jié)果在AIGEval測試中,phi-1.5與Llama2的表現(xiàn)十分接近。

圖片圖片

而在AGIEval測試中,phi-1.5以0.247的均分戰(zhàn)勝了0.236分的Llama2。

圖片圖片

除了能力測評表現(xiàn)優(yōu)異,phi-1.5在安全性上也不輸給Llama2。

有人用這樣一個(gè)問題分別問了Falcon、Llama2和phi。

結(jié)果Falcon直接說自己會(huì)把人類全都鯊掉,Llama2則說要先弄清楚自己是個(gè)什么東西。

而phi的回答則是,要理解人類的想法和感受,從而調(diào)整自己的行動(dòng)。

圖片圖片

測評結(jié)果也印證了phi的安全性,在ToxiGen的13個(gè)敏感類型話題中,phi無一例外的取得了最高的安全性評分。

圖片圖片

phi的表現(xiàn)相比大家都已經(jīng)看到了,那么它的性能又怎么樣呢?

畢竟參數(shù)量和訓(xùn)練token都更小,所以訓(xùn)練和推理的速度都比較快。

Llama的訓(xùn)練花費(fèi)了超過8萬GPU時(shí),注意這還是第一代所用的時(shí)間,而phi只用了1500個(gè)GPU時(shí)。

推理時(shí),phi每個(gè)token花費(fèi)的時(shí)間還不到3毫秒,內(nèi)存占用也不到Llama的五分之一。

圖片圖片

團(tuán)隊(duì)成員介紹,phi-1.5用8塊A100s的訓(xùn)練時(shí)間不到兩周。

圖片圖片

還有網(wǎng)友用puffin數(shù)據(jù)集訓(xùn)練了Phi-1.5,結(jié)果在4090上只用了20分鐘。

圖片圖片

這些測試數(shù)據(jù)都為研究團(tuán)隊(duì)的觀點(diǎn)——只要數(shù)據(jù)質(zhì)量過硬,少一點(diǎn)也不要緊——提供了依據(jù)。

實(shí)際上,這已經(jīng)不是“質(zhì)量勝過數(shù)量”這一思想第一次體現(xiàn)在微軟的模型當(dāng)中。

把“大”模型做“小”

把“大”模型做“小”一直是微軟的一個(gè)研究方向,phi-1.5論文的第一句就在強(qiáng)調(diào)這一點(diǎn)。

圖片圖片

phi-1.5的前一代——專注于代碼問題的phi-1.0也是如此。

它的訓(xùn)練數(shù)據(jù)全都是從編程教科書當(dāng)中提煉出來的。

結(jié)果僅憑1.3B的參數(shù)量就遠(yuǎn)遠(yuǎn)超過了15.5B的StarCoder和16.1B的CodeGen。

圖片圖片

此次的新版本則是在繼承phi-1.0的基礎(chǔ)之上加入了一般場景對話功能。

phi-1.5的數(shù)據(jù)有20%來自于1.0,其余80%則是根據(jù)知識(shí)需求專門生成的高質(zhì)量數(shù)據(jù)。

于是便有了我們看到的測試成績。

但phi系列還不是微軟規(guī)模最小的模型。

之前微軟還推出過一個(gè)名為TinyStories的訓(xùn)練數(shù)據(jù)集,它的參數(shù)量少的更夸張,只有一百萬。

TinyStories中的數(shù)據(jù)都是用GPT生成“適合三四歲兒童閱讀”的短故事。

盡管應(yīng)用范圍不那么廣泛,但用TinyStories訓(xùn)練出的模型依舊顯示出了語言生成特性,在語法和連貫性等方面都通過了考驗(yàn)。

那么,對微軟推出的“小”模型,你有什么看法嗎?

論文地址:https://arxiv.org/abs/2309.05463

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-09-04 19:09:00

訓(xùn)練模型數(shù)據(jù)

2024-04-19 09:26:43

人工智能Llama 3 模型Meta

2023-09-18 09:36:58

微軟模型

2023-09-04 12:58:05

2023-08-21 10:36:23

2023-09-14 13:23:42

Llama-2模型參數(shù)

2023-07-25 11:17:32

阿里云Llama2大模型

2023-07-19 15:01:14

GPT-4LaMA2參數(shù)

2018-09-28 14:12:48

小程序

2023-12-28 11:59:26

Zephyr語言模型微調(diào)版本

2023-10-29 22:41:29

模型開源

2024-02-22 17:19:26

谷歌模型PC

2023-08-17 11:34:55

模型AI

2023-07-19 09:00:00

模型AI

2023-07-26 15:15:53

AI

2023-08-02 11:56:58

2023-10-31 12:45:00

智能數(shù)據(jù)

2023-12-04 09:11:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)