偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

消費(fèi)級(jí)顯卡可用!李開(kāi)復(fù)零一萬(wàn)物發(fā)布并開(kāi)源90億參數(shù)Yi模型,代碼數(shù)學(xué)能力史上最強(qiáng)

人工智能 新聞
它號(hào)稱Yi系列中的“理科狀元”,“惡補(bǔ)”了代碼數(shù)學(xué),同時(shí)綜合能力也沒(méi)落下。

李開(kāi)復(fù)旗下AI公司零一萬(wàn)物,又一位大模型選手登場(chǎng):

90億參數(shù)Yi-9B。

它號(hào)稱Yi系列中的“理科狀元”,“惡補(bǔ)”了代碼數(shù)學(xué),同時(shí)綜合能力也沒(méi)落下。

在一系列類似規(guī)模的開(kāi)源模型(包括Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5等)中,表現(xiàn)最佳。

老規(guī)矩,發(fā)布即開(kāi)源,尤其對(duì)開(kāi)發(fā)者友好

Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消費(fèi)級(jí)顯卡上部署。

一塊RTX 4090、一塊RTX 3090就可以。

圖片

深度擴(kuò)增+多階段增量訓(xùn)練而成

零一萬(wàn)物的Yi家族此前已經(jīng)發(fā)布了Yi-6B和Yi-34B系列。

這兩者都是在3.1T token中英文數(shù)據(jù)上進(jìn)行的預(yù)訓(xùn)練,Yi-9B則在此基礎(chǔ)上,增加了0.8T token繼續(xù)訓(xùn)練而成。

數(shù)據(jù)的截止日期是2023年6月。

開(kāi)頭提到,Yi-9B最大的進(jìn)步在于數(shù)學(xué)和代碼,那么這倆能力究竟如何提升呢?

零一萬(wàn)物介紹:

單靠增加數(shù)據(jù)量并沒(méi)法達(dá)到預(yù)期。

靠的是先增加模型大小,在Yi-6B的基礎(chǔ)上增至9B,再進(jìn)行多階段數(shù)據(jù)增量訓(xùn)練。

首先,怎么個(gè)模型大小增加法?

 一個(gè)前提是,團(tuán)隊(duì)通過(guò)分析發(fā)現(xiàn):

Yi-6B訓(xùn)練得已經(jīng)很充分,再怎么新增更多token練效果可能也不會(huì)往上了,所以考慮擴(kuò)增它的大小。(下圖單位不是TB而是B)

圖片

怎么增?答案是深度擴(kuò)增。

零一萬(wàn)物介紹:

對(duì)原模型進(jìn)行寬度擴(kuò)增會(huì)帶來(lái)更多的性能損失,通過(guò)選擇合適的layer對(duì)模型進(jìn)行深度擴(kuò)增后,新增layer的input/output cosine 越接近1.0,即擴(kuò)增后的模型性能越能保持原有模型的性能,模型性能損失微弱。

依照此思路,零一萬(wàn)物選擇復(fù)制Yi-6B相對(duì)靠后的16層(12-28 層),組成了48層的Yi-9B。

實(shí)驗(yàn)顯示,這種方法比用Solar-10.7B模型復(fù)制中間的16層(8-24層)性能更優(yōu)。

其次,怎么個(gè)多階段訓(xùn)練法?

答案是先增加0.4T包含文本和代碼的數(shù)據(jù),但數(shù)據(jù)配比與Yi-6B一樣。

然后增加另外的0.4T數(shù)據(jù),同樣包括文本和代碼,但重點(diǎn)增加代碼和數(shù)學(xué)數(shù)據(jù)的比例。

(悟了,就和我們?cè)诖竽P吞釂?wèn)里的訣竅“think step by step”思路一樣)

這兩步操作完成后,還沒(méi)完,團(tuán)隊(duì)還參考兩篇論文(An Empirical Model of Large-Batch Training和Don’t Decay the Learning Rate, Increase the Batch Size)的思路,優(yōu)化了調(diào)參方法。

即從固定的學(xué)習(xí)率開(kāi)始,每當(dāng)模型loss停止下降時(shí)就增加batch size,使其下降不中斷,讓模型學(xué)習(xí)得更加充分。

最終,Yi-9B實(shí)際共包含88億參數(shù),達(dá)成4k上下文長(zhǎng)度。

Yi系列中代碼和數(shù)學(xué)能力最強(qiáng)

實(shí)測(cè)中,零一萬(wàn)物使用greedy decoding的生成方式(即每次選擇概率值最大的單詞)來(lái)進(jìn)行測(cè)試。

參評(píng)模型為DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B:

(1)DeepSeek-Coder,來(lái)自國(guó)內(nèi)的深度求索公司,其33B的指令調(diào)優(yōu)版本人類評(píng)估超越GPT-3.5-turbo,7B版本性能則能達(dá)到CodeLlama-34B的性能。

DeepSeek-Math靠7B參數(shù)干翻GPT-4,震撼整個(gè)開(kāi)源社區(qū)。

(2)SOLAR-10.7B來(lái)自韓國(guó)的Upstage AI,2023年12月誕生,性能超越Mixtral-8x7B-Instruct。

(3)Mistral-7B則是首個(gè)開(kāi)源MoE大模型,達(dá)到甚至超越了Llama 2 70B和GPT-3.5的水平。

(4)Gemma-7B來(lái)自谷歌,零一萬(wàn)物指出:

其有效參數(shù)量其實(shí)和Yi-9B一個(gè)等級(jí)。

(兩者命名準(zhǔn)則不一樣,前者只用了Non-Embedding參數(shù),后者用的是全部參數(shù)量并向上取整)

圖片

結(jié)果如下。

首先在代碼任務(wù)上,Yi-9B性能僅次于DeepSeek-Coder-7B,其余四位全部被KO。

圖片

在數(shù)學(xué)能力上,Yi-9B性能僅次于DeepSeek-Math-7B,超越其余四位。

圖片

綜合能力也不賴。

其性能在尺寸相近的開(kāi)源模型中最好,超越了其余全部五位選手。

圖片

最后,還測(cè)了常識(shí)和推理能力:

結(jié)果是Yi-9B與Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。

以及語(yǔ)言能力,不僅英文不錯(cuò),中文也是廣受好評(píng):

圖片

最最后,看完這些,有網(wǎng)友表示:已經(jīng)迫不及待想試試了。

圖片

還有人則替DeepSeek捏了一把汗:

趕緊加強(qiáng)你們的“比賽”吧。全面主導(dǎo)地位已經(jīng)沒(méi)有了==

圖片

傳送門在此:https://huggingface.co/01-ai/Yi-9B

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-01-22 13:59:00

模型訓(xùn)練

2023-11-14 17:51:28

AI模型

2024-03-14 11:31:52

零一萬(wàn)物AI框架

2023-09-02 12:49:01

2023-12-11 13:41:37

模型數(shù)據(jù)

2022-08-20 07:52:56

語(yǔ)言模型參數(shù)PaLM

2020-02-24 10:51:25

微軟開(kāi)源Windows

2022-01-14 15:01:53

谷歌開(kāi)源技術(shù)

2025-01-09 13:47:30

2025-04-14 09:26:00

2024-12-03 15:51:45

2024-03-28 11:15:36

開(kāi)源AI

2023-10-12 14:40:10

AI模型

2024-10-16 15:07:57

2023-04-23 09:43:22

2024-06-24 18:15:22

2023-06-07 17:55:01

模型性能

2023-03-08 13:54:19

谷歌模型

2025-04-14 09:27:00

2025-05-16 09:08:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)