偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一大堆Chinese Llama3正在襲來

發(fā)布于 2024-7-4 09:02
瀏覽
0收藏

寫在前面

大家好,我是劉聰NLP。

Llama3模型已經(jīng)開源,可以就在這短短的兩天之內(nèi),就出現(xiàn)了很多Chinese-Llama3 repo,開源社區(qū)也是相當(dāng)?shù)木怼?/p>

再看到Llama3相關(guān)報告的時候,就預(yù)料到會有很多Chinese-Llama3,因為Llama3對中文十分不友好,15T Tokens的訓(xùn)練數(shù)據(jù),僅有5%(750B Tokens)是其他語言,那么中文就更少了。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

當(dāng)時還抖激靈,說先開個repo占個坑(其實是想做但沒卡)

很多網(wǎng)友們測試,也發(fā)現(xiàn)Llama3能力很強,可以理解中文問題的意思,但輸出內(nèi)容就會是英文,在提示詞中強調(diào)用中文的情況下,會使用中文回答,但不穩(wěn)定,有時會出現(xiàn)中英文結(jié)合的情況。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

中文問題

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答-但輸出英文

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答-但輸出英文

可想而知,開源社區(qū)會對Llama3進行中文增強(畢竟llama3基座很強),當(dāng)然還是那幾步:擴充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。

當(dāng)然就像Llama2出來的時候一樣,會帶來很多機遇,借助Llama3的名頭,還是可以肝出不少內(nèi)容的。

下面先簡單對Llama3進行介紹,再給大家分享一些已經(jīng)開源的Chinese-Llama3項目。

Llama3

Llama3模型目前共開源了8B和70B兩個參數(shù)規(guī)模的模型,400B參數(shù)規(guī)模的模型還在訓(xùn)練中。MetaAI也表示接下來的幾個月里,將發(fā)布多個具有新功能的模型,包括多模態(tài)、多語言對話能力、更長的上下文窗口以及更強的綜合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B
  • 結(jié)構(gòu)與Llama2基本一致,詞表大小擴充到128K,8B和70B大小的模型中都采用了分組查詢注意力(GQA),最大長度8K。
  • 15T Tokens進行模型預(yù)訓(xùn)練,整體是Llama2的7倍,代碼數(shù)據(jù)是Llama2的4倍,其中5%的數(shù)據(jù)由其他30種語言組成。
  • 訓(xùn)練優(yōu)化(數(shù)據(jù)并行、模型并行和流水線并行)實現(xiàn)同時在16K個GPU上訓(xùn)練,每個GPU的計算利用率超過400 TFLOPS。最終在24K個GPU上訓(xùn)練,相比于Llama2訓(xùn)練效率提高了約三倍。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

llmsys對戰(zhàn)

暫時投票還有點少,但匿名PK榜單效果已經(jīng)很逆天了,暫時成為開源之最。

Chinese-Llama3

下面放幾個已經(jīng)開源權(quán)重的Chinese-Llama3,這才兩天,后面會越來越多,現(xiàn)在還有一些repo在占坑。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬們真實太肝了,目前涉及的版本是base和instruct模型利用中文數(shù)據(jù)直接SFT。

  • 2024-04-19 下午1點:世界上首個llama3 中文版訓(xùn)練完成,晚上沒睡覺哈哈,使用170k+高質(zhì)量多輪中文對話數(shù)據(jù)連夜訓(xùn)練得到。
  • 2024-04-20 早上7點:v2版訓(xùn)練完成。
  • 2023-04-20 晚上23點:instruct 中文版訓(xùn)練完成。

數(shù)據(jù)集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的數(shù)據(jù)。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中國聯(lián)通AI創(chuàng)新中心開源,目前版本應(yīng)該也是直接SFT版本,暫不清楚是基于base模型還是instruct模型。說后續(xù)會更新64K版本、增量預(yù)訓(xùn)練版本。

數(shù)據(jù)量未知,但表明是高質(zhì)量指令數(shù)據(jù)(覆蓋多個領(lǐng)域和行業(yè)),微調(diào)指令數(shù)據(jù)經(jīng)過嚴格的人工篩查(如果真人工,是個大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

僅通過silk-road/Wizard-LM-Chinese-instruct-evol數(shù)據(jù)訓(xùn)練2個epoch進行中文測試。其中,maxlenght=2k、bs=8、steps=500。

寫在最后

開源社區(qū)真的太卷了,上面兩個項目都號稱首個Chinese-Llama3,但暫時開源的還是Chinese-Llama3-8B為主,也可以理解,畢竟8B訓(xùn)練的更快。

期待后面更多的Chinese-Llama3出來,相信不久ymcui、lily、firefly、 IDEA等都會開中文Llama3吧。

本文轉(zhuǎn)載自 ??NLP工作站??,作者: 劉聰NLP

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦