偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="rh9xb"><p id="rh9xb"></p></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

一大堆Chinese Llama3正在襲來

發(fā)布于 2024-7-4 09:02

瀏覽

0收藏

寫在前面

大家好，我是劉聰NLP。

Llama3模型已經(jīng)開源，可以就在這短短的兩天之內(nèi)，就出現(xiàn)了很多Chinese-Llama3 repo，開源社區(qū)也是相當(dāng)?shù)木怼?/p>

再看到Llama3相關(guān)報告的時候，就預(yù)料到會有很多Chinese-Llama3，因為Llama3對中文十分不友好，15T Tokens的訓(xùn)練數(shù)據(jù)，僅有5%（750B Tokens）是其他語言，那么中文就更少了。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

當(dāng)時還抖激靈，說先開個repo占個坑（其實是想做但沒卡）

很多網(wǎng)友們測試，也發(fā)現(xiàn)Llama3能力很強，可以理解中文問題的意思，但輸出內(nèi)容就會是英文，在提示詞中強調(diào)用中文的情況下，會使用中文回答，但不穩(wěn)定，有時會出現(xiàn)中英文結(jié)合的情況。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

中文問題

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答-但輸出英文

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

強調(diào)中文回答-但輸出英文

可想而知，開源社區(qū)會對Llama3進行中文增強（畢竟llama3基座很強），當(dāng)然還是那幾步：擴充中文詞表、中文數(shù)據(jù)continue-pretrain、中文sft。

當(dāng)然就像Llama2出來的時候一樣，會帶來很多機遇，借助Llama3的名頭，還是可以肝出不少內(nèi)容的。

下面先簡單對Llama3進行介紹，再給大家分享一些已經(jīng)開源的Chinese-Llama3項目。

Llama3

Llama3模型目前共開源了8B和70B兩個參數(shù)規(guī)模的模型，400B參數(shù)規(guī)模的模型還在訓(xùn)練中。MetaAI也表示接下來的幾個月里，將發(fā)布多個具有新功能的模型，包括多模態(tài)、多語言對話能力、更長的上下文窗口以及更強的綜合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

結(jié)構(gòu)與Llama2基本一致，詞表大小擴充到128K，8B和70B大小的模型中都采用了分組查詢注意力（GQA），最大長度8K。
15T Tokens進行模型預(yù)訓(xùn)練，整體是Llama2的7倍，代碼數(shù)據(jù)是Llama2的4倍，其中5%的數(shù)據(jù)由其他30種語言組成。
訓(xùn)練優(yōu)化（數(shù)據(jù)并行、模型并行和流水線并行）實現(xiàn)同時在16K個GPU上訓(xùn)練，每個GPU的計算利用率超過400 TFLOPS。最終在24K個GPU上訓(xùn)練，相比于Llama2訓(xùn)練效率提高了約三倍。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

llmsys對戰(zhàn)

暫時投票還有點少，但匿名PK榜單效果已經(jīng)很逆天了，暫時成為開源之最。

Chinese-Llama3

下面放幾個已經(jīng)開源權(quán)重的Chinese-Llama3，這才兩天，后面會越來越多，現(xiàn)在還有一些repo在占坑。

一大堆Chinese Llama3正在襲來-AI.x社區(qū)

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬們真實太肝了，目前涉及的版本是base和instruct模型利用中文數(shù)據(jù)直接SFT。

2024-04-19 下午1點：世界上首個llama3 中文版訓(xùn)練完成，晚上沒睡覺哈哈，使用170k+高質(zhì)量多輪中文對話數(shù)據(jù)連夜訓(xùn)練得到。
2024-04-20 早上7點：v2版訓(xùn)練完成。
2023-04-20 晚上23點：instruct 中文版訓(xùn)練完成。

數(shù)據(jù)集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的數(shù)據(jù)。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中國聯(lián)通AI創(chuàng)新中心開源，目前版本應(yīng)該也是直接SFT版本，暫不清楚是基于base模型還是instruct模型。說后續(xù)會更新64K版本、增量預(yù)訓(xùn)練版本。

數(shù)據(jù)量未知，但表明是高質(zhì)量指令數(shù)據(jù)（覆蓋多個領(lǐng)域和行業(yè)），微調(diào)指令數(shù)據(jù)經(jīng)過嚴格的人工篩查（如果真人工，是個大工程）。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

僅通過silk-road/Wizard-LM-Chinese-instruct-evol數(shù)據(jù)訓(xùn)練2個epoch進行中文測試。其中，maxlenght=2k、bs=8、steps=500。

寫在最后

開源社區(qū)真的太卷了，上面兩個項目都號稱首個Chinese-Llama3，但暫時開源的還是Chinese-Llama3-8B為主，也可以理解，畢竟8B訓(xùn)練的更快。

期待后面更多的Chinese-Llama3出來，相信不久ymcui、lily、firefly、 IDEA等都會開中文Llama3吧。

本文轉(zhuǎn)載自 ??NLP工作站??，作者：劉聰NLP

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 4466瀏覽 ? 0回復(fù)
低比特量化的LLAMA3模型有多好？ | 香港大學(xué)&北航最新研究發(fā)布

angel ? 6897瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 6237瀏覽 ? 0回復(fù)
Llama3背后的秘密：HuggingFace發(fā)布萬億級數(shù)據(jù)集Fineweb

AIGC最前線 ? 1.3w瀏覽 ? 0回復(fù)
僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型

輕薄滴假象 ? 2971瀏覽 ? 0回復(fù)
LangChain v0.2：向穩(wěn)定性邁進的一大步

ermulong ? 4079瀏覽 ? 0回復(fù)
僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果，在線迭代RLHF全流程解決方案來了

輕薄滴假象 ? 2968瀏覽 ? 0回復(fù)
從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

Crystalcxt ? 2673瀏覽 ? 0回復(fù)
Llama3實操增強的三種方式：RAG/Agent/Function Calling?。?！

玄姐聊AGI ? 5811瀏覽 ? 0回復(fù)
Meta LlaMA 3模型深度解析

51CTO內(nèi)容精選 ? 4558瀏覽 ? 0回復(fù)
32專家MoE大模型免費商用！性能全面對標(biāo)Llama3，單token推理消耗僅5.28%

Crystalcxt ? 2962瀏覽 ? 0回復(fù)
本地使用Groq Llama 3 70B的逐步指南

51CTO內(nèi)容精選 ? 3730瀏覽 ? 0回復(fù)
Llama-2 vs. Llama-3：利用微型基準(zhǔn)測試（井字游戲）評估大模型

Baihai_IDP ? 3060瀏覽 ? 0回復(fù)
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 3466瀏覽 ? 0回復(fù)
一大堆Llama3.1-Chinese正在襲來

NLP工作站 ? 3254瀏覽 ? 0回復(fù)
基于Llama3，為本地文件創(chuàng)建生成式AI搜索引擎

小虎哦哦 ? 2841瀏覽 ? 0回復(fù)
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡(luò)建設(shè)

amei2000go ? 4980瀏覽 ? 0回復(fù)
機器學(xué)習(xí) | 從0開發(fā)大模型-譯llama3-from-scratch

周末程序猿 ? 2175瀏覽 ? 0回復(fù)
谷歌的“雙子星”，正在圍剿一眾大模型

51CTO技術(shù)棧 ? 1476瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 7天前發(fā)布
遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結(jié)果！ 2025-06-13 07:17:37發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

下一篇： RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題

社區(qū)精華內(nèi)容

目錄

<button id="qnxwl"></button>