免費(fèi)、可商用,阿里云開源70億參數(shù)通義千問大模型
大模型的發(fā)展趨勢,開始朝著開源道路前進(jìn)了。
眾所周知,ChatGPT、GPT-4 等這類明星大模型都是不開源的,與之相對應(yīng)的,在開源領(lǐng)域,Meta 最近發(fā)布的 Llama 2 受到了大家的格外關(guān)注,因?yàn)檫@是一個(gè)免費(fèi)且可商用的大模型系列。
今天,開源領(lǐng)域又迎來一個(gè)好消息,AI 模型社區(qū)魔搭 ModelScope 上架兩款開源模型 Qwen-7B 和 Qwen-7B-Chat,阿里云確認(rèn)其為通義千問 70 億參數(shù)通用模型和對話模型。
最重要的是,兩款模型都是開源、免費(fèi)、可商用的。

- 魔塔ModelScope:https://modelscope.cn/models/qwen/Qwen-7B/summaryhttps://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
 - Hugging Face 地址:https://huggingface.co/Qwen
 - GitHub地址:https://github.com/QwenLM/Qwen-7B
 
具體而言:
- 通義千問 - 7B(Qwen-7B) 是阿里云研發(fā)的通義千問大模型系列的 70 億參數(shù)規(guī)模的模型。Qwen-7B 是基于 Transformer 的大語言模型,在超大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)上訓(xùn)練得到。預(yù)訓(xùn)練數(shù)據(jù)類型多樣,覆蓋廣泛,包括大量網(wǎng)絡(luò)文本、專業(yè)書籍、代碼等。它是支持中、英等多種語言的基座模型,在超過 2 萬億 token 數(shù)據(jù)集上訓(xùn)練,上下文窗口長度達(dá)到 8k;
 - Qwen-7B-Chat 是基于 Qwen-7B 基座模型的中英文對話模型,已實(shí)現(xiàn)與人類認(rèn)知對齊。
 
此次開源的代碼支持對 Qwen-7B 和 Qwen-7B-Chat 的量化,支持用戶在消費(fèi)級顯卡上部署和運(yùn)行模型。
想要下載模型的用戶,既可從魔搭社區(qū)直接下載模型,也可通過阿里云靈積平臺訪問和調(diào)用 Qwen-7B 和 Qwen-7B-Chat,阿里云為用戶提供包括模型訓(xùn)練、推理、部署、精調(diào)等在內(nèi)的全方位服務(wù)。
其實(shí),早在今年 4 月,阿里云就推出了自家自研的大模型通義千問,此次開源的兩款模型,大大降低了研究者使用大模型的門檻。這一舉動也讓阿里云成為國內(nèi)首個(gè)加入大模型開源行列的大型科技企業(yè)。
在多個(gè)權(quán)威測評中,通義千問 7B 模型取得了遠(yuǎn)超國內(nèi)外同等尺寸模型的效果,成為當(dāng)下業(yè)界最強(qiáng)的中英文 7B 開源模型。
通義千問 7B 預(yù)訓(xùn)練模型在多個(gè)權(quán)威基準(zhǔn)測評中表現(xiàn)出色,中英文能力遠(yuǎn)超國內(nèi)外同等規(guī)模開源模型,部分能力甚至超過了 12B、13B 大小的開源模型。
在英文能力測評基準(zhǔn) MMLU 上,通義千問 7B 模型得分超過 7B、12B、13B 主流開源模型。該基準(zhǔn)包含 57 個(gè)學(xué)科的英文題目,考驗(yàn)人文、社科、理工等領(lǐng)域的綜合知識和問題解決能力。
在中文常識能力測評基準(zhǔn) C-Eval 上,通義千問在驗(yàn)證集和測試集中都是得分最高的 7B 開源模型,展現(xiàn)了扎實(shí)的中文能力。

在數(shù)學(xué)解題能力評測 GSM8K、代碼能力評測 HumanEval 等基準(zhǔn)上,通義千問 7B 模型也有不俗表現(xiàn),勝過所有同等尺寸開源模型和部分大尺寸開源模型。
阿里云表示,開源大模型可以幫助用戶簡化模型訓(xùn)練和部署的過程,用戶不必從頭訓(xùn)練模型,只需下載預(yù)訓(xùn)練好的模型并進(jìn)行微調(diào),就可快速構(gòu)建高質(zhì)量的模型。
隨著通義千問的開源,相信會有更多的公司、機(jī)構(gòu)加入到這一行列,為更多的研究者帶來便利。















 
 
 



















 
 
 
 