偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

通義千問(wèn)再開(kāi)源,Qwen1.5帶來(lái)六種體量模型,性能超越GPT3.5

人工智能 新聞
超越 Claude、GPT-3.5,提升了多語(yǔ)言支持能力。

趕在春節(jié)前,通義千問(wèn)大模型(Qwen)的 1.5 版上線了。今天上午,新版本的消息引發(fā)了 AI 社區(qū)關(guān)注。

新版大模型包括六個(gè)型號(hào)尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最強(qiáng)版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多語(yǔ)言支持。

阿里通義千問(wèn)團(tuán)隊(duì)表示,相關(guān)技術(shù)也已經(jīng)上線到了通義千問(wèn)官網(wǎng)和通義千問(wèn) App。

除此以外,今天 Qwen 1.5 的發(fā)布還有如下一些重點(diǎn):

  • 支持 32K 上下文長(zhǎng)度;
  • 開(kāi)放了 Base + Chat 模型的 checkpoint;
  • 可與 Transformers 一起本地運(yùn)行;
  • 同時(shí)發(fā)布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 權(quán)重。

借助更先進(jìn)的大模型作為評(píng)委,通義千問(wèn)團(tuán)隊(duì)在兩個(gè)廣泛使用的基準(zhǔn) MT-Bench 和 Alpaca-Eval 上對(duì) Qwen1.5 進(jìn)行了初步評(píng)估,評(píng)估結(jié)果如下:

圖片

盡管落后于 GPT-4-Turbo,但最大版本的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表現(xiàn)出了可觀的效果,性能超過(guò) Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,與最近熱門的新模型 Mistral Medium 不相上下。

此外通義千問(wèn)團(tuán)隊(duì)表示,雖然大模型判斷的評(píng)分似乎與回答的長(zhǎng)度有關(guān),但人類觀察結(jié)果表明 Qwen1.5 并沒(méi)有因?yàn)楫a(chǎn)生過(guò)長(zhǎng)的回答來(lái)影響評(píng)分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均長(zhǎng)度為 1618,與 GPT-4 的長(zhǎng)度一致,比 GPT-4-Turbo 短。

通義千問(wèn)的開(kāi)發(fā)者表示,最近幾個(gè)月,他們一直在專注探索如何構(gòu)建一個(gè)真正「卓越」的模型,并在此過(guò)程中不斷提升開(kāi)發(fā)者的使用體驗(yàn)。

圖片

相較于以往版本,本次更新著重提升了 Chat 模型與人類偏好的對(duì)齊程度,并且顯著增強(qiáng)了模型的多語(yǔ)言處理能力。在序列長(zhǎng)度方面,所有規(guī)模模型均已實(shí)現(xiàn) 32768 個(gè) tokens 的上下文長(zhǎng)度范圍支持。同時(shí),預(yù)訓(xùn)練 Base 模型的質(zhì)量也有關(guān)鍵優(yōu)化,有望在微調(diào)過(guò)程中為人們帶來(lái)更佳體驗(yàn)。

基礎(chǔ)能力

關(guān)于模型基礎(chǔ)能力的評(píng)測(cè),通義千問(wèn)團(tuán)隊(duì)在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準(zhǔn)數(shù)據(jù)集上對(duì) Qwen1.5 進(jìn)行了評(píng)估。

圖片

在不同模型尺寸下,Qwen1.5 都在評(píng)估基準(zhǔn)中表現(xiàn)出強(qiáng)大的性能,72B 的版本在所有基準(zhǔn)測(cè)試中都超越了 Llama2-70B,展示了其在語(yǔ)言理解、推理和數(shù)學(xué)方面的能力。

最近一段時(shí)間,小型模型的構(gòu)建是業(yè)內(nèi)熱點(diǎn)之一,通義千問(wèn)團(tuán)隊(duì)將模型參數(shù)小于 70 億的 Qwen1.5 模型與社區(qū)中重要的小型模型進(jìn)行了比較:

圖片

在參數(shù)規(guī)模低于 70 億的范圍內(nèi) Qwen1.5 與業(yè)界領(lǐng)先的小型模型相比具有很強(qiáng)的競(jìng)爭(zhēng)力。

多語(yǔ)言能力

在來(lái)自歐洲、東亞和東南亞的 12 種不同語(yǔ)言上,通義千問(wèn)團(tuán)隊(duì)評(píng)估了 Base 模型的多語(yǔ)言能力。從開(kāi)源社區(qū)的公開(kāi)數(shù)據(jù)集中,阿里研究者構(gòu)建了如下表所示的評(píng)測(cè)集合,共涵蓋四個(gè)不同的維度:考試、理解、翻譯、數(shù)學(xué)。下表提供了每個(gè)測(cè)試集的詳細(xì)信息,包括其評(píng)測(cè)配置、評(píng)價(jià)指標(biāo)以及所涉及的具體語(yǔ)言種類。

圖片

詳細(xì)的結(jié)果如下:

圖片

上述結(jié)果表明,Qwen1.5 Base 模型在 12 種不同語(yǔ)言的多語(yǔ)言能力方面表現(xiàn)出色,在學(xué)科知識(shí)、語(yǔ)言理解、翻譯、數(shù)學(xué)等各個(gè)維度的評(píng)估中,均展現(xiàn)了不錯(cuò)的結(jié)果。更進(jìn)一步地,在 Chat 模型的多語(yǔ)言能力上,可以觀察到如下結(jié)果:

圖片

長(zhǎng)序列

隨著長(zhǎng)序列理解的需求不斷增加,阿里在新版本上提升了千問(wèn)模型的相應(yīng)能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通義千問(wèn)團(tuán)隊(duì)在 L-Eval 基準(zhǔn)上評(píng)估了 Qwen1.5 模型的性能,該基準(zhǔn)衡量了模型根據(jù)長(zhǎng)上下文生成響應(yīng)的能力。結(jié)果如下:

圖片

從結(jié)果來(lái)看,即使像 Qwen1.5-7B-Chat 這樣的小規(guī)模模型,也能表現(xiàn)出與 GPT-3.5 可比較的性能,而最大的模型 Qwen1.5-72B-Chat 僅略微落后于 GPT4-32k。

值得一提的是,以上結(jié)果僅展示了 Qwen 1.5 在 32K tokens 長(zhǎng)度下的效果,并不代表模型最大只能支持 32K 長(zhǎng)度。開(kāi)發(fā)者可以在 config.json 中,將 max_position_embedding 嘗試修改為更大的值,觀察模型在更長(zhǎng)上下文理解場(chǎng)景下,是否可以實(shí)現(xiàn)令人滿意的效果。

鏈接外部系統(tǒng)

如今,通用語(yǔ)言模型的一大魅力在于其與外部系統(tǒng)對(duì)接的潛在能力。RAG 作為一種在社區(qū)中快速興起的任務(wù),有效應(yīng)對(duì)了大語(yǔ)言模型面臨的一些典型挑戰(zhàn),如幻覺(jué)、無(wú)法獲取實(shí)時(shí)更新或私有數(shù)據(jù)等問(wèn)題。此外,語(yǔ)言模型在使用 API 和根據(jù)指令及示例編寫代碼方面,展現(xiàn)出了強(qiáng)大的能力。大模型能夠使用代碼解釋器或扮演 AI 智能體,發(fā)揮出更為廣闊的價(jià)值。

通義千問(wèn)團(tuán)隊(duì)對(duì) Qwen1.5 系列 Chat 模型在 RAG 任務(wù)上的端到端效果進(jìn)行了評(píng)估。評(píng)測(cè)基于 RGB 測(cè)試集,是一個(gè)用于中英文 RAG 評(píng)估的集合:

圖片

圖片

然后,通義千問(wèn)團(tuán)隊(duì)在 T-Eval 基準(zhǔn)測(cè)試中評(píng)估了 Qwen1.5 作為通用智能體運(yùn)行的能力。所有 Qwen1.5 模型都沒(méi)有專門面向基準(zhǔn)進(jìn)行優(yōu)化:

圖片

圖片

為了測(cè)試工具調(diào)用能力,阿里使用自身開(kāi)源的評(píng)估基準(zhǔn)測(cè)試模型正確選擇、調(diào)用工具的能力,結(jié)果如下:

圖片

最后,由于 Python 代碼解釋器已成為高級(jí) LLM 越來(lái)越強(qiáng)大的工具,通義千問(wèn)團(tuán)隊(duì)還在之前開(kāi)源的評(píng)估基準(zhǔn)上評(píng)估了新模型利用這一工具的能力:

圖片

結(jié)果表明,較大的 Qwen1.5-Chat 模型通常優(yōu)于較小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不過(guò),在數(shù)學(xué)解題和可視化等代碼解釋器任務(wù)中,即使是最大的 Qwen1.5-72B-Chat 模型也會(huì)因編碼能力而明顯落后于 GPT-4。阿里表示,會(huì)在未來(lái)的版本中,在預(yù)訓(xùn)練和對(duì)齊過(guò)程中提高所有 Qwen 模型的編碼能力。

Qwen1.5 與 HuggingFace transformers 代碼庫(kù)進(jìn)行了集成。從 4.37.0 版本開(kāi)始,開(kāi)發(fā)者可以直接使用 transformers 庫(kù)原生代碼,而不加載任何自定義代碼(指定 trust_remote_code 選項(xiàng))來(lái)使用 Qwen1.5。

在開(kāi)源生態(tài)上,阿里已經(jīng)與 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微調(diào))以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有這些框架現(xiàn)在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平臺(tái)上使用。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-11 09:20:48

2023-11-01 19:03:58

GPT-4

2023-10-31 15:26:02

阿里云通義千問(wèn)

2024-08-30 15:19:22

2023-02-16 13:48:56

模型論文

2023-09-01 21:12:13

GPT3.5模型微調(diào)

2023-08-23 13:27:00

SQLCoder開(kāi)源開(kāi)發(fā)

2023-12-01 13:36:01

阿里云通義千問(wèn)

2025-02-08 09:30:00

2024-06-11 07:03:00

大模型開(kāi)源Qwen2

2023-12-12 13:16:00

模型訓(xùn)練

2025-03-27 10:04:36

阿里云通義千問(wèn)多模態(tài)

2024-10-30 11:06:59

SpringAI模型

2023-08-03 19:11:45

2023-12-27 14:06:00

模型訓(xùn)練

2025-05-15 03:25:00

2024-04-30 14:11:00

訓(xùn)練模型

2015-07-28 13:45:14

大數(shù)據(jù)商業(yè)商業(yè)模式

2025-01-13 10:55:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)