偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="49p1e"><nobr id="49p1e"></nobr></button>

<tt id="49p1e"></tt>

<button id="49p1e"></button>

<var id="49p1e"></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

中文版開源Llama 2同時(shí)有了語(yǔ)言、多模態(tài)大模型，完全可商用

作者：機(jī)器之心 2023-08-04 13:22:46

人工智能新聞

可以說(shuō)，AI 初創(chuàng)公司 LinkSoul.Al 的這些開源項(xiàng)目讓海外開源大模型在國(guó)內(nèi)的普及和推廣速度與國(guó)際幾乎保持了一致。

7 月 19 日，Meta 終于發(fā)布了免費(fèi)可商用版本 Llama 2，讓開源大模型領(lǐng)域的格局發(fā)生了巨大變化。

Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體，相比上一代的訓(xùn)練數(shù)據(jù)增加了 40%，在包括推理、編碼、精通性和知識(shí)測(cè)試等許多外部基準(zhǔn)測(cè)試中展示出了優(yōu)越的表現(xiàn)，且支持多個(gè)語(yǔ)種。

美中不足的是，Llama 2 語(yǔ)料庫(kù)仍以英文（89.7%）為主，而中文僅占據(jù)了其中的 0.13%。這導(dǎo)致 Llama 2 很難完成流暢、有深度的中文對(duì)話。

中文版 Llama2 開源大模型創(chuàng)下社區(qū)「首個(gè)」

好消息是，在 Meta Al 開源 Llama 2 模型的次日，開源社區(qū)首個(gè)能下載、能運(yùn)行的開源中文 LLaMA2 模型就出現(xiàn)了。該模型名為「Chinese Llama 2 7B」，由國(guó)內(nèi) AI 初創(chuàng)公司 LinkSoul.Al 推出。

僅僅兩周時(shí)間，該項(xiàng)目在 Hugging Face 上收獲過(guò)萬(wàn)次下載，并在 GitHub 上獲得了 1200 Stars。

據(jù)項(xiàng)目介紹，Chinese-Llama-2-7b 開源的內(nèi)容包括完全可商用的中文版 Llama2 模型及中英文 SFT 數(shù)據(jù)集，輸入格式嚴(yán)格遵循 llama-2-chat 格式，兼容適配所有針對(duì)原版 llama-2-chat 模型的優(yōu)化。

項(xiàng)目地址：https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

目前，普通用戶可以在線體驗(yàn)「Chinese Llama-2 7B Chat」。

試用地址：https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

比如你能夠以英文提問(wèn)，并讓它用中文回答：

或者直接中文對(duì)話，它也能以中文實(shí)現(xiàn)準(zhǔn)確、流暢的回答：

主打的就是一個(gè)中英文靈活切換：

有人已上手，表示運(yùn)行良好：

圖源：https://twitter.com/roya10x7/status/1682781475458957315?s=20

語(yǔ)言模型之外，繼續(xù)開源兩個(gè)中文多模態(tài)大模型

在推出首個(gè)開源 Llama2 中文語(yǔ)言大模型之后，LinkSoul.AI 團(tuán)隊(duì)將目光投向了目前全球尚外于發(fā)展初期的語(yǔ)音文本多模態(tài)大模型和圖文大模型，并再次率先開源了相關(guān)的模型，提供國(guó)內(nèi)開發(fā)者免費(fèi)下載、自由商用。

本次開源的兩個(gè)中文多模態(tài)大模型，包括如下：

由 LinkSoul.Al 團(tuán)隊(duì)牽頭，北京智源人工智能研究院、北京大學(xué)、零一萬(wàn)物等國(guó)內(nèi)頭部頂尖人工智能團(tuán)隊(duì)通力合作的第一個(gè)支持中英雙語(yǔ)、語(yǔ)音到文本的多模態(tài)開源對(duì)話模型 (LLaSM)
第一個(gè)基于 Llama 2 的支持中英文雙語(yǔ)視覺(jué)到文本的多模態(tài)模型 (Chinese-LLaVA)

兩個(gè)模型都基于 Apache-2.0 協(xié)議開源，完全可商用。

LinkSoul.Al 開發(fā)團(tuán)隊(duì)負(fù)責(zé)人史業(yè)民表示，「放眼全球，目前如何讓『模型聽世界、看世界』仍然沒(méi)有可靠的開源模型可用。我們希望能夠盡微薄之力，讓中國(guó)大模型生態(tài)距離國(guó)際領(lǐng)先標(biāo)準(zhǔn)再近一些?！?/span>

語(yǔ)音到文本多模態(tài)開源對(duì)話模型 (LLaSM)

LinkSoul.AI 開源了可商用的中英文雙語(yǔ)語(yǔ)音 - 語(yǔ)言助手 LLaSM 以及中英文語(yǔ)音 SFT 數(shù)據(jù)集 LLaSM-Audio-Instructions。LLaSM 是首個(gè)支持中英文語(yǔ)音 - 文本多模態(tài)對(duì)話的開源可商用對(duì)話模型。

相較以往的傳統(tǒng)方案，LLaSM 能夠通過(guò)便捷的語(yǔ)音輸入的交互方式，大幅改善過(guò)往以文本為輸入的大模型的使用體驗(yàn)，同時(shí)有效避免基于 ASR 解決方案的繁瑣流程以及可能引入的錯(cuò)誤。

項(xiàng)目地址：https://github.com/LinkSoul-AI/LLaSM
數(shù)據(jù)集: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

下面是 LLaSM 的一個(gè)語(yǔ)音 - 文本對(duì)話示例。

LLaSM 也有相應(yīng)的文獻(xiàn)介紹。

模型、代碼和數(shù)據(jù)地址：https://huggingface.co/spaces/LinkSoul/LLaSM

圖像到文本多模態(tài)開源對(duì)話模型 (Chinese LLaVA)

LinkSoul.AI 開源了可商用的中英文雙語(yǔ)視覺(jué) - 語(yǔ)言助手 Chinese-LLaVA 以及中英文視覺(jué) SFT 數(shù)據(jù)集 Chinese-LLaVA-Vision-Instructions，支持中英文視覺(jué) - 文本多模態(tài)對(duì)話的開源可商用對(duì)話模型。

項(xiàng)目地址：https://github.com/LinkSoul-AI/Chinese-LLaVA
數(shù)據(jù)集: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

下面是 Chinese LLaVA 的一個(gè)視覺(jué) - 文本對(duì)話示例。

圖片

模型、代碼和數(shù)據(jù)地址：https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

多模態(tài)模型統(tǒng)一架構(gòu)解讀

大語(yǔ)言模型在很多方面展現(xiàn)了強(qiáng)大的能力，也在一定程度上讓人們看到了實(shí)現(xiàn)通用人工智能（AGI）的希望。多模態(tài)模型提供了不同模態(tài)之間信息交互的渠道，使得視覺(jué)信息、語(yǔ)音信息等能和文本語(yǔ)義信息互為補(bǔ)充，讓大語(yǔ)言模型能聽到世界、看到世界，從而向 GI 又前進(jìn)一步。

因此，訓(xùn)練多模態(tài)模型的重點(diǎn)是如何融合互補(bǔ)不同模態(tài)間的信息，并充分利用現(xiàn)有大語(yǔ)言模型能力。LinkSoul.AI 開源的語(yǔ)音 - 語(yǔ)言多模態(tài)模型和視覺(jué) - 語(yǔ)言多模態(tài)模型統(tǒng)一采用下圖所示框架。

首先通過(guò)模態(tài)編碼器編碼不同模態(tài)數(shù)據(jù)特征，緊接著在多模態(tài)特征對(duì)齊的預(yù)訓(xùn)練階段學(xué)習(xí)模態(tài)適配器（Adaptor），將不同模態(tài)的輸入特征與大語(yǔ)言模型對(duì)齊。

然后在端到端的有監(jiān)督微調(diào)（SFT）階段使用不同模態(tài)的指令數(shù)據(jù)集對(duì)模態(tài)適配器和大語(yǔ)言模型進(jìn)行微調(diào)。在有監(jiān)督微調(diào)階段，同時(shí)使用跨模態(tài)（cross-modal）指令數(shù)據(jù)和僅文本（text-only）指令數(shù)據(jù)進(jìn)行多任務(wù)訓(xùn)練。LinkSoul.AI 團(tuán)隊(duì)認(rèn)為多任務(wù)訓(xùn)練有助于避免模型產(chǎn)生模態(tài)依賴和偏見，并且可以自然地用一個(gè)模型實(shí)現(xiàn)多種模態(tài)。

LinkSoul.AI 團(tuán)隊(duì)接下來(lái)的工作會(huì)把語(yǔ)音 - 視覺(jué) - 文本進(jìn)一步融合，讓大語(yǔ)言模型同時(shí)支持語(yǔ)音和視覺(jué)模態(tài)。

預(yù)訓(xùn)練階段

預(yù)訓(xùn)練階段將模態(tài)編碼器和大語(yǔ)言模型參數(shù)都凍結(jié)，使用跨模態(tài)的語(yǔ)音 / 視覺(jué) - 文本對(duì)進(jìn)行 Adaptor 的訓(xùn)練，優(yōu)化目標(biāo)為對(duì)輸入的指令（instructions）生成相應(yīng)的回復(fù)（responses）。

具體來(lái)講，對(duì)于語(yǔ)音模態(tài)，采用 Whisper 作為特征編碼器，凍結(jié) Whisper [5] 并提取音頻輸入的特征。使用公開的中英文自動(dòng)語(yǔ)音識(shí)別（ASR）數(shù)據(jù)集 Aishell [1]、 LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

對(duì)每個(gè)數(shù)據(jù)樣本（audio、text_label）依據(jù)對(duì)應(yīng)語(yǔ)言隨機(jī)從預(yù)訓(xùn)練語(yǔ)音指令表（見第三節(jié)數(shù)據(jù)部分）中選取一個(gè)指令，組成（audio，instruct，text_label）格式的數(shù)據(jù)，并在訓(xùn)練過(guò)程中預(yù)測(cè) text_label。

對(duì)于視覺(jué)模態(tài)，采用 CLIP [6] 作為圖片特征提取器，并使用 mBART [8] 對(duì) LLaVA [7] 開源的視覺(jué)預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行翻譯漢化，生成中文圖片文本對(duì)。在預(yù)訓(xùn)練階段同時(shí)使用中英文數(shù)據(jù)進(jìn)行訓(xùn)練，從而讓模型更好的支持中文。

有監(jiān)督微調(diào)

預(yù)訓(xùn)練階段將不同模態(tài)的特征和大語(yǔ)言模型對(duì)齊，有監(jiān)督微調(diào)階段則僅凍結(jié)模態(tài)編碼器權(quán)重，將模態(tài)適配器和大語(yǔ)言模型參數(shù)打開，使用跨模態(tài)指令數(shù)據(jù)進(jìn)行微調(diào)。

針對(duì)目前幾乎沒(méi)有公開語(yǔ)音多模態(tài)指令數(shù)據(jù)這一問(wèn)題，基于公開數(shù)據(jù)集 WizardLM [9]、ShareGPT [10]、GPT-4-LLM [11] 構(gòu)造語(yǔ)音 - 文本多模態(tài)指令數(shù)據(jù)集 LLaSM-Audio-Instructions。以語(yǔ)音輸入作為指令，并預(yù)測(cè)對(duì)應(yīng)的文本輸出。

對(duì)于視覺(jué)模態(tài)，同樣先通過(guò) mBART [8] 對(duì) LLaVA [7] 開源的視覺(jué)指令數(shù)據(jù)集進(jìn)行翻譯漢化，生成中文的視覺(jué)指令數(shù)據(jù)集，然后類似地進(jìn)行訓(xùn)練。

數(shù)據(jù)集

模態(tài)轉(zhuǎn)換預(yù)訓(xùn)練數(shù)據(jù)集

先來(lái)看 Audio。語(yǔ)音多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集采用公開中英文自動(dòng)語(yǔ)音識(shí)別（ASR）數(shù)據(jù)集 Aishell [1]、LibriSpeech [2]、Magicdata [3] 和 Primewords [4]。

同時(shí)構(gòu)造如下指令集，對(duì)每個(gè)（audio、text_label）樣本依據(jù)對(duì)應(yīng)語(yǔ)言隨機(jī)選擇一條指令構(gòu)造數(shù)據(jù)樣本（instruction、audio、text_label）。

表 1：英文簡(jiǎn)單指令集

表 2：中文簡(jiǎn)單指令集

然后是 Vision。對(duì)于視覺(jué)模態(tài)，采用 LLaVA [7] 開源的視覺(jué)預(yù)訓(xùn)練數(shù)據(jù)，通過(guò) mBART [8] 翻譯進(jìn)行漢化，生成中文圖片文本對(duì)，以提升模型的中文能力。

指令微調(diào)數(shù)據(jù)集

同樣先來(lái)看 Audio。在構(gòu)建音頻數(shù)據(jù)集的過(guò)程中，首先仔細(xì)過(guò)濾所有對(duì)話數(shù)據(jù)，通過(guò)刪除那些不適合發(fā)聲的對(duì)話，包括代碼、符號(hào)、URL 和其他不可讀的文本。然后，為確保數(shù)據(jù)質(zhì)量，每輪對(duì)話中聊天機(jī)器人的答案再次被過(guò)濾，那些不包含有價(jià)值信息的內(nèi)容將被丟棄。最后，使用 Microsoft Azure [12] 語(yǔ)音合成 API 來(lái)生成語(yǔ)音數(shù)據(jù)。

然后是 Vision。對(duì)于視覺(jué)模態(tài)，采用 LLaVA [7] 開源的視覺(jué)指令數(shù)據(jù)集，通過(guò) mBART [8] 進(jìn)行漢化，生成中文多模態(tài)指令數(shù)據(jù)，使得模型能夠具有中文視覺(jué)指令執(zhí)行能力。

為了便于開源社區(qū)快速感受多模態(tài)大模型的能力，以及共同推進(jìn)多模態(tài)大模型的研究進(jìn)展，訓(xùn)練用到的數(shù)據(jù)在項(xiàng)目中開源，并提供 Hugging Face 倉(cāng)庫(kù)下載。

對(duì)于 LinkSoul.AI 團(tuán)隊(duì)而言，這兩個(gè)開源可商用的多模態(tài)大模型不僅為大模型生態(tài)帶來(lái)了語(yǔ)音和視覺(jué)多模態(tài)能力，也在大模型多語(yǔ)言方面做出了貢獻(xiàn)。

此外在商用場(chǎng)景上，該團(tuán)隊(duì)推出的模型都允許完全免費(fèi)商用，這對(duì)于國(guó)內(nèi)個(gè)人開發(fā)者和初創(chuàng)公司也具有非凡的價(jià)值。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<samp id="7neqp"><nobr id="7neqp"></nobr></samp>