偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="smv5r"></blockquote>

<strong id="smv5r"></strong>

<bdo id="smv5r"><strong id="smv5r"></strong></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

8x7B MoE與Flash Attention 2結(jié)合，不到10行代碼實(shí)現(xiàn)快速推理

作者：機(jī)器之心 2024-01-02 09:55:26

人工智能新聞

在基準(zhǔn)測(cè)試中，Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B，在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上與 GPT-3.5 不相上下，甚至略勝一籌。

前段時(shí)間，Mistral AI 公布的 Mixtral 8x7B 模型爆火整個(gè)開(kāi)源社區(qū)，其架構(gòu)與 GPT-4 非常相似，很多人將其形容為 GPT-4 的「縮小版」。

我們都知道，OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的參數(shù)量和訓(xùn)練細(xì)節(jié)守口如瓶。Mistral 8x7B 的放出，無(wú)疑給廣大開(kāi)發(fā)者提供了一種「非常接近 GPT-4」的開(kāi)源選項(xiàng)。

在基準(zhǔn)測(cè)試中，Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B，在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上與 GPT-3.5 不相上下，甚至略勝一籌。

圖源：https://mistral.ai/news/mixtral-of-experts/

隨著這項(xiàng)研究的出現(xiàn)，很多人表示：「閉源大模型已經(jīng)走到了結(jié)局。」

短短幾周的時(shí)間，機(jī)器學(xué)習(xí)愛(ài)好者 Vaibhav (VB) Srivastav 表示：隨著 AutoAWQ（支持 Mixtral、LLaVa 等模型的量化）最新版本的發(fā)布，現(xiàn)在用戶(hù)可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結(jié)合使用，達(dá)到快速推理的目的，實(shí)現(xiàn)這一功能大約只需 24GB GPU VRAM、不到十行代碼。

圖源：https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ 地址：https://github.com/casper-hansen/AutoAWQ

操作過(guò)程是這樣的：

首先是安裝 AutoAWQ 以及 transformers：

pip install autoawq git+https://github. com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

第三步是初始化 TextStreamer：

第四步對(duì)輸入進(jìn)行 Token 化：

第五步生成：

當(dāng)你配置好項(xiàng)目后，就可以與 Mixtral 進(jìn)行對(duì)話(huà)，例如對(duì)于用戶(hù)要求「如何做出最好的美式咖啡？通過(guò)簡(jiǎn)單的步驟完成」，Mixtral 會(huì)按照 1、2、3 等步驟進(jìn)行回答。

項(xiàng)目中使用的代碼：

Srivastav 表示上述實(shí)現(xiàn)也意味著用戶(hù)可以使用 AWQ 運(yùn)行所有的 Mixtral 微調(diào)，并使用 Flash Attention 2 來(lái)提升它們。

看到這項(xiàng)研究后，網(wǎng)友不禁表示：真的很酷。

更多相關(guān)鏈接，請(qǐng)參考：

模型地址：https://huggingface.co/models?search=mixtral%20awq

Transformer 中量化技術(shù)：https://huggingface.co/docs/transformers/main/en/quantization

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="uhhj4"></pre>

<var id="uhhj4"></var>