偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="kypvz"><i id="kypvz"></i></sub>

<cite id="kypvz"><rp id="kypvz"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

使用vLLM部署工具加速Q(mào)WQ，推理速度比ollama更快、并發(fā)更高

作者：貝塔街的萬(wàn)事 2025-04-09 10:47:02

相比于ollama，vllm輸出的速度更快，支持的并發(fā)更高，目前也沒(méi)有遇到安全問(wèn)題，穩(wěn)定性非常好，更適合作為服務(wù)器的接口服務(wù)來(lái)部署。

與傳統(tǒng)的HuggingFace Transformers相比，vLLM的吞吐量高達(dá)24倍，且無(wú)需改變模型架構(gòu)，它采用創(chuàng)新的PagedAttention算法，優(yōu)化了注意力鍵和值的管理，從而提升了推理速度，并且其能夠有效地利用多核CPU和GPU資源，顯著提升LLM的推理速度。

相比于ollama，vllm輸出的速度更快，支持的并發(fā)更高，目前也沒(méi)有遇到安全問(wèn)題，穩(wěn)定性非常好，更適合作為服務(wù)器的接口服務(wù)來(lái)部署。

但相應(yīng)的，vllm會(huì)把服務(wù)器的GPU顯存都占滿，使得機(jī)器無(wú)法再部署其他服務(wù)，同時(shí)ollama部署更加的簡(jiǎn)單，也是因?yàn)檫@個(gè)原因ollama在最近部署deepseek的熱潮中被提到的更多一些，因此個(gè)人使用可能ollama更合適。

關(guān)于vllm和ollama的對(duì)比可以看文章：ollama和vllm部署對(duì)比那個(gè)更合適

vLLM本地環(huán)境準(zhǔn)備

vllm需要使用最新的0.7.3版本，支持思考過(guò)程增加<think>標(biāo)簽。

建議用conda新建一個(gè)環(huán)境來(lái)安裝

pip install vllm==0.7.3

python環(huán)境我這里使用的是python3.8，顯卡為a40顯卡40g顯存版本。

模型權(quán)重下載

因?yàn)榫W(wǎng)絡(luò)問(wèn)題，建議在阿里魔塔社區(qū)下載QWQ模型。

選擇好對(duì)應(yīng)的版本后，使用pip安裝modelscope，便可以下載選中的版本模型了：

from modelscope import snapshot_download 
model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署運(yùn)行模型

因?yàn)橹耙呀?jīng)配置好vLLM的環(huán)境，所以使用以下命令可以運(yùn)行模型：

/root/miniconda3/envs/vllm/bin/python  
-m vllm.entrypoints.openai.api_server 
--served-model-name qwq-32b 
--model /root/.cache/modelscope/hub/qwen/QWQ-32B

參數(shù)解析：

模型路徑：--model /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名稱：–served-model qwq-32b

QWQ的推理效果可以查看文章 QwQ總結(jié)能力測(cè)評(píng)，32b小模型真能超過(guò)deepseek嗎

寫(xiě)在最后

2025年的今天，AI創(chuàng)新已如井噴，幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人，我堅(jiān)信AI不是替代人類，而是讓我們從重復(fù)工作中解放出來(lái)，專注于更有創(chuàng)造性的事情，關(guān)注我們公眾號(hào)口袋大數(shù)據(jù)，一起探索大模型落地的無(wú)限可能！

責(zé)任編輯：龐桂玉來(lái)源：口袋大數(shù)據(jù)

vLLM QWQ ollama

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="5q1mx"></p>

<sub id="5q1mx"><p id="5q1mx"></p></sub>