使用vLLM部署工具加速Q(mào)WQ,推理速度比ollama更快、并發(fā)更高

與傳統(tǒng)的HuggingFace Transformers相比,vLLM的吞吐量高達(dá)24倍,且無(wú)需改變模型架構(gòu),它采用創(chuàng)新的PagedAttention算法,優(yōu)化了注意力鍵和值的管理,從而提升了推理速度,并且其能夠有效地利用多核CPU和GPU資源,顯著提升LLM的推理速度。
相比于ollama,vllm輸出的速度更快,支持的并發(fā)更高,目前也沒(méi)有遇到安全問(wèn)題,穩(wěn)定性非常好,更適合作為服務(wù)器的接口服務(wù)來(lái)部署。
但相應(yīng)的,vllm會(huì)把服務(wù)器的GPU顯存都占滿,使得機(jī)器無(wú)法再部署其他服務(wù),同時(shí)ollama部署更加的簡(jiǎn)單,也是因?yàn)檫@個(gè)原因ollama在最近部署deepseek的熱潮中被提到的更多一些,因此個(gè)人使用可能ollama更合適。
關(guān)于vllm和ollama的對(duì)比可以看文章:ollama和vllm部署對(duì)比那個(gè)更合適
vLLM本地環(huán)境準(zhǔn)備
vllm需要使用最新的0.7.3版本,支持思考過(guò)程增加<think>標(biāo)簽。
建議用conda新建一個(gè)環(huán)境來(lái)安裝
pip install vllm==0.7.3python環(huán)境我這里使用的是python3.8,顯卡為a40顯卡40g顯存版本。
模型權(quán)重下載
因?yàn)榫W(wǎng)絡(luò)問(wèn)題,建議在阿里魔塔社區(qū)下載QWQ模型。

選擇好對(duì)應(yīng)的版本后,使用pip安裝modelscope,便可以下載選中的版本模型了:
from modelscope import snapshot_download
model_dir = snapshot_download('qwen/QWQ-32B')vLLM部署運(yùn)行模型
因?yàn)橹耙呀?jīng)配置好vLLM的環(huán)境,所以使用以下命令可以運(yùn)行模型:
/root/miniconda3/envs/vllm/bin/python
-m vllm.entrypoints.openai.api_server
--served-model-name qwq-32b
--model /root/.cache/modelscope/hub/qwen/QWQ-32B參數(shù)解析:
模型路徑:--model /root/.cache/modelscope/hub/qwen/QWQ-32B
模型名稱:–served-model qwq-32b
QWQ的推理效果可以查看文章 QwQ總結(jié)能力測(cè)評(píng),32b小模型真能超過(guò)deepseek嗎
寫(xiě)在最后
2025年的今天,AI創(chuàng)新已如井噴,幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人,我堅(jiān)信AI不是替代人類,而是讓我們從重復(fù)工作中解放出來(lái),專注于更有創(chuàng)造性的事情,關(guān)注我們公眾號(hào)口袋大數(shù)據(jù),一起探索大模型落地的無(wú)限可能!




























