news 2026/5/16 7:12:56

Linux 或者 Ubuntu 离线使用 vllm启动大模型

张小明

前端开发工程师

1.2k 24

文章封面图 — Linux 或者 Ubuntu 离线使用 vllm启动大模型

使用`vllm`启动`QWQ-32B`的命令

完整的命令如下

python-mvllm.entrypoints.openai.api_server\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--tensor-parallel-size4\--host0.0.0.0\--port8000\--max-num-batched-tokens2048\--gpu-memory-utilization0.85\--hosted-model-name QwQ-32B

参数详解

1.`python -m vllm.entrypoints.openai.api_server`

启动的是vLLM 的 OpenAI API 兼容服务器
这个服务器对外提供与 OpenAI API 类似的接口（如/v1/chat/completions）
可以用curl、Python SDK 或前端调用，兼容 OpenAI 格式请求

2.`--model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B`

指定要加载的模型路径
这里是本地存储的QwQ-32B模型，通常是一个 HuggingFace 风格的模型文件夹
支持 GGUF、HuggingFace、以及经过 vLLM 转换后的张量并行模型

3.`--tensor-parallel-size 4`

表示使用4 块 GPU来进行Tensor Parallelism（张量并行）
QwQ-32B 是一个大模型，单卡放不下，所以需要拆分到多个 GPU 上推理
如果你有 4 张卡，这个设置合理；如果只有 1 张卡，就设为--tensor-parallel-size 1

4.`--host 0.0.0.0`

设置监听地址为所有网络接口
这样可以从外部访问该服务（比如从其他机器通过 IP 访问）
如果只想本机访问，可以改为--host 127.0.0.1

5.`--port 8000`

设置服务监听的端口号为8000
可以通过浏览器或 API 请求访问：http://localhost:8000或http://<ip>:8000

6.`--max-num-batched-tokens 2048`

控制每次 batch 中最多处理多少个 token（输入 + 输出）
增大这个值可以提高吞吐量，但会占用更多显存
默认值通常是 2560 左右，这里设为 2048 是为了控制显存使用

7.`--gpu-memory-utilization 0.85`

设置 GPU 显存使用率为 85%
这是为了防止 OOM（Out Of Memory），留出一部分缓冲空间
默认值是0.9，如果你的显存较小，可以适当降低（如 0.7）

8.`--hosted-model-name QwQ-32B`

它表示：虽然模型实际路径是 /root/.cache/…，但对外暴露的模型名是 QwQ-32B

要让MODEL_NAME = "QwQ-32B"成功调用你的本地模型，你需要在启动 vLLM 服务时加上一个参数：：

--hosted-model-name QwQ-32B\# 也就是--host0.0.0.0\--port8000\--model/root/.cache/modelscope/hub/models/Qwen/QwQ-32B\--hosted-model-name QwQ-32B\

它表示：虽然模型实际路径是/root/.cache/...，但对外暴露的模型名是QwQ-32B

示例请求（使用 curl）

可以使用如下命令测试服务是否正常运行：

curlhttp://localhost:8000/v1/chat/completions\-H"Content-Type: application/json"\-d'{ "model": "QwQ-32B", "messages": [{"role": "user", "content": "讲个笑话吧"}] }'

示例请求代码（使用python）

importopenai client=openai.OpenAI(base_url="http://localhost:8000/v1",api_key="EMPTY"# 如果没有启用鉴权，可以为空)completion=client.chat.completions.create(model="QwQ-32B",# ← 这里就能用了！messages=[{"role":"user","content":"你好，请讲个笑话。"}])print(completion.choices[0].message.content)

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/5/16 7:12:07

OFA模型生成效果展示：从简单问答到复杂推理案例集

OFA模型生成效果展示：从简单问答到复杂推理案例集 1. 引言想象一下，当你看到一张图片时，大脑能在瞬间完成识别、分析和推理的全过程——这是一只猫，它正在追红色的球，背景是绿色的草坪。现在，有一种AI模…

作者头像

李华

网站建设 2026/5/16 7:11:08

当AI把任务拆得更碎，我们为何反而更累？

第一批用AI的人，已经染上了“AI疲惫症”当Token像空气一样被免费或半价塞进口袋，当“今天你又烧了多少万”成为新的早安问候，我们以为迎来了生产力大解放，却先一步跌进了注意力大饥荒。大厂把Token写进KPI，老板把Skill…

作者头像

李华

网站建设 2026/5/16 7:12:56

OpenClaw镜像体验指南：Qwen3-14b_int4_awq云端快速部署方案

OpenClaw镜像体验指南：Qwen3-14b_int4_awq云端快速部署方案 1. 为什么选择云端镜像方案上周我在本地尝试部署OpenClaw时，整整花了两天时间解决各种环境依赖问题。从Python版本冲突到CUDA驱动不兼容，每一步都踩坑。直到发现星图平台的OpenC…

作者头像

李华

网站建设 2026/5/16 7:12:18

产业集团总部大楼智能化系统项目规划方案精讲

一、项目概述与功能规划篇幅有限仅展示了部分 1、设计原则 (1)稳定性、安全性智能系统中的所有设备，在性能指标中安全性放在首位。要求数据不丢失、系统可靠连续运转的同时，并可在非理想环境下有效工作。单个子系统的故障不能影响其它系统的正常运转。…

作者头像

李华

网站建设 2026/5/16 7:11:18

迈向全栈化：现代 Web 前端开发工程师的核心技能与实践全景

摘要：随着互联网技术的飞速发展，Web 应用早已突破了浏览器的边界，延伸至移动端（App/小程序）和桌面端。用户对应用的体验要求日益增高，这促使前端开发领域的技术栈深度和广度都在不断扩展。本文旨在系统性地探讨一名现代高级 Web 前端开发工程师所需掌握的核心技术、面临…

作者头像

李华

网站建设 2026/4/14 21:59:48

醒醒吧，你当不了AI的老板-AI时代重新思考普通程序员的职业之路

“人是BOSS，AI是员工”——这话听着爽，但轮得到你吗？最近，AI大神Karpathy发了一条推文，分享如何用LLM构建个人知识库，引发了不少讨论。而真正让我反复琢磨的，是一个更底层的问题：人和…

作者头像

李华