news 2026/4/16 14:45:08

使用VLLM推理框架AI大模型部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用VLLM推理框架AI大模型部署

1.说明

python环境:最好是3.10-3.12之间

搭建一个uv虚拟环境,避免各环境冲突。

uv安装

#git https://github.com/astral-sh/uv #Linux 安装 curl -LsSf https://astral.sh/uv/install.sh | sh #windows 安装 powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # 使用 python pip安装 pip install uv

2.魔塔相关命令

# python 环境安装魔搭 uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/ #魔搭模型下载 modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir /mnt/e/model/qwen3-32b-awq modelscope download --model Qwen/Qwen3-Reranker-8B --local_dir /mnt/e/model/qwen3-reranker-8b modelscope download --model Qwen/Qwen3-Embedding-8B --local_dir /mnt/e/model/qwen3-embedding-8b modelscope download --model Qwen/Qwen3-30B-A3B-Thinking-2507 --local_dir ./Qwen3-30B-A3B-Thinking-2507

3.大模型相关命令

(1)启动模型

#如果在62 服务器上启动,需进入到 模型环境中去 source /data/model/.venv/bin/activate #启动30b模型 nohup vllm serve /data/model/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B --tensor-parallel-size 2 --max-model-len 40960--enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & #启动32量化版本(勿动) nohup vllm serve /data/model/Qwen3-32B-AWQ --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 130000 --gpu-memory-utilization 0.85 --max-num-seqs 100 > vllm.log 2>&1 & #启动向量模型 vllm serve /data/model/Qwen3-Embedding-8B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 100 #启动重排模型 #启动视觉模型 nohup vllm serve /data/model/Qwen2.5-VL-7B-Instruct --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 128 > vllm.log 2>&1 & #启动minerU 识别模型 nohup vllm serve /data/model/MinerU2.5-2509-1.2B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-model-len 4096 --max-num-seqs 4 > mineru.log 2>&1 & # 启动32b模型(暂时启动失败了) vllm serve /mnt/e/model/qwen3-32b --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 12000 --quantization fp8

(2)vllm相关命令

#vllm 安装命令 export UV_HTTP_TIMEOUT=300 export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple uv pip install torch==2.8 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128 -i https://mirrors.aliyun.com/pypi/simple/ uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

(3)调整模型上下文长度

#调整上下文长度为128k,YaRN 配置 # 找到模型目录下的config.json文件,修改如下命令 "max_position_embeddings": 131072, "rope_scaling": { "type": "yarn", "factor": 4.0, "original_max_position_embeddings": 32768, "finetuned": true },

4.MinerU相关命令

(1)启动命令

#启动外部模型 mineru -p test1.pdf -o ./outfile1 -b vlm-http-client -u http://localhost:8000 # 帮助文档 mineru --help Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录(必填) -o, --output PATH 输出目录(必填) -m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端) -b, --backend [pipeline|vlm-transformers|vlm-vllm-engine|vlm-lmdeploy-engine|vlm-http-client] 解析后端(默认为 pipeline) -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari] 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端) -u, --url TEXT 当使用 http-client 时,需指定服务地址 -s, --start INTEGER 开始解析的页码(从 0 开始) -e, --end INTEGER 结束解析的页码(从 0 开始) -f, --formula BOOLEAN 是否启用公式解析(默认开启) -t, --table BOOLEAN 是否启用表格解析(默认开启) -d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端) --vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端) --source [huggingface|modelscope|local] 模型来源,默认 huggingface --help 显示帮助信息

(2)安装命令

#使用uv安装MinerU pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple pip install uv -i https://mirrors.aliyun.com/pypi/simple uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

5.Linux相关命令

# 查看英伟达GPU nvidia-smi # 杀掉占用的GPU pkill -f VLLM

6.PaddleOCR命令

#1、paddlepaddle 安装 #官网地址:https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/windows-pip.html pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #2、验证paddlepaddle是否按照成功 python import paddle #出现PaddlePaddle is installed successfully!说明安装成功 paddle.utils.run_check() #3、安装PaddleOCR pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:02:39

XDM浏览器下载管理:从入门到精通的效率革命

XDM浏览器下载管理:从入门到精通的效率革命 【免费下载链接】xdm Powerfull download accelerator and video downloader 项目地址: https://gitcode.com/gh_mirrors/xd/xdm 问题诊断:你的下载体验正在经历什么? 你是否遇到过这样的困…

作者头像 李华
网站建设 2026/4/16 11:50:59

数字孪生技术如何破解物联网管理难题

数字孪生技术如何破解物联网管理难题 【免费下载链接】ditto Eclipse Ditto™: Digital Twin framework of Eclipse IoT - main repository 项目地址: https://gitcode.com/gh_mirrors/ditto6/ditto 在工业4.0和智慧城市建设的浪潮中,企业面临着前所未有的设…

作者头像 李华
网站建设 2026/4/14 23:38:04

ZyPlayer跨平台视频播放器:重新定义桌面观影体验

ZyPlayer跨平台视频播放器:重新定义桌面观影体验 【免费下载链接】ZyPlayer 跨平台桌面端视频资源播放器,免费高颜值. 项目地址: https://gitcode.com/gh_mirrors/zy/ZyPlayer 在数字娱乐时代,用户对于视频播放器的需求早已超越了简单的播放功能。…

作者头像 李华
网站建设 2026/4/16 13:00:02

揭秘IOCCC:当C语言代码成为艺术创作的画布

揭秘IOCCC:当C语言代码成为艺术创作的画布 【免费下载链接】winner Winners of the International Obfuscated C Code Contest 项目地址: https://gitcode.com/GitHub_Trending/wi/winner 踏入国际混淆C代码竞赛(IOCCC)的奇幻世界&…

作者头像 李华
网站建设 2026/4/16 13:29:22

BongoCat终极指南:打造专属桌面互动萌宠伴侣

BongoCat终极指南:打造专属桌面互动萌宠伴侣 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 厌倦了单调的键盘…

作者头像 李华
网站建设 2026/4/13 8:46:23

LeagueAkari深度解析:英雄联盟玩家必备的智能助手使用全攻略

LeagueAkari深度解析:英雄联盟玩家必备的智能助手使用全攻略 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari 还…

作者头像 李华