Qwen3.5-35B-A3B-AWQ-4bit镜像免配置实操：Docker Compose一键编排前后端服务-编程阁

Qwen3.5-35B-A3B-AWQ-4bit镜像免配置实操：Docker Compose一键编排前后端服务

1. 引言：告别复杂配置，10分钟拥有你的图文对话AI

你是不是也遇到过这种情况？看到网上那些炫酷的AI模型，能看懂图片、能回答关于图片的问题，心里痒痒的想试试。结果一搜教程，什么环境配置、模型下载、服务部署、前后端联调……一大堆步骤看得头都大了。好不容易跟着教程走，不是这里报错就是那里缺依赖，折腾半天最后只能放弃。

今天我要分享的这个方法，能让你彻底告别这些烦恼。Qwen3.5-35B-A3B-AWQ-4bit这个强大的图文对话模型，现在只需要一个命令就能跑起来。是的，你没听错，一个命令。不用懂Docker的复杂配置，不用管前后端怎么通信，甚至不用关心模型文件放哪里——所有东西都打包好了，开箱即用。

这个镜像最大的特点就是“省心”。它把后端推理服务、前端Web界面、模型文件、所有依赖库全都打包在一起。你只需要运行一条命令，等几分钟，就能在浏览器里上传图片、问问题、看AI的回答。无论是分析商品图片、理解图表数据，还是简单的“这张图里有什么”，都能轻松搞定。

接下来，我会手把手带你走完整个流程。从环境准备到服务启动，从基础使用到高级技巧，保证每一步都清晰明了。就算你之前没接触过Docker，也能跟着做下来。

2. 环境准备：检查你的“装备”

在开始之前，我们先花两分钟检查一下环境。这就像出门前看看天气，虽然简单，但能避免很多不必要的麻烦。

2.1 硬件要求

这个模型对显卡有一定要求，主要是显存方面：

显卡：需要两张NVIDIA显卡（比如两张RTX 3090，或者两张RTX 4090）
显存：每张卡至少24GB，两张卡加起来就是48GB
为什么需要双卡？这个模型即使经过了量化压缩（从原来的精度降低到4bit），体积还是比较大。单张24GB的卡跑起来会不太稳定，容易出问题。用两张卡并行计算，既稳定速度又快。

如果你不确定自己的显卡配置，可以打开终端输入：

nvidia-smi

这个命令会显示你所有的显卡信息，包括型号、显存大小等。

2.2 软件要求

软件方面就简单多了：

操作系统：Ubuntu 20.04或22.04（其他Linux发行版理论上也可以，但Ubuntu最省心）
Docker：版本20.10以上
Docker Compose：版本2.0以上
NVIDIA驱动：版本470以上（建议用最新稳定版）

检查Docker是否安装：

docker --version docker-compose --version

如果还没安装Docker，可以去官网找安装教程，或者用下面这个一键安装脚本（Ubuntu系统）：

curl -fsSL https://get.docker.com -o get-docker.sh sudo sh get-docker.sh sudo usermod -aG docker $USER

安装完后需要退出终端重新登录，或者重启系统，这样不用每次都用sudo了。

2.3 网络和存储

网络：需要能正常访问Docker Hub（下载镜像用）
磁盘空间：至少准备50GB空闲空间（模型文件大概30GB，还要留一些缓存空间）
内存：系统内存建议32GB以上

这些都检查没问题了？那我们可以进入正题了。

3. 一键部署：真的只需要一条命令

准备好了吗？最激动人心的部分来了。前面说了那么多准备，真正的部署其实简单得不可思议。

3.1 创建项目目录

首先，找个地方放我们的项目文件。我习惯在home目录下创建一个专门的文件夹：

mkdir -p ~/qwen-multimodal cd ~/qwen-multimodal

这个qwen-multimodal就是我们的项目根目录，所有文件都会放在这里。

3.2 编写Docker Compose配置文件

接下来创建一个docker-compose.yml文件。这个文件定义了我们的整个服务架构——后端推理服务、前端Web界面、它们之间的关系、端口映射等等。

用你喜欢的文本编辑器创建这个文件，比如用nano：

nano docker-compose.yml

然后把下面的内容复制进去：

version: '3.8' services: # 后端推理服务 backend: image: registry.cn-hangzhou.aliyuncs.com/qwen/qwen3.5-35b-a3b-awq-4bit:latest container_name: qwen-backend runtime: nvidia deploy: resources: reservations: devices: - driver: nvidia count: 2 capabilities: [gpu] environment: - MODEL_PATH=/app/models/qwen3.5-35b-a3b-awq-4bit - TENSOR_PARALLEL_SIZE=2 - MAX_MODEL_LEN=4096 - ENFORCE_EAGER=1 volumes: - ./models:/app/models - ./logs:/app/logs ports: - "8000:8000" command: > python -m vllm.entrypoints.openai.api_server --model ${MODEL_PATH} --tensor-parallel-size ${TENSOR_PARALLEL_SIZE} --max-model-len ${MAX_MODEL_LEN} --enforce-eager --host 0.0.0.0 --port 8000 healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3 start_period: 60s restart: unless-stopped # 前端Web界面 frontend: image: registry.cn-hangzhou.aliyuncs.com/qwen/qwen-web:latest container_name: qwen-frontend depends_on: backend: condition: service_healthy environment: - BACKEND_URL=http://backend:8000 - MAX_FILE_SIZE=10485760 ports: - "7860:7860" volumes: - ./uploads:/app/uploads - ./frontend-logs:/app/logs restart: unless-stopped

我来解释一下这个配置文件里几个关键的地方：

backend服务：这是核心的推理服务
- 用了vLLM作为推理引擎，速度比较快
- tensor-parallel-size=2表示用两张显卡并行计算
- max-model-len=4096是上下文长度，可以理解成AI的“记忆长度”
- enforce-eager是个技术选项，让推理更稳定
frontend服务：这是我们操作的Web界面
- 依赖backend服务，等backend健康了再启动
- 把7860端口映射出来，我们通过这个端口访问
- 上传的图片会保存在./uploads目录里
volumes配置：把容器里的目录挂载到主机
- 模型文件在./models
- 日志在./logs和./frontend-logs
- 上传的图片在./uploads这样即使容器重启，数据也不会丢失。

保存文件，按Ctrl+X，然后按Y确认，再按Enter退出。

3.3 下载模型文件

模型文件比较大，我们单独下载。在项目目录下创建一个models文件夹：

mkdir -p models cd models

然后下载模型（大概30GB，需要一些时间，可以去喝杯咖啡）：

wget https://huggingface.co/Qwen/Qwen3.5-35B-A3B-AWQ-4bit/resolve/main/model.safetensors wget https://huggingface.co/Qwen/Qwen3.5-35B-A3B-AWQ-4bit/resolve/main/config.json wget https://huggingface.co/Qwen/Qwen3.5-35B-A3B-AWQ-4bit/resolve/main/tokenizer.json

如果下载速度慢，可以试试用镜像站，或者用其他下载工具。下载完成后，回到项目根目录：

cd ..

3.4 启动服务

最激动人心的时刻到了！运行这条命令：

docker-compose up -d

那个-d参数意思是“后台运行”，这样命令执行完你还能继续用终端。

第一次运行会下载两个镜像（backend和frontend），大概要下载5-10GB的数据。下载完成后会自动启动服务。你可以用这个命令查看进度：

docker-compose logs -f

看到类似这样的输出就说明启动成功了：

backend_1 | INFO 07-15 10:30:45 llm_engine.py:197] Initializing an LLM engine with config: ... backend_1 | INFO 07-15 10:31:20 llm_engine.py:387] # GPU blocks: 496, # CPU blocks: 512 backend_1 | INFO 07-15 10:31:25 llm_engine.py:399] KV cache usage: 0.0% backend_1 | INFO 07-15 10:31:30 model_runner.py:111] Loading weights took: 45.12 sec backend_1 | INFO 07-15 10:31:35 llm_engine.py:599] Starting the LLM engine with 2 workers... frontend_1 | INFO 07-15 10:31:40 server.py:85] Frontend server started on http://0.0.0.0:7860

等个3-5分钟（第一次启动要加载模型，比较慢），服务就完全准备好了。

4. 快速上手：你的第一个图文对话

服务启动好了，现在打开浏览器，输入：

http://你的服务器IP:7860

如果你是在本地电脑上跑的，就输入：

http://localhost:7860

4.1 界面初体验

打开页面，你会看到一个简洁的界面，主要分三个区域：

左侧：图片上传区域，有个大大的“点击上传”按钮
中间：对话历史显示区，你和AI的对话会显示在这里
右侧：输入框和发送按钮，在这里输入你的问题

整个界面很干净，没有太多花哨的东西，重点突出功能。

4.2 第一次对话：从简单开始

我建议你从简单的开始，这样能快速建立信心。找一张清晰的图片，比如：

一张风景照（有山有水有天空）
一张餐桌上的食物照片
一张宠物的照片
一张街景照片

上传图片后，在输入框里问一个简单的问题，比如：

这张图片里有什么？

或者

描述一下这张图片的内容。

点击发送，等个10-20秒（第一次推理会慢一点），AI就会给出回答。你会看到类似这样的回答：

这张图片展示了一个阳光明媚的下午，在一片绿色的草坪上，有一只金毛犬正在追逐一个飞盘。狗狗的表情看起来很兴奋，舌头伸出来，耳朵向后飞。背景有一些树木和蓝天，远处可以看到几个人在散步。整个场景充满了活力和快乐的气氛。

怎么样？是不是很神奇？AI不仅识别出了狗、飞盘、草坪这些物体，还能描述出“表情兴奋”、“充满活力”这样的情感和氛围。

4.3 进阶提问：挖掘更多细节

第一次成功之后，你可以尝试问更具体的问题。还是用同一张图片，接着问：

狗狗是什么品种的？

图片里有多少个人？

天气怎么样？

飞盘是什么颜色的？

AI会根据图片内容回答这些问题。如果图片里确实有这些信息，它一般都能准确回答。

4.4 多轮对话：围绕图片深入交流

这个模型支持多轮对话，也就是说，你可以围绕同一张图片连续问多个问题，AI会记住之前的对话上下文。

比如：你：描述一下这张图片。AI：这是一张城市夜景照片，高楼大厦灯火通明，街道上有车辆行驶。

你：有多少栋高楼？AI：图片中可以看到大约8-10栋较高的建筑。

你：街道上的车多吗？AI：街道上的车辆不算太多，大概有十几辆车，交通比较顺畅。

你：这是什么城市？AI：从建筑风格和夜景特点来看，这可能是上海或香港的夜景，但无法确定具体城市。

注意，如果你换了新图片，建议刷新一下页面，或者等一会儿再问新图片的问题，避免上下文混淆。

5. 实用技巧：让AI更好地为你工作

用了一段时间后，你可能会发现有时候AI的回答不太准确，或者不是你想要的。别急，这很正常。下面分享几个实用技巧，能让AI更好地理解你的需求。

5.1 图片选择技巧

图片质量直接影响AI的理解能力：

清晰度优先：尽量选择清晰、对焦准确的图片。模糊的图片AI也看不清楚。
主体明确：如果想让AI分析某个特定物体，确保这个物体在图片中比较突出。
光线充足：太暗或曝光过度的图片会丢失细节。
避免过于复杂：如果图片里东西太多太杂，AI可能抓不住重点。

5.2 提问技巧

怎么问问题，AI才更容易理解：

从整体到细节：先问“图片里有什么”，再问具体细节。
问题要具体：不要问“这张图怎么样”，要问“图里的女人穿什么颜色的衣服”。
用简单直接的语言：就像跟人说话一样，不用太正式。
一次问一个问题：不要在一句话里塞太多问题。

好的提问示例：

图中有几个人？他们在做什么？
桌上有哪些食物？
背景里的建筑是什么风格的？

不太好的提问：

分析一下这张图（太模糊）
告诉我关于这张图的一切（太宽泛）
这个那个还有那个都是什么（不明确）

5.3 处理复杂图片

有些图片比较特殊，需要一些技巧：

图表、表格类图片：

请读取这个表格中的数据。

或者

把这个图表的主要趋势总结一下。

文字较多的图片（比如文档截图）：

图片中的文字内容是什么？

把第二段话翻译成英文。

多人场景图片：

从左到右描述每个人的穿着。

中间那个人在做什么？

商品图片：

这是什么产品？有什么功能？

估计一下这个产品的价格范围。

5.4 常见问题处理

如果你遇到这些问题，可以这样解决：

问题：AI回答“图片中没有人”，但明明有人可能原因：图片中的人太小，或者光线太暗解决办法：换一张更清晰的图片，或者截图时把人像部分放大

问题：AI识别错了物体可能原因：物体比较模糊，或者不常见解决办法：在问题中给出更多上下文，比如“那个红色的圆形物体是什么？”

问题：回答速度很慢可能原因：图片太大，或者问题太复杂解决办法：压缩一下图片大小（1-2MB比较合适），或者把复杂问题拆成几个简单问题

6. 服务管理：日常维护很简单

服务跑起来之后，总需要一些日常维护。别担心，都很简单。

6.1 查看服务状态

想知道服务是不是在正常运行：

docker-compose ps

这个命令会显示两个服务的状态，应该是“Up”状态。

查看更详细的信息：

docker-compose logs --tail=50

显示最近50条日志，看看有没有错误信息。

6.2 重启服务

如果你修改了配置，或者服务出了点小问题，重启一下：

docker-compose restart

重启所有服务。

如果只想重启其中一个：

docker-compose restart backend # 只重启后端 docker-compose restart frontend # 只重启前端

6.3 停止和启动

暂时不用的时候可以停止服务（不删除容器）：

docker-compose stop

想用的时候再启动：

docker-compose start

6.4 彻底重新部署

如果遇到解决不了的问题，或者想从头开始：

docker-compose down # 停止并删除容器 docker-compose up -d # 重新创建并启动

注意：docker-compose down会删除容器，但不会删除你本地的模型文件、日志文件和上传的图片，因为这些都在挂载的目录里。

6.5 查看资源使用情况

想知道服务占用了多少资源：

docker stats

会显示CPU、内存、网络、磁盘的使用情况。

查看GPU使用情况：

nvidia-smi

6.6 备份重要数据

虽然我们的配置已经把数据挂载到本地了，但定期备份总是个好习惯：

模型文件：在./models目录，这是最大的，一般不用经常备份
日志文件：在./logs和./frontend-logs目录，有问题的时候查日志用
上传的图片：在./uploads目录，如果你需要保存用户上传的图片

备份很简单，直接复制这些目录到其他地方就行。

7. 故障排除：遇到问题怎么办？

即使准备得再充分，有时候还是会遇到问题。别慌，大部分问题都有解决办法。

7.1 服务启动失败

症状：运行docker-compose up -d后，服务很快退出。

可能原因和解决办法：

端口被占用：7860或8000端口已经被其他程序用了
```
sudo lsof -i :7860 sudo lsof -i :8000
```
如果发现有其他程序在用，可以：
- 停止那个程序
- 或者修改docker-compose.yml里的端口映射，比如改成"7861:7860"

显卡驱动问题：Docker访问不到GPU

docker run --rm --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi

如果这个命令报错，说明Docker的GPU支持没装好。需要安装nvidia-docker：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker

显存不足：虽然我们要求双卡24GB，但如果有其他程序在占用显存，也可能不够
```
nvidia-smi
```
查看显存使用情况，确保有足够空闲显存。

7.2 前端能打开，但无法上传图片或提问

症状：浏览器能打开7860端口页面，但上传图片后没反应，或者提问后一直转圈。

可能原因和解决办法：

后端服务没启动成功：
```
docker-compose logs backend
```
查看后端日志，常见问题：
- 模型文件路径不对：检查./models目录下有没有模型文件
- 显卡数量不对：确保是两张卡，且tensor-parallel-size=2
图片太大：默认限制是10MB，如果图片太大会上传失败
- 压缩图片到5MB以下
- 或者修改docker-compose.yml中的MAX_FILE_SIZE环境变量
网络问题：前端无法连接到后端
```
docker exec qwen-frontend curl http://backend:8000/health
```
如果这个命令失败，说明容器间网络有问题。可以尝试重启Docker服务：
```
sudo systemctl restart docker docker-compose up -d
```

7.3 回答质量不高或速度慢

症状：AI回答得不对，或者要等很久才有回答。

可能原因和解决办法：

图片质量问题：图片模糊、光线暗、内容太复杂
- 换一张更清晰的图片
- 如果是文字识别，确保文字清晰可读
问题表述不清：AI没理解你的问题
- 用更简单直接的语言提问
- 把复杂问题拆成几个简单问题
第一次推理慢：模型第一次加载要时间，第一次提问也会慢一些
- 这是正常的，后续提问会快很多
- 耐心等待1-2分钟
硬件性能瓶颈：显卡性能不足
- 确保没有其他程序在大量使用GPU
- 考虑升级硬件（这是最直接的解决办法）

7.4 查看详细日志

当遇到无法解决的问题时，查看详细日志是最有效的调试方法：

后端日志：

docker-compose logs backend --tail=100

前端日志：

docker-compose logs frontend --tail=100

查看容器内部状态：

docker exec -it qwen-backend bash # 进入容器后可以查看进程、测试接口等 curl http://localhost:8000/health

8. 总结：从零到一，其实很简单

回过头来看，我们从头到尾做了这么几件事：

检查环境：确保有合适的显卡和软件
准备配置文件：写了一个docker-compose.yml，定义了整个服务
下载模型：把AI的“大脑”下载到本地
启动服务：一条命令启动所有东西
开始使用：在浏览器里上传图片、问问题、看回答

整个过程最复杂的部分可能就是等待模型下载（30GB确实不小），但实际的操作步骤都很简单。这就是Docker Compose的魅力——把复杂的东西打包起来，让你用最简单的方式使用。

这个部署方案有几个明显的优点：

省心：不用管Python环境、不用管依赖冲突、不用管服务配置，一切都打包好了。稳定：经过测试的双卡方案，避免了单卡不稳定的问题。易维护：日志、数据都挂载到本地，查看和管理都很方便。可扩展：如果以后需要升级，只需要修改配置文件，然后重新部署。

当然，它也有一些限制：

需要两张24GB的显卡，硬件要求不低
模型比较大，第一次启动要等几分钟加载
对于特别复杂的问题，回答可能不够准确

但总的来说，对于大多数图文对话、图片分析的需求，这个方案已经完全够用了。无论是做产品演示、技术研究，还是自己玩一玩，都是一个很好的选择。

最后给个小建议：刚开始用的时候，从简单的图片和问题开始，慢慢熟悉AI的能力边界。就像交新朋友一样，先了解对方擅长什么、不擅长什么，这样合作起来会更愉快。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。