Qwen3.5本地部署终极指南，Qwen3.5-27B-编程阁

Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑一文中测试了，十分建议：首选 Qwen3.5-27B，无论是官方benchmark测评还是其他网友评价，都支持这一结论

Qwen3.5 全阵容：阿里这次玩了个大的

阿里最新发布的 Qwen3.5，不再只是单个模型，而是一整个军团：

型号	类型	总参数	激活参数	定位
Qwen3.5-27B	Dense	27B	27B	稳扎稳打型
Qwen3.5-35B-A3B	MoE	35B	3B	极速小钢炮
Qwen3.5-122B-A10B	MoE	122B	10B	中杯选手
Qwen3.5-397B-A17B	MoE	397B	17B	旗舰巨兽

两个关键词：混合推理+MoE 架构。

混合推理意味着支持 thinking 和 non-thinking 双模式，想深度思考就开 thinking，想快速对话就关掉，成年人全都要。

MoE 架构让 397B 参数的模型只激活 17B，推理速度飞快，显存占用远小于同等性能的 Dense 模型。和 DeepSeek R1 的 671B-A37B 相比，Qwen3.5-397B-A17B 参数更少、激活更少，但性能几乎平起平坐——还得是阿里。

其他核心指标：

256K 上下文窗口（可扩展到 1M）
201 种语言支持
文本、视觉、视频、Agent、工具调用全覆盖

性能到底有多猛？直接上数据

旗舰 397B-A17B 对标闭源巨头

直接看最硬核的 Benchmark 对比：

Benchmark	GPT-5.2	Claude 4.5 Opus	Gemini-3 Pro	Qwen3.5-397B
MMLU-Pro	87.4	89.5	89.8	87.8
GPQA Diamond	92.4	87.0	91.9	88.4
AIME26	96.7	93.3	90.6	91.3
SWE-bench Verified	80.0	80.9	76.2	76.4
TAU2-Bench	87.1	91.6	85.4	86.7
IFBench	75.4	58.0	70.4	76.5
BrowseComp	65.8	67.8	59.2	78.6

说实话，Qwen3.5-397B 在多项搜索 Agent、指令遵循、多语言任务上已经超过了 GPT-5.2 和 Claude Opus 4.5。特别是 BrowseComp 搜索评测拿到了 78.6 分，直接碾压 GPT-5.2 的 65.8 分和 Claude 的 67.8 分。MultiChallenge 指令遵循测试 67.6 分也是所有模型中最高的。

IFBench 指令遵循 76.5 分，反超 GPT-5.2 的 75.4 和 Claude 的 58.0——阿里在指令遵循这块确实下了狠功夫。

当然，在纯数学推理（AIME26、HMMT）和代码（SWE-bench、LiveCodeBench）上，和 GPT-5.2 还有差距。但考虑到这是一个开源模型，能跟闭源三巨头正面硬刚到这种程度，真香。

和 vLLM 或者 SGLang 部署的在线 API 不同，这里 Unsloth 提供的是量化后本地跑的方案，适合没有 H100 集群的普通玩家。

Unsloth 量化后精度损失有多少？

第三方评测人 Benjamin Marie 用 750 道混合题（LiveCodeBench v6、MMLU Pro、GPQA、Math500）测试了 Qwen3.5-397B 的量化版：

版本	准确率	精度损失	磁盘大小
原始 FP16	81.3%	—	~807GB
UD-Q4_K_XL (4-bit)	80.5%	-0.8%	~214GB
UD-Q3_K_XL (3-bit)	80.7%	-0.6%	~160GB

4-bit 量化只掉了 0.8 个百分点，3-bit 甚至只掉了 0.6 个百分点。也就是说，你用不到原来 1/4 的存储空间，就能获得 99% 的性能。这就是 Unsloth Dynamic 2.0 量化技术的杀疯了之处——重要的层会被自动提升到 8-bit 甚至 16-bit，而不是一刀切全部压缩。

你的设备能跑哪个？硬件需求速查

这是最实际的部分，别收藏了不看：

型号	4-bit 量化	8-bit 量化	原始 FP16
Qwen3.5-27B	17 GB	30 GB	54 GB
Qwen3.5-35B-A3B	22 GB	38 GB	70 GB
Qwen3.5-122B-A10B	70 GB	132 GB	245 GB
Qwen3.5-397B-A17B	214 GB	512 GB	810 GB

翻译成人话：

有一张24GB 显卡（比如 4090）？→ 跑Qwen3.5-27B或35B-A3B，后者 MoE 推理更快
Mac M 系列 70GB+ 统一内存？→ 可以冲122B-A10B
256GB M3 Ultra Mac？→ 直接上旗舰397B-A17B的 4-bit 版
192GB RAM 设备？→ 跑 397B 的 3-bit 版，也毫无问题

27B 和 35B-A3B 怎么选？如果追求准确率，选 27B。如果追求推理速度，选 35B-A3B。后者因为 MoE 架构只激活 3B 参数，速度会快得多。

极简部署：复制粘贴就能跑

方案一：llama.cpp 直接起飞（推荐）

以 Qwen3.5-35B-A3B 为例，这是 24GB 显卡/内存用户的最佳选择：

1. 编译 llama.cpp

代码语言：javascript

AI代码解释

# 安装依赖并编译（有 GPU 用 CUDA=ON，纯 CPU 改成 OFF） apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j \ --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp

2. 一键运行（Thinking 模式）

代码语言：javascript

AI代码解释

# 精确编码任务用这个（temperature=0.6，更稳定） export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \ --ctx-size 16384 \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00

代码语言：javascript

AI代码解释

# 通用任务用这个（temperature=1.0，更有创意） export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \ --ctx-size 16384 \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --min-p 0.00

3. 非思考模式（更快响应）

代码语言：javascript

AI代码解释

# 不需要深度推理时，关掉 thinking 模式 export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \ --ctx-size 16384 \ --temp 0.7 \ --top-p 0.8 \ --top-k 20 \ --min-p 0.00 \ --chat-template-kwargs "{\"enable_thinking\": false}"

方案二：先下载模型再运行

如果网络不稳定，可以先把模型文件下载到本地：

代码语言：javascript

AI代码解释

# 安装下载工具 pip install huggingface_hub hf_transfer # 下载 4-bit 量化版（Dynamic MXFP4_MOE，约 22GB） hf download unsloth/Qwen3.5-35B-A3B-GGUF \ --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \ --include "*MXFP4_MOE*" # 如果想下 2-bit 超压缩版： # --include "*UD-Q2_K_XL*" # 运行模型 ./llama.cpp/llama-cli \ --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-MXFP4_MOE.gguf \ --seed 3407 \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01 \ --top-k 40

方案三：部署为 API 服务（生产推荐）

想搭建一个兼容 OpenAI 接口的本地服务？用llama-server：

代码语言：javascript

AI代码解释

# 启动服务（以 397B 为例） ./llama.cpp/llama-server \ --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \ --alias "unsloth/Qwen3.5-397B-A17B" \ --temp 0.6 \ --top-p 0.95 \ --ctx-size 16384 \ --top-k 20 \ --min-p 0.00 \ --port 8001

然后用 Python 调用：

代码语言：javascript

AI代码解释

from openai import OpenAI openai_client = OpenAI( base_url="http://127.0.0.1:8001/v1", api_key="sk-no-key-required", ) completion = openai_client.chat.completions.create( model="unsloth/Qwen3.5-397B-A17B", messages=[{"role": "user", "content": "Create a Snake game."}], ) print(completion.choices[0].message.content)

这样就完全兼容 OpenAI 的 API 格式了，之前用 OpenAI SDK 写的代码直接无缝切换。

推理参数怎么调？官方推荐设置

Qwen3.5 支持混合推理，thinking 和 non-thinking 模式的参数不一样，别搞混了：

Thinking 模式（深度推理）

参数	精确编码	通用任务
temperature	0.6	1.0
top_p	0.95	0.95
top_k	20	20
min_p	0.0	0.0
presence_penalty	0.0	1.5

Non-Thinking 模式（快速响应）

参数	通用任务	推理任务
temperature	0.7	1.0
top_p	0.8	0.95
top_k	20	20
min_p	0.0	0.0
presence_penalty	1.5	1.5

⚠️ 最大上下文 262,144 tokens，推荐输出长度 32,768 tokens。但注意，开大上下文很吃内存，24GB 显存建议--ctx-size 16384。

工具调用：本地 Agent 的基础

Qwen3.5 原生支持 function calling，配合 llama-server 可以直接做本地 Agent。这意味着你可以让模型调用 Python 脚本、执行终端命令、查询数据库，而不只是对话。

和 Ollama 的工具调用相比，直接用 llama-server + OpenAI SDK 的方案更灵活，自定义能力更强。如果你只是想快速体验，Ollama 更省心；如果要做生产级的 Agent，还是走 llama-server 这条路。

不同尺寸怎么选？老章建议

你的场景	推荐型号	理由
日常对话、轻量代码	35B-A3B	MoE 架构，速度飞快，24GB 就能跑
追求准确性、做题答卷	27B	Dense 架构更稳定，17GB 起步
企业级多任务	122B-A10B	甜点级的性价比，70GB 内存搞定
硬核玩家、对标闭源	397B-A17B	旗舰性能，256GB Mac 直接上