LLM端侧部署实战 | 基于MLC-LLM框架的Qwen大模型Android适配全流程解析-编程阁

1. 为什么要在手机上部署Qwen大模型？

最近两年，大语言模型（LLM）的发展速度简直让人眼花缭乱。从最初的云端部署到现在的端侧落地，技术迭代之快超乎想象。你可能已经习惯了在电脑上使用ChatGPT或者文心一言，但有没有想过，把这些强大的AI能力直接装进你的手机里会是什么体验？

想象一下这样的场景：在地铁上没信号的时候，你依然可以流畅地和AI助手对话；出差在外需要处理文档，不需要联网就能获得专业的写作建议；甚至是在户外探险时，手机就是你的随身知识库。这就是端侧部署的魅力——离线可用、响应迅速、隐私安全。

阿里云的Qwen（通义千问）系列大模型在开源社区一直保持着很高的热度，特别是1.8B这个尺寸的模型，在性能和资源消耗之间取得了不错的平衡。我实测下来，Qwen1.8B在手机端每秒能生成约20个token，日常对话完全够用。

MLC-LLM框架的出现让这一切成为可能。这个由Apache TVM团队推出的工具链，专门解决大模型在各类终端设备上的部署难题。它通过模型编译优化和硬件适配两大核心技术，把原本需要云端GPU集群才能运行的大模型，"瘦身"到了能在手机芯片上流畅运行的程度。

2. 环境准备：搭建开发环境

2.1 基础工具安装

工欲善其事，必先利其器。在开始模型转换之前，我们需要准备好以下工具链：

Android SDK和NDK：这是Android开发的基石。建议直接下载命令行工具包，避免安装臃肿的Android Studio。配置时要注意设置好环境变量：
```
export ANDROID_HOME=/path/to/android-sdk export ANDROID_NDK=/path/to/android-ndk export PATH=$PATH:$ANDROID_HOME/tools:$ANDROID_HOME/platform-tools
```
Java开发环境：Gradle构建需要JDK 8或以上版本。我推荐使用OpenJDK：
```
sudo apt install openjdk-11-jdk export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
```

Rust工具链：MLC-LLM的部分组件是用Rust编写的。安装时建议换用国内镜像加速：

export RUSTUP_DIST_SERVER=https://mirrors.tuna.tsinghua.edu.cn/rustup curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

2.2 MLC-LLM环境配置

MLC-LLM的安装其实比想象中简单。我建议直接克隆官方仓库并安装Python依赖：

git clone --recursive https://github.com/mlc-ai/mlc-llm.git cd mlc-llm pip install -r requirements.txt

这里有个小坑要注意：TVM的依赖可能会和系统已有环境冲突。我建议使用conda创建独立环境：

conda create -n mlc-llm python=3.10 conda activate mlc-llm

3. 模型转换与编译

3.1 权重格式转换

Qwen官方提供的模型通常是Hugging Face格式的，我们需要先转换成MLC-LLM能识别的格式。这里以Qwen1.5-1.8B-Chat模型为例：

MODEL_NAME=Qwen1.5-1.8B-Chat QUANTIZATION=q4f16_1 # 4-bit量化，FP16精度 mlc_llm convert_weight /path/to/$MODEL_NAME \ --quantization $QUANTIZATION \ -o dist/$MODEL_NAME-$QUANTIZATION-MLC/

这个步骤会把原始模型转换为更适合移动端运行的量化版本。q4f16_1表示使用4-bit量化，同时保留部分关键参数为FP16精度，能在保证精度的同时显著减小模型体积。转换完成后，你会在dist目录下看到新生成的模型文件。

3.2 配置文件生成

接下来需要为模型生成运行时配置文件：

mlc_llm gen_config /path/to/$MODEL_NAME \ --quantization $QUANTIZATION \ --model-type qwen2 \ --conv-template chatml \ --context-window-size 4096 \ -o dist/${MODEL_NAME}-${QUANTIZATION}-MLC/

这里有几个关键参数需要注意：

--model-type qwen2：指定模型架构版本
--conv-template chatml：使用Qwen的对话模板
--context-window-size 4096：设置上下文窗口大小

生成的mlc-chat-config.json文件包含了模型的所有超参数。我建议打开这个文件检查一下，特别是context_window_size和prefill_chunk_size这两个值，它们直接影响模型的内存占用。

3.3 模型编译

最后一步是将模型编译为Android可用的格式：

mkdir -p dist/libs mlc_llm compile dist/${MODEL_NAME}-${QUANTIZATION}-MLC/mlc-chat-config.json \ --device android \ -o dist/libs/${MODEL_NAME}-${QUANTIZATION}-android.tar

编译过程可能会花费10-30分钟，取决于你的机器性能。完成后会生成一个tar包，里面包含了优化后的模型和运行时库。

4. 构建Android应用

4.1 配置应用参数

MLC-LLM提供了现成的Android示例代码，我们只需要稍作修改。首先编辑app-config.json：

{ "model_list": [ { "model_url": "https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat", "model_lib": "qwen2_q4f16_1", "estimated_vram_bytes": 4348727787, "model_id": "Qwen1.5-1.8B-Chat-q4f16_1" } ], "model_lib_path_for_prepare_libs": { "qwen2_q4f16_1": "libs/Qwen1.5-1.8B-Chat-q4f16_1-android.tar" } }

特别注意model_id字段，后续部署模型时目录名必须与此完全一致，否则应用会找不到模型。

4.2 准备Native库

执行以下命令准备运行库：

cd android/library ./prepare_libs.sh

这个脚本会自动下载和编译所需的Rust组件。如果遇到网络问题，可以像之前一样设置Rust镜像源。完成后会在目录下生成必要的.so库文件。

4.3 Gradle配置技巧

为了加快构建速度，我建议修改gradle-wrapper.properties，使用本地gradle分发包：

distributionBase=GRADLE_USER_HOME distributionPath=wrapper/dists distributionUrl=gradle-8.5-bin.zip zipStoreBase=GRADLE_USER_HOME zipStorePath=wrapper/dists

把下载好的gradle-8.5-bin.zip放在android/gradle/wrapper目录下即可。

4.4 编译APK

最后执行构建命令：

cd .. ./gradlew assembleDebug

生成的APK位于app/build/outputs/apk/debug/app-debug.apk。如果一切顺利，你现在已经拥有了一个能在Android设备上运行Qwen大模型的应用程序。

5. 部署与优化技巧

5.1 安装与模型部署

使用adb安装APK：

adb install app-debug.apk

然后部署模型文件到手机：

adb push Qwen1.5-1.8B-Chat-q4f16_1 /data/local/tmp/ adb shell "mkdir -p /storage/emulated/0/Android/data/ai.mlc.mlcchat/files/" adb shell "mv /data/local/tmp/Qwen1.5-1.8B-Chat-q4f16_1 /storage/emulated/0/Android/data/ai.mlc.mlcchat/files/"

这里有个实用技巧：如果模型文件很大，可以先用zip压缩，在手机上解压，节省传输时间。