Qwen3-Embedding-4B部署教程:WSL2+Ubuntu 22.04环境下CUDA加速完整步骤
1. 项目概述
Qwen3-Embedding-4B是阿里通义千问系列中的文本嵌入模型,能够将文本转换为高维向量表示。本教程将指导您在WSL2+Ubuntu 22.04环境下,使用CUDA加速部署基于该模型的语义搜索服务。
这个语义搜索演示服务具有以下特点:
- 采用先进的文本向量化技术
- 使用余弦相似度进行语义匹配
- 支持自定义知识库构建
- 提供可视化交互界面
- 强制启用GPU加速计算
2. 环境准备
2.1 系统要求
在开始部署前,请确保您的系统满足以下要求:
- Windows 10/11 64位系统(版本2004或更高)
- 已启用WSL2功能
- NVIDIA显卡(建议RTX 2060或更高)
- 已安装最新版NVIDIA驱动
- 至少16GB内存
- 50GB可用磁盘空间
2.2 安装WSL2和Ubuntu 22.04
如果您尚未安装WSL2和Ubuntu 22.04,请按以下步骤操作:
- 以管理员身份打开PowerShell
- 运行以下命令启用WSL功能:
wsl --install - 设置WSL2为默认版本:
wsl --set-default-version 2 - 从Microsoft Store安装Ubuntu 22.04 LTS
2.3 安装CUDA工具包
- 在Ubuntu终端中更新系统:
sudo apt update && sudo apt upgrade -y - 安装CUDA工具包:
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda-repo-wsl-ubuntu-12-2-local_12.2.2-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-12-2-local_12.2.2-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda
3. 项目部署
3.1 克隆项目仓库
- 在Ubuntu终端中运行:
git clone https://github.com/Qwen/Qwen-Embedding.git cd Qwen-Embedding
3.2 创建Python虚拟环境
- 安装Python虚拟环境工具:
sudo apt install python3-venv -y - 创建并激活虚拟环境:
python3 -m venv venv source venv/bin/activate
3.3 安装依赖项
- 安装PyTorch与CUDA支持:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 - 安装其他依赖项:
pip install -r requirements.txt
4. 模型下载与配置
4.1 下载Qwen3-Embedding-4B模型
- 从Hugging Face下载模型:
git lfs install git clone https://huggingface.co/Qwen/Qwen3-Embedding-4B
4.2 配置模型路径
- 修改配置文件
config.py:MODEL_PATH = "Qwen3-Embedding-4B" DEVICE = "cuda"
5. 启动语义搜索服务
5.1 运行Streamlit应用
- 启动服务:
streamlit run app.py - 服务启动后,终端会显示访问URL,通常为:
http://localhost:8501
5.2 使用语义搜索服务
- 在浏览器中打开显示的URL
- 等待模型加载完成(侧边栏显示" 向量空间已展开")
- 在左侧"知识库"区域输入或修改文本(每行一条)
- 在右侧"语义查询"输入框中输入查询内容
- 点击"开始搜索 "按钮查看结果
6. 常见问题解决
6.1 CUDA不可用问题
如果遇到CUDA不可用的情况,请检查:
- 确认NVIDIA驱动已正确安装:
nvidia-smi - 确认CUDA版本:
nvcc --version - 确认PyTorch能识别CUDA:
python -c "import torch; print(torch.cuda.is_available())"
6.2 内存不足问题
如果遇到内存不足错误:
- 尝试减少知识库中的文本数量
- 关闭其他占用GPU资源的程序
- 考虑升级显卡或增加系统内存
7. 总结
通过本教程,您已经成功在WSL2+Ubuntu 22.04环境下部署了基于Qwen3-Embedding-4B的语义搜索服务。这个服务能够:
- 将文本转换为高维向量表示
- 实现基于语义而非关键词的搜索
- 利用GPU加速计算过程
- 提供直观的可视化界面
您可以通过修改知识库内容来测试不同场景下的语义匹配效果,探索大模型在文本理解方面的强大能力。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。