VMware虚拟机安装教程：搭建阿里小云KWS开发环境-编程阁

VMware虚拟机安装教程：搭建阿里小云KWS开发环境

1. 为什么选择虚拟机来跑语音唤醒模型

刚开始接触语音唤醒开发时，我试过直接在笔记本上装环境，结果折腾了三天——CUDA版本冲突、PyTorch和ModelScope不兼容、音频库依赖报错……最后连第一个demo都没跑通。后来换用VMware虚拟机，整个过程变得特别顺滑：系统干净、环境隔离、配置可复现，最重要的是，随时可以回滚到初始状态。

语音唤醒（KWS）这类AI任务对环境要求其实挺“娇气”的：需要特定版本的CUDA、匹配的PyTorch、音频处理库的底层依赖，还有ModelScope框架本身的兼容性。物理机上装多了项目，很容易出现“这个模型能跑，那个就报错”的尴尬局面。而虚拟机就像一个独立的小房间，你想怎么配就怎么配，不会影响主机系统，也不用担心把开发环境搞崩。

这篇文章不是讲“理论上的最佳实践”，而是记录我从零开始，在VMware里一步步搭好阿里小云语音唤醒开发环境的真实过程。所有步骤都经过实测，命令复制粘贴就能用，遇到的坑也都会提前告诉你怎么绕开。

2. 环境准备与VMware快速部署

2.1 下载与安装VMware Workstation

首先确认你的电脑支持虚拟化（Intel VT-x 或 AMD-V），大多数近五年内的笔记本都默认开启，可以在BIOS里检查。接着去VMware官网下载Workstation Pro（学生和教师可申请免费许可）或使用免费的VMware Workstation Player。

安装过程很常规，一路下一步就行。唯一要注意的是：安装时勾选“VMware Tools”组件，它能大幅提升虚拟机的性能和体验，比如让鼠标在主机和虚拟机之间自由穿梭、共享文件夹、自动调整分辨率等。

2.2 创建Ubuntu虚拟机（推荐20.04 LTS）

我们选用Ubuntu 20.04 LTS，原因很实在：ModelScope官方训练套件明确标注支持该系统，且长期维护，稳定性高。别贪新用22.04或24.04，省得后期为兼容性问题头疼。

分配资源：给虚拟机至少4核CPU、8GB内存、50GB硬盘空间。语音唤醒训练虽不需顶级显卡，但如果你有NVIDIA GPU，记得在VMware设置里启用3D加速，并安装NVIDIA驱动（后文详述）。
安装ISO：从ubuntu.com下载ubuntu-20.04.6-desktop-amd64.iso，挂载到虚拟机光驱。
安装过程：启动后选择“Install Ubuntu”，语言选中文，磁盘分区选“清除整个磁盘并安装Ubuntu”（新手最安全），其他保持默认。用户名设为kwsdev，密码自己记住就行。

安装完成后重启，进入桌面。这时先别急着装AI环境，做两件关键小事：

# 更新系统（这步不能跳！） sudo apt update && sudo apt upgrade -y # 安装基础工具（后续会频繁用到） sudo apt install -y git curl wget vim net-tools htop

2.3 配置网络与共享文件夹

语音唤醒开发常需下载模型、上传音频、调试代码，网络和文件交换必须顺畅。

网络模式选NAT：这是最省心的选择。虚拟机通过主机上网，能访问ModelScope、GitHub等所有外部资源，同时又不会暴露在局域网中，安全性好。
开启共享文件夹：在VMware菜单栏选择“虚拟机 → 设置 → 选项 → 共享文件夹”，添加一个主机上的文件夹（比如D:\kws_project），勾选“启用共享文件夹”。在Ubuntu里，它会自动挂载到/mnt/hgfs/kws_project。这样你就可以在Windows里用VS Code编辑代码，保存后Ubuntu里立刻生效。

小技巧：如果/mnt/hgfs下看不到共享文件夹，运行这条命令手动挂载：
sudo vmhgfs-fuse .host:/ /mnt/hgfs -o allow_other -o uid=1000

3. 搭建KWS核心开发环境

3.1 安装CUDA与cuDNN（GPU加速必备）

即使只是本地测试，GPU也能让模型推理快3-5倍。我们装CUDA 11.3（ModelScope KWS套件官方推荐版本），避免踩新版兼容性坑。

# 下载CUDA 11.3 runfile（官网找Archive版本） wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run # 赋予执行权限并静默安装（不装驱动，只装toolkit） sudo chmod +x cuda_11.3.1_465.19.01_linux.run sudo ./cuda_11.3.1_465.19.01_linux.run --silent --toolkit --override # 配置环境变量（写入~/.bashrc） echo 'export PATH=/usr/local/cuda-11.3/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc # 验证安装 nvcc --version # 应显示 CUDA release 11.3

避坑提醒：如果提示command not found: nvcc，说明环境变量没生效，重新执行source ~/.bashrc；若安装时提示“Driver installation failed”，别慌——我们只要toolkit，忽略驱动安装即可。

3.2 配置Python环境与依赖库

用conda管理Python环境是语音AI开发的黄金标准，它能完美隔离不同项目的依赖。

# 下载并安装Miniconda（轻量版Anaconda） wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3 $HOME/miniconda3/bin/conda init bash source ~/.bashrc # 创建专用环境（Python 3.7是ModelScope官方要求） conda create -n kws_env python=3.7 -y conda activate kws_env # 升级pip（老版本pip常装不上新包） python -m pip install --upgrade pip # 安装PyTorch 1.11（CUDA 11.3对应版本） pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113 # 安装音频处理核心依赖（重点！很多教程漏掉这步） sudo apt install -y libsndfile1-dev libasound-dev portaudio19-dev pip install soundfile pyaudio # 最后安装ModelScope语音套件 pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

3.3 验证环境是否跑通

写个最简脚本，测试能否成功加载阿里小云唤醒模型：

# 文件名：test_kws.py from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks # 加载小云唤醒模型（会自动下载） kws_pipeline = pipeline( task=Tasks.keyword_spotting, model='damo/speech_charctc_kws_phone-xiaoyun' ) # 测试一段在线音频（无需本地文件） result = kws_pipeline('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/pos_testset/kws_xiaoyunxiaoyun.wav') print("唤醒检测结果：", result)

运行它：

python test_kws.py

如果看到类似{'text': '小云小云', 'score': 0.92}的输出，恭喜！你的KWS开发环境已成功点亮。第一次运行会下载约300MB模型，耐心等待即可。

4. 实战：运行小云唤醒模型与本地音频调试

4.1 用麦克风实时唤醒（最接近真实场景）

上面的测试用了网络音频，但实际开发肯定要接麦克风。Ubuntu默认可能没开麦克风权限，先检查：

# 查看音频设备 arecord -l # 测试录音（按Ctrl+C停止） arecord -d 5 -f cd test-mic.wav # 播放验证 aplay test-mic.wav

如果录音无声，打开“设置 → 声音 → 输入”，把输入源切到你的物理麦克风（不是“虚拟麦克风”）。然后用以下脚本实现“说‘小云小云’就触发”：

# 文件名：mic_wakeup.py import pyaudio import numpy as np from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks # 初始化唤醒管道 kws = pipeline(Tasks.keyword_spotting, model='damo/speech_charctc_kws_phone-xiaoyun') # 音频流参数 CHUNK = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 16000 p = pyaudio.PyAudio() stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK) print("开始监听... 请说'小云小云'") try: while True: data = stream.read(CHUNK, exception_on_overflow=False) audio_array = np.frombuffer(data, dtype=np.int16) # 直接传入numpy数组（比保存wav再读取快得多） result = kws(audio_array) if result and result.get('text') == '小云小云': print(f" 唤醒成功！置信度：{result['score']:.3f}") # 这里可以加后续动作，比如启动ASR识别 except KeyboardInterrupt: print("\n监听结束") finally: stream.stop_stream() stream.close() p.terminate()

运行python mic_wakeup.py，对着麦克风说“小云小云”，应该立刻看到唤醒成功的提示。如果反应慢，调大CHUNK值（如2048）可降低延迟。

4.2 本地音频文件批量测试

开发中常需用一批录音测试模型鲁棒性。假设你有一批.wav文件放在~/kws_data/test/目录下：

# 创建测试目录并下载示例音频（可选） mkdir -p ~/kws_data/test cd ~/kws_data/test wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/pos_testset/kws_xiaoyunxiaoyun.wav wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/neg_testset/noise_001.wav

用这个脚本批量跑：

# 文件名：batch_test.py import os import glob from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks kws = pipeline(Tasks.keyword_spotting, model='damo/speech_charctc_kws_phone-xiaoyun') test_dir = os.path.expanduser("~/kws_data/test") wav_files = glob.glob(os.path.join(test_dir, "*.wav")) print(f"共找到 {len(wav_files)} 个音频文件") for wav_path in wav_files: try: result = kws(wav_path) status = " 唤醒" if result and result.get('text') == '小云小云' else " 未唤醒" score = f"{result['score']:.3f}" if result else "N/A" print(f"{os.path.basename(wav_path):<25} {status:<10} 置信度: {score}") except Exception as e: print(f"{os.path.basename(wav_path):<25} 错误: {str(e)[:30]}")

运行后你会得到一份清晰的测试报告，快速定位哪些音频容易误唤醒或拒识。

5. 进阶技巧：提升开发效率与稳定性

5.1 用Docker镜像一键复现（团队协作利器）

如果你需要把环境分享给同事，或者在多台机器上部署，手动配置太费时。ModelScope官方提供了预装好的Docker镜像，一行命令搞定：

# 拉取GPU版镜像（CPU版把cuda11.3换成ubuntu20.04） docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.1.0 # 启动容器（映射端口和文件夹） docker run -it \ --gpus all \ -v /home/kwsdev/kws_project:/workspace \ -p 8888:8888 \ registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.1.0

进入容器后，所有依赖已就绪，直接运行python test_kws.py即可。这种方案彻底消灭了“在我机器上是好的”这类问题。

5.2 解决常见报错与性能优化

在真实开发中，我遇到最多的三个问题及解法：

问题1：OSError: sndfile library not found
这是soundfile库找不到底层依赖。解决：sudo apt install libsndfile1，然后重启Python环境。
问题2：麦克风输入有杂音或延迟高
在VMware设置里，把“USB控制器”升级到USB 3.0，并在虚拟机设置中勾选“声卡 → 启用声卡”。Ubuntu内运行pavucontrol（安装命令：sudo apt install pavucontrol），在“录制”标签页把输入源设为“Monitor of Built-in Audio Analog Stereo”，这能捕获系统播放的声音，适合调试。
问题3：模型加载慢或显存不足
小云模型本身不大，但PyTorch默认会占满GPU显存。加一行代码限制显存：
```
import os os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:128"
```

5.3 从开发到部署的一点思考

搭好环境只是第一步。真正落地时，你会发现：在虚拟机里跑通的模型，放到树莓派或嵌入式设备上可能完全不行。这是因为小云模型虽轻量，但仍需一定算力。我的建议是——把虚拟机当作“开发沙盒”，专注算法调试和数据验证；而部署阶段，优先考虑ModelScope提供的Web API或边缘SDK（如FunASR的轻量化版本），它们专为资源受限设备优化。

另外，唤醒词不只是“小云小云”，ModelScope支持自定义。比如你想改成“小智小智”，只需微调模型（官方有详细教程），而不是重头训练。这大大降低了二次开发门槛。