小红书美食搜索自动化？Open-AutoGLM一键执行部署教程-编程阁

小红书美食搜索自动化？Open-AutoGLM一键执行部署教程

你有没有试过：想在小红书找一家附近新开的川菜馆，却要反复点开App、输入关键词、翻页筛选、对比图片和评论……整个过程耗时又费眼？更别提还要手动截图发给朋友问意见。如果手机能听懂你一句话，比如“打开小红书搜最近3公里内评分4.8以上的火锅店”，然后自动完成打开App、输入搜索词、滑动浏览、甚至截图保存——这还是科幻吗？

不是。Open-AutoGLM 就是让这件事今天就能跑起来的工具。

它不是另一个大模型API调用库，而是一套真正“能动手”的AI手机智能助理框架。由智谱开源，专为移动端任务自动化设计，核心能力就一句话：看得到、想得清、动得了。它把视觉理解、语言推理和设备操控三件事串成一条流水线，中间不靠人工干预，只靠你一句自然语言指令。

这篇文章不讲论文、不堆参数，只带你从零开始，在自己电脑上连上真机，5分钟内让AI替你打开小红书、搜美食、刷结果——全程可复现、可调试、可扩展。哪怕你没写过ADB命令，也没碰过vLLM，只要照着做，就能亲眼看到AI在你手机屏幕上“自己点、自己输、自己滑”。

1. 先搞懂它到底是什么：不是模型，是会干活的AI助手

很多人第一眼看到“AutoGLM”会下意识以为是又一个语言模型。其实不然——AutoGLM-Phone 是一个端到端的AI Agent框架，它的角色更像一位“数字手艺人”：眼睛是手机屏幕截图（多模态视觉输入），脑子是云端运行的轻量级视觉语言模型（autoglm-phone-9b），双手是ADB指令（点击、滑动、输入、返回）。

它和传统自动化工具（比如Tasker或Appium脚本）有本质区别：

不用写规则逻辑：你不需要定义“先点首页图标→再点搜索框→再输入‘火锅’→再点搜索按钮”。你只说“搜火锅”，AI自己拆解动作。
能看懂界面：不是靠坐标或控件ID硬匹配，而是用视觉语言模型实时理解当前屏幕内容——比如识别出“搜索框”在哪、“关注”按钮长什么样、“笔记卡片”包含哪些信息。
支持动态决策：遇到登录弹窗、验证码、权限请求等不确定场景，它会暂停并提示你人工接管，而不是直接报错崩溃。

Phone Agent 就是基于这个框架构建的完整可用版本。它把所有底层能力打包成清晰接口：屏幕感知 → 意图解析 → 动作规划 → ADB执行 → 结果反馈。你下达指令后，它会在后台默默完成一整套“观察-思考-行动”闭环，最后把结果（比如截图、文字摘要、操作日志）交还给你。

你可以把它理解成：给你的安卓手机配了一个随叫随到、看得懂、想得明、干得利索的AI副驾驶。

2. 硬件与环境准备：三步搞定本地控制端

部署Open-AutoGLM不需要GPU服务器，也不需要Root手机。你只需要一台日常使用的电脑（Windows/macOS均可）、一部安卓真机（Android 7.0+），以及一个稳定的网络连接。

2.1 本地电脑基础配置

操作系统：Windows 10/11 或 macOS Monterey 及以上
Python 版本：强烈建议使用 Python 3.10（实测兼容性最好，避免3.12中部分依赖冲突）
ADB 工具：Android SDK Platform-Tools（官网下载地址）

验证是否装好：打开终端（Windows用CMD/PowerShell，macOS用Terminal），输入adb version。如果返回类似Android Debug Bridge version 1.0.41的信息，说明已就绪。

Windows 环境变量配置（简明版）

下载平台工具压缩包，解压到例如C:\platform-tools
Win + R→ 输入sysdm.cpl→ “高级”选项卡 → “环境变量”
在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
重启终端，再次运行adb version

macOS 快速配置（一行命令）

# 假设你把 platform-tools 解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

2.2 安卓手机设置：三步打开“被控制权”

别担心“开发者模式”听起来很技术——它只是安卓系统里一个隐藏开关，开启后才能让电脑真正操控你的手机。

开启开发者选项
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示
启用USB调试
返回设置主界面 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
首次开启时，手机会弹出授权对话框，请勾选“始终允许”，并点击“确定”
安装并启用 ADB Keyboard（关键！）
- 下载 ADB Keyboard APK（推荐 v1.1）
- 用USB线安装到手机（或通过微信/QQ传过去安装）
- 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”
这一步决定了AI能否“打字”。没有它，模型可以点、可以滑，但无法输入搜索词。

3. 部署控制端：克隆、安装、连接，三行命令起步

Open-AutoGLM 的控制端代码完全开源，结构清晰，无隐藏依赖。我们不编译、不改源码，纯命令行操作。

3.1 下载与安装

打开终端，依次执行：

# 1. 克隆仓库（国内用户建议加 --depth=1 加速） git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免污染全局Python） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖（含核心ADB封装与HTTP客户端） pip install -r requirements.txt pip install -e .

提示：pip install -e .表示以“开发模式”安装，后续你修改代码（比如调整日志级别、加个截图保存）会立即生效，无需重复安装。

3.2 连接你的手机：USB or WiFi？两种都教

确保手机已通过USB线连接电脑，并且已授权调试。运行：

adb devices

正常输出应类似：

List of devices attached ZY322FDQ67 device

其中ZY322FDQ67就是你的设备ID，后面要用到。

如果你想无线控制（推荐用于长期调试）

先用USB线连接，执行：
```
adb tcpip 5555
```
拔掉USB线，确保手机和电脑在同一WiFi下
查看手机IP（设置 → 关于手机 → 状态 → IP地址），假设是192.168.1.105
连接WiFi设备：
```
adb connect 192.168.1.105:5555
```

成功后adb devices会显示192.168.1.105:5555 device。断开USB后仍可稳定控制约10–15分钟，超时可重连。

4. 启动AI代理：一句话让AI开始干活

Open-AutoGLM 默认不自带大模型服务——它是一个“指挥官”，需要你提供一个已部署好的视觉语言模型API端点（即--base-url）。你可以选择：

使用官方提供的云服务（需申请API Key）
自建 vLLM + Qwen-VL 或 AutoGLM-Phone 模型服务（本文不展开，但文末有资源指引）
本地快速体验：用 HuggingFace 的免费 Spaces 演示服务（如https://autoglm-phone.hf.space/v1，仅限测试）

我们以本地快速验证为例（假设你已部署好服务，监听在http://localhost:8800/v1）：

python main.py \ --device-id ZY322FDQ67 \ --base-url http://localhost:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索‘北京朝阳区私房菜’，截取前三条笔记的标题和点赞数"

执行后，你会看到终端实时打印日志：

[INFO] 截图已保存至 ./screenshots/20240522_142211.png [INFO] 视觉理解完成：检测到搜索框、底部导航栏、‘发现’标签 [INFO] 意图解析：需启动小红书 → 点击搜索框 → 输入“北京朝阳区私房菜” → 点击搜索 → 滑动查看结果 [INFO] 执行动作：tap(520, 1890) → input_text("北京朝阳区私房菜") → tap(960, 180) [INFO] 成功获取3条笔记：《藏在胡同里的川味》（2.4w赞）、《老板娘手写菜单》（1.8w赞）...

同时，你的手机屏幕会真实发生以下动作：
自动解锁（如已锁屏）
启动小红书App
点击顶部搜索框
输入“北京朝阳区私房菜”
点击搜索按钮
向下滑动浏览前3条笔记
截图并返回结果

整个过程无需你触碰手机，就像看着另一个“你”在操作。

5. 更灵活的调用方式：不只是命令行

如果你计划把它集成进自己的工作流（比如每天自动抓取竞品笔记、批量测试App UI），命令行就不够用了。Open-AutoGLM 提供了干净的 Python API，支持远程连接、设备管理、指令异步提交。

5.1 设备管理与连接（代码即文档）

from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接WiFi设备（也可传入USB设备ID） success, msg = conn.connect("192.168.1.105:5555") print(f"连接状态：{msg}") # 输出：连接成功 # 查看所有已连接设备 for dev in list_devices(): print(f"{dev.device_id} — {dev.connection_type.value}") # 获取设备当前IP（用于后续远程调试） ip = conn.get_device_ip() print(f"设备IP：{ip}")

5.2 发送自然语言指令（一行调用）

from phone_agent.agent import PhoneAgent # 初始化AI代理（指向你的模型服务） agent = PhoneAgent( base_url="http://localhost:8800/v1", model_name="autoglm-phone-9b", device_id="ZY322FDQ67" ) # 下达指令（支持中文，支持长句） result = agent.run("进入小红书个人主页，检查是否有新粉丝，并把头像截图保存") print("执行结果：", result.summary) print("截图路径：", result.screenshot_path)

这段代码可以直接放进你的自动化脚本、定时任务（cron）、甚至Web后端接口里。它返回的是结构化结果对象，含操作步骤、截图路径、文本摘要、错误信息，方便你做后续处理。

6. 常见问题与避坑指南：少走3小时弯路

部署过程中最常卡在三个地方。我们把真实踩过的坑，浓缩成可立即验证的解决方案：

问题现象	根本原因	一招解决
`adb devices`显示`unauthorized`	手机未授权电脑调试	拔插USB线，手机弹窗点“允许”，勾选“始终允许”
`Connection refused`（连接模型服务失败）	云服务器防火墙未开放端口，或vLLM未监听0.0.0.0	检查`netstat -tuln \| grep 8800`；vLLM启动加参数`--host 0.0.0.0`
AI点了错位置 / 输入框没反应	ADB Keyboard未设为默认输入法	设置 → 语言与输入法 → 切换为 ADB Keyboard（不是“选择默认”，是“切换”）
模型返回乱码 / 卡住不动	vLLM`max_model_len`设置过小（<2048）或显存不足	启动vLLM时加`--max-model-len 4096 --gpu-memory-utilization 0.9`
WiFi连接频繁断开	路由器省电策略关闭ADB连接	改用USB连接，或在手机设置中关闭“WLAN休眠”