小红书美食搜索自动化?Open-AutoGLM一键执行部署教程
你有没有试过:想在小红书找一家附近新开的川菜馆,却要反复点开App、输入关键词、翻页筛选、对比图片和评论……整个过程耗时又费眼?更别提还要手动截图发给朋友问意见。如果手机能听懂你一句话,比如“打开小红书搜最近3公里内评分4.8以上的火锅店”,然后自动完成打开App、输入搜索词、滑动浏览、甚至截图保存——这还是科幻吗?
不是。Open-AutoGLM 就是让这件事今天就能跑起来的工具。
它不是另一个大模型API调用库,而是一套真正“能动手”的AI手机智能助理框架。由智谱开源,专为移动端任务自动化设计,核心能力就一句话:看得到、想得清、动得了。它把视觉理解、语言推理和设备操控三件事串成一条流水线,中间不靠人工干预,只靠你一句自然语言指令。
这篇文章不讲论文、不堆参数,只带你从零开始,在自己电脑上连上真机,5分钟内让AI替你打开小红书、搜美食、刷结果——全程可复现、可调试、可扩展。哪怕你没写过ADB命令,也没碰过vLLM,只要照着做,就能亲眼看到AI在你手机屏幕上“自己点、自己输、自己滑”。
1. 先搞懂它到底是什么:不是模型,是会干活的AI助手
很多人第一眼看到“AutoGLM”会下意识以为是又一个语言模型。其实不然——AutoGLM-Phone 是一个端到端的AI Agent框架,它的角色更像一位“数字手艺人”:眼睛是手机屏幕截图(多模态视觉输入),脑子是云端运行的轻量级视觉语言模型(autoglm-phone-9b),双手是ADB指令(点击、滑动、输入、返回)。
它和传统自动化工具(比如Tasker或Appium脚本)有本质区别:
- 不用写规则逻辑:你不需要定义“先点首页图标→再点搜索框→再输入‘火锅’→再点搜索按钮”。你只说“搜火锅”,AI自己拆解动作。
- 能看懂界面:不是靠坐标或控件ID硬匹配,而是用视觉语言模型实时理解当前屏幕内容——比如识别出“搜索框”在哪、“关注”按钮长什么样、“笔记卡片”包含哪些信息。
- 支持动态决策:遇到登录弹窗、验证码、权限请求等不确定场景,它会暂停并提示你人工接管,而不是直接报错崩溃。
Phone Agent 就是基于这个框架构建的完整可用版本。它把所有底层能力打包成清晰接口:屏幕感知 → 意图解析 → 动作规划 → ADB执行 → 结果反馈。你下达指令后,它会在后台默默完成一整套“观察-思考-行动”闭环,最后把结果(比如截图、文字摘要、操作日志)交还给你。
你可以把它理解成:给你的安卓手机配了一个随叫随到、看得懂、想得明、干得利索的AI副驾驶。
2. 硬件与环境准备:三步搞定本地控制端
部署Open-AutoGLM不需要GPU服务器,也不需要Root手机。你只需要一台日常使用的电脑(Windows/macOS均可)、一部安卓真机(Android 7.0+),以及一个稳定的网络连接。
2.1 本地电脑基础配置
- 操作系统:Windows 10/11 或 macOS Monterey 及以上
- Python 版本:强烈建议使用 Python 3.10(实测兼容性最好,避免3.12中部分依赖冲突)
- ADB 工具:Android SDK Platform-Tools(官网下载地址)
验证是否装好:打开终端(Windows用CMD/PowerShell,macOS用Terminal),输入
adb version。如果返回类似Android Debug Bridge version 1.0.41的信息,说明已就绪。
Windows 环境变量配置(简明版)
- 下载平台工具压缩包,解压到例如
C:\platform-tools Win + R→ 输入sysdm.cpl→ “高级”选项卡 → “环境变量”- 在“系统变量”中找到
Path→ “编辑” → “新建” → 粘贴C:\platform-tools - 重启终端,再次运行
adb version
macOS 快速配置(一行命令)
# 假设你把 platform-tools 解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc2.2 安卓手机设置:三步打开“被控制权”
别担心“开发者模式”听起来很技术——它只是安卓系统里一个隐藏开关,开启后才能让电脑真正操控你的手机。
开启开发者选项
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示启用USB调试
返回设置主界面 → 系统与更新 → 开发者选项 → 打开“USB调试”开关首次开启时,手机会弹出授权对话框,请勾选“始终允许”,并点击“确定”
安装并启用 ADB Keyboard(关键!)
- 下载 ADB Keyboard APK(推荐 v1.1)
- 用USB线安装到手机(或通过微信/QQ传过去安装)
- 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”
这一步决定了AI能否“打字”。没有它,模型可以点、可以滑,但无法输入搜索词。
3. 部署控制端:克隆、安装、连接,三行命令起步
Open-AutoGLM 的控制端代码完全开源,结构清晰,无隐藏依赖。我们不编译、不改源码,纯命令行操作。
3.1 下载与安装
打开终端,依次执行:
# 1. 克隆仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含核心ADB封装与HTTP客户端) pip install -r requirements.txt pip install -e .提示:
pip install -e .表示以“开发模式”安装,后续你修改代码(比如调整日志级别、加个截图保存)会立即生效,无需重复安装。
3.2 连接你的手机:USB or WiFi?两种都教
确保手机已通过USB线连接电脑,并且已授权调试。运行:
adb devices正常输出应类似:
List of devices attached ZY322FDQ67 device其中ZY322FDQ67就是你的设备ID,后面要用到。
如果你想无线控制(推荐用于长期调试)
- 先用USB线连接,执行:
adb tcpip 5555 - 拔掉USB线,确保手机和电脑在同一WiFi下
- 查看手机IP(设置 → 关于手机 → 状态 → IP地址),假设是
192.168.1.105 - 连接WiFi设备:
adb connect 192.168.1.105:5555
成功后
adb devices会显示192.168.1.105:5555 device。断开USB后仍可稳定控制约10–15分钟,超时可重连。
4. 启动AI代理:一句话让AI开始干活
Open-AutoGLM 默认不自带大模型服务——它是一个“指挥官”,需要你提供一个已部署好的视觉语言模型API端点(即--base-url)。你可以选择:
- 使用官方提供的云服务(需申请API Key)
- 自建 vLLM + Qwen-VL 或 AutoGLM-Phone 模型服务(本文不展开,但文末有资源指引)
- 本地快速体验:用 HuggingFace 的免费 Spaces 演示服务(如
https://autoglm-phone.hf.space/v1,仅限测试)
我们以本地快速验证为例(假设你已部署好服务,监听在http://localhost:8800/v1):
python main.py \ --device-id ZY322FDQ67 \ --base-url http://localhost:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘北京朝阳区私房菜’,截取前三条笔记的标题和点赞数"执行后,你会看到终端实时打印日志:
[INFO] 截图已保存至 ./screenshots/20240522_142211.png [INFO] 视觉理解完成:检测到搜索框、底部导航栏、‘发现’标签 [INFO] 意图解析:需启动小红书 → 点击搜索框 → 输入“北京朝阳区私房菜” → 点击搜索 → 滑动查看结果 [INFO] 执行动作:tap(520, 1890) → input_text("北京朝阳区私房菜") → tap(960, 180) [INFO] 成功获取3条笔记:《藏在胡同里的川味》(2.4w赞)、《老板娘手写菜单》(1.8w赞)...同时,你的手机屏幕会真实发生以下动作:
自动解锁(如已锁屏)
启动小红书App
点击顶部搜索框
输入“北京朝阳区私房菜”
点击搜索按钮
向下滑动浏览前3条笔记
截图并返回结果
整个过程无需你触碰手机,就像看着另一个“你”在操作。
5. 更灵活的调用方式:不只是命令行
如果你计划把它集成进自己的工作流(比如每天自动抓取竞品笔记、批量测试App UI),命令行就不够用了。Open-AutoGLM 提供了干净的 Python API,支持远程连接、设备管理、指令异步提交。
5.1 设备管理与连接(代码即文档)
from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接WiFi设备(也可传入USB设备ID) success, msg = conn.connect("192.168.1.105:5555") print(f"连接状态:{msg}") # 输出:连接成功 # 查看所有已连接设备 for dev in list_devices(): print(f"{dev.device_id} — {dev.connection_type.value}") # 获取设备当前IP(用于后续远程调试) ip = conn.get_device_ip() print(f"设备IP:{ip}")5.2 发送自然语言指令(一行调用)
from phone_agent.agent import PhoneAgent # 初始化AI代理(指向你的模型服务) agent = PhoneAgent( base_url="http://localhost:8800/v1", model_name="autoglm-phone-9b", device_id="ZY322FDQ67" ) # 下达指令(支持中文,支持长句) result = agent.run("进入小红书个人主页,检查是否有新粉丝,并把头像截图保存") print("执行结果:", result.summary) print("截图路径:", result.screenshot_path)这段代码可以直接放进你的自动化脚本、定时任务(cron)、甚至Web后端接口里。它返回的是结构化结果对象,含操作步骤、截图路径、文本摘要、错误信息,方便你做后续处理。
6. 常见问题与避坑指南:少走3小时弯路
部署过程中最常卡在三个地方。我们把真实踩过的坑,浓缩成可立即验证的解决方案:
| 问题现象 | 根本原因 | 一招解决 |
|---|---|---|
adb devices显示unauthorized | 手机未授权电脑调试 | 拔插USB线,手机弹窗点“允许”,勾选“始终允许” |
Connection refused(连接模型服务失败) | 云服务器防火墙未开放端口,或vLLM未监听0.0.0.0 | 检查netstat -tuln | grep 8800;vLLM启动加参数--host 0.0.0.0 |
| AI点了错位置 / 输入框没反应 | ADB Keyboard未设为默认输入法 | 设置 → 语言与输入法 → 切换为 ADB Keyboard(不是“选择默认”,是“切换”) |
| 模型返回乱码 / 卡住不动 | vLLMmax_model_len设置过小(<2048)或显存不足 | 启动vLLM时加--max-model-len 4096 --gpu-memory-utilization 0.9 |
| WiFi连接频繁断开 | 路由器省电策略关闭ADB连接 | 改用USB连接,或在手机设置中关闭“WLAN休眠” |
终极建议:首次部署,务必先用USB线 + 本地vLLM服务(CPU模式也行)跑通全流程。确认功能正常后,再切WiFi、再上GPU服务。顺序错了,90%的问题都会叠加出现。
7. 总结:你刚刚掌握的,是一项新能力
回顾一下,你已经完成了:
- 理解了 Open-AutoGLM 的本质:它不是模型,而是让AI真正“动手”的Agent框架
- 在本地电脑配齐了 ADB、Python、环境变量等基础依赖
- 在安卓手机上开启了开发者模式、USB调试、并正确启用了 ADB Keyboard
- 克隆并安装了控制端代码,掌握了 USB/WiFi 两种连接方式
- 用一条命令让AI自动打开小红书、搜索美食、截图返回结果
- 学会了用 Python API 把它嵌入自己的脚本,实现真正的工程化调用
这不再只是“调API生成文字”,而是让AI成为你手机上的“数字分身”——它能看、能想、能操作,而且每一步都可追溯、可调试、可定制。
下一步,你可以尝试:
🔹 让它每天早上8点自动打开小红书,抓取“早餐”话题最新爆款笔记
🔹 接入企业微信机器人,同事发“查下XX品牌最新小红书种草”,AI立刻执行并回传图文
🔹 把截图结果喂给另一个OCR模型,自动提取笔记中的门店地址和电话
技术的价值,从来不在参数多高,而在它能不能帮你省下那15分钟、避开那个重复劳动、抓住那个稍纵即逝的灵感。而Open-AutoGLM,就是那把已经递到你手里的钥匙。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。