用Open-AutoGLM实现小红书自动搜索,附详细步骤
你有没有试过:想在小红书搜“北京周末咖啡馆推荐”,但手机正连着电脑、双手腾不开,或者正开会没法点屏幕?又或者,你运营多个小红书账号,每天要重复搜索同类关键词做竞品分析——手动操作太慢,录屏脚本又不智能?
Open-AutoGLM 就是为这类场景而生的。它不是传统意义上的“自动化点击工具”,而是一个真正能“看懂屏幕、听懂人话、想清楚步骤、再动手执行”的手机AI助手。今天我们就聚焦一个高频、实用、零门槛的落地场景:用自然语言一句话,让AI自动打开小红书、输入关键词、点击搜索、完成浏览——全程无需你碰手机。
全文不讲空泛概念,只说你能立刻上手的实操路径。从环境准备到真机运行,从USB直连到WiFi远程,从命令行一键触发到Python代码集成,每一步都经过真实设备验证(测试机型:小米13,Android 14;开发机:MacBook Pro M2)。
1. Open-AutoGLM 是什么?一句话说清本质
Open-AutoGLM 不是模型,也不是APP,而是一套手机端AI Agent框架——你可以把它理解成给手机装上的“AI操作系统层”。
它的核心能力有三层,缺一不可:
- 看得见:通过ADB实时截取手机屏幕画面,用视觉语言模型(VLM)识别当前界面元素(比如“搜索框在哪”“‘发现’按钮长什么样”);
- 听得懂:把你的自然语言指令(如“搜小红书里最近爆火的露营装备”)精准解析成结构化任务目标;
- 做得准:自主规划动作序列(先点底部导航栏→再点放大镜图标→再输入文字→最后点搜索按钮),并通过ADB精确执行每一步。
关键区别在于:它不依赖预设坐标或固定UI路径。即使小红书更新了界面、换了图标位置,只要视觉模型能认出“这是搜索入口”,它就能继续工作。这才是真正面向真实世界的自动化。
划重点:Open-AutoGLM 的价值不在“能点”,而在“会思考”。它解决的是“意图到动作”的语义鸿沟,而不是“坐标A到坐标B”的机械位移。
2. 硬件与环境准备:三步确认,避免90%的失败
很多用户卡在第一步,不是代码问题,而是环境没理顺。我们按优先级排序,只列必要项,删掉所有可选项。
2.1 设备与系统要求(必须满足)
- 安卓手机:Android 7.0 及以上(建议 Android 10+,兼容性更稳)
- 电脑:Windows 10+/macOS 12+(M系列芯片Mac已全面适配)
- Python:3.10 或 3.11(严禁使用3.12+,当前依赖库存在兼容问题)
- 网络:手机与电脑需在同一局域网(WiFi远程用),或通过USB数据线直连(推荐新手首选)
2.2 ADB 工具配置(5分钟搞定)
ADB 是连接电脑和手机的“神经通路”,配置错误会导致后续所有步骤失败。这里提供最简验证法:
Windows 用户:
- 下载 platform-tools(选 Windows 版)
- 解压到
C:\adb(路径不含中文和空格!) - 打开命令提示符,执行:
若显示set PATH=%PATH%;C:\adb adb versionAndroid Debug Bridge version 1.0.41或更高,即成功。
macOS 用户:
# 下载后解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version验证成功标志:
adb devices命令返回List of devices attached+ 一串设备ID(如8A9X021234567890 device)。若显示unauthorized,请在手机弹窗点“允许”。
2.3 手机端关键设置(3个开关不能少)
很多用户忽略这三步,导致AI能“看”但不能“动”:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 显示“您现在处于开发者模式”启用USB调试:
设置 → 系统 → 开发者选项 → 打开“USB调试”
(部分品牌如华为/小米,还需勾选“USB调试(安全设置)”)安装并启用 ADB Keyboard:
- 下载 ADB Keyboard APK(v1.3+)
- 手机安装后,进入:设置 → 系统 → 语言与输入法 → 虚拟键盘 → 启用“ADB Keyboard”
- 返回上一级,将默认输入法切换为“ADB Keyboard”(此步极易遗漏!)
重要提醒:小红书等应用对输入法敏感。若搜索时文字无法输入,90%概率是这一步未生效。
3. 控制端部署:克隆、安装、验证三连击
所有操作均在你的本地电脑完成,无需在手机装任何APP(除ADB Keyboard外)。
3.1 克隆代码并安装依赖
# 克隆官方仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(强烈推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装核心依赖(耗时约2分钟) pip install -r requirements.txt pip install -e .提示:
requirements.txt中已包含adb-shell、Pillow、openai等关键库,无需额外安装。若报错torch版本冲突,请运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu(CPU版足够运行)。
3.2 连接手机并验证通信
确保手机通过USB连接电脑后,执行:
adb devices输出应为:
List of devices attached 8A9X021234567890 device若显示offline或无设备,请重启ADB服务:
adb kill-server && adb start-server3.3 选择模型服务方式(新手必选方案)
Open-AutoGLM 本身不包含大模型,需对接推理服务。对新手,强烈推荐使用智谱BigModel云服务——免部署、免显卡、响应快、中文优化好。
- 访问 智谱AI开放平台 注册账号
- 进入「API密钥」页面,创建新密钥(复制保存,仅显示一次)
- 在终端中运行(替换
<your-api-key>):python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "<your-api-key>" \ "打开小红书搜索‘上海静安寺附近小众咖啡馆’"
成功标志:终端开始输出
Thinking...、Taking screenshot...、Action: CLICK on (x=..., y=...)等日志,手机同步执行操作。
4. 小红书自动搜索实战:从指令到结果全流程拆解
我们以真实需求为例:“打开小红书,搜索‘杭州西湖边适合拍照的茶馆’,并截图前三条笔记封面”。
4.1 指令设计原则:像教朋友一样说话
Open-AutoGLM 对指令语义鲁棒性强,但仍有优化技巧:
- 推荐写法:“打开小红书搜索‘杭州西湖边适合拍照的茶馆’”
- ❌ 避免写法:“启动小红书APP,定位到搜索页,输入关键词,点击搜索按钮”(这是教机器做事,不是下指令)
- 进阶技巧:加入明确动作词,如“截图”“保存”“滑动到第5条”,AI会自动理解并执行
4.2 执行过程详解(你看到的 vs AI做的)
当你输入上述指令后,AI实际执行了以下12步(非固定,根据界面动态调整):
| 步骤 | AI在做什么 | 你看到的现象 |
|---|---|---|
| 1 | 截取当前手机桌面截图 | 手机屏幕闪一下(ADB截图) |
| 2 | 识别桌面图标,定位“小红书”App | 无可见变化 |
| 3 | 点击小红书图标启动应用 | 手机自动打开小红书 |
| 4 | 截取小红书首页,识别顶部搜索框 | 屏幕停顿0.5秒 |
| 5 | 点击搜索框激活输入法 | 键盘弹出(ADB Keyboard) |
| 6 | 逐字输入“杭州西湖边适合拍照的茶馆” | 文字自动出现在搜索框 |
| 7 | 识别键盘上的“搜索”按钮 | 键盘未收起 |
| 8 | 点击“搜索”按钮 | 页面跳转至搜索结果页 |
| 9 | 截取搜索结果页,识别首条笔记的封面区域 | 页面滚动暂停 |
| 10 | 长按封面图片触发保存菜单 | 弹出“保存图片”选项 |
| 11 | 点击“保存图片” | 状态栏显示“正在保存” |
| 12 | 截图当前页面并退出 | 返回小红书首页 |
关键洞察:整个流程中,AI没有硬编码任何坐标。它靠视觉识别“搜索框”“放大镜图标”“保存按钮”的语义位置,因此即使小红书改版,只要UI元素功能不变,它依然有效。
4.3 常见问题与即时修复
问题:手机卡在启动小红书,反复截图无动作
原因:小红书启动页有开屏广告,AI误判为“首页”
解决:添加等待指令--wait-for-app "xiaohongshu",或手动关闭开屏广告权限问题:输入文字后不点击搜索,停留在输入框
原因:ADB Keyboard 未设为默认输入法
解决:手机设置 → 语言与输入法 → 切换默认输入法为 ADB Keyboard问题:搜索结果页加载慢,AI超时退出
原因:默认超时30秒,弱网环境不足
解决:加参数--timeout 60延长等待时间问题:截图模糊,AI识别不准
原因:手机开启了“深色模式”或“自适应亮度”
解决:设置 → 显示 → 关闭“深色模式”、调高屏幕亮度至80%以上
5. 进阶用法:不止于搜索,构建你的小红书工作流
单次搜索只是起点。Open-AutoGLM 的真正威力,在于串联多步任务,形成闭环工作流。
5.1 批量关键词搜索(竞品监控场景)
创建search_batch.py:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your-api-key" ) agent = PhoneAgent(model_config=model_config) keywords = [ "深圳科技园咖啡馆打卡", "广州天河区平价粤菜推荐", "成都春熙路小众买手店" ] for kw in keywords: print(f"\n=== 正在搜索:{kw} ===") result = agent.run(f"打开小红书搜索'{kw}',截图前3条笔记标题和封面") print(f"执行状态:{result.status}")效果:自动循环执行,每次搜索后生成本地截图(保存在
outputs/目录),适合每日竞品舆情采集。
5.2 结合人工接管的敏感操作
小红书登录、点赞、收藏等操作涉及账号安全,AI默认会请求人工确认:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "xxx" \ "登录小红书账号,关注博主‘旅行小鹿’"当AI检测到登录页时,终端会暂停并提示:
[ALERT] Detected login screen. Human intervention required. Press Enter to continue after manual login...你只需在手机上手动输入账号密码完成登录,回车后AI继续执行后续“关注”动作。安全与效率兼得。
5.3 WiFi远程控制(解放USB线)
适合长期挂机场景(如24小时监控小红书热榜):
- 手机开启“无线调试”(设置 → 开发者选项 → 无线调试 → 启用)
- 电脑执行:
adb tcpip 5555 adb connect 192.168.31.123:5555 # 替换为手机IP - 运行指令时指定IP:
python main.py --device-id 192.168.31.123:5555 --base-url ... "打开小红书刷首页"
实测:WiFi控制延迟<800ms,完全满足日常搜索、浏览类任务。
6. 总结:为什么这个方案值得你现在就试试
回顾整个流程,Open-AutoGLM 在小红书自动化上提供了三个不可替代的价值:
- 零学习成本:你不需要懂ADB命令、不需写坐标脚本、不需训练模型——会说中文,就会用。
- 真鲁棒性:不依赖UI结构,靠视觉理解界面,小红书每次更新都不影响使用。
- 可扩展工作流:从单次搜索,到批量监控,再到人工协同操作,一条技术路径覆盖全部需求。
它不是取代你,而是把你从重复点击中解放出来。当你能用一句话让AI帮你扫完50个竞品笔记,你的时间就真正回到了“分析”和“决策”上。
下一步,你可以尝试:
→ 把搜索结果自动整理成Excel(用Python读取截图OCR)
→ 设置定时任务,每天早9点自动抓取小红书“今日热榜”
→ 结合微信通知,搜索到新笔记时自动推送消息
技术的意义,从来不是炫技,而是让复杂变简单,让重复变自动,让人的专注力回归创造本身。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。