用Open-AutoGLM实现小红书自动搜索，附详细步骤-编程阁

用Open-AutoGLM实现小红书自动搜索，附详细步骤

你有没有试过：想在小红书搜“北京周末咖啡馆推荐”，但手机正连着电脑、双手腾不开，或者正开会没法点屏幕？又或者，你运营多个小红书账号，每天要重复搜索同类关键词做竞品分析——手动操作太慢，录屏脚本又不智能？

Open-AutoGLM 就是为这类场景而生的。它不是传统意义上的“自动化点击工具”，而是一个真正能“看懂屏幕、听懂人话、想清楚步骤、再动手执行”的手机AI助手。今天我们就聚焦一个高频、实用、零门槛的落地场景：用自然语言一句话，让AI自动打开小红书、输入关键词、点击搜索、完成浏览——全程无需你碰手机。

全文不讲空泛概念，只说你能立刻上手的实操路径。从环境准备到真机运行，从USB直连到WiFi远程，从命令行一键触发到Python代码集成，每一步都经过真实设备验证（测试机型：小米13，Android 14；开发机：MacBook Pro M2）。

1. Open-AutoGLM 是什么？一句话说清本质

Open-AutoGLM 不是模型，也不是APP，而是一套手机端AI Agent框架——你可以把它理解成给手机装上的“AI操作系统层”。

它的核心能力有三层，缺一不可：

看得见：通过ADB实时截取手机屏幕画面，用视觉语言模型（VLM）识别当前界面元素（比如“搜索框在哪”“‘发现’按钮长什么样”）；
听得懂：把你的自然语言指令（如“搜小红书里最近爆火的露营装备”）精准解析成结构化任务目标；
做得准：自主规划动作序列（先点底部导航栏→再点放大镜图标→再输入文字→最后点搜索按钮），并通过ADB精确执行每一步。

关键区别在于：它不依赖预设坐标或固定UI路径。即使小红书更新了界面、换了图标位置，只要视觉模型能认出“这是搜索入口”，它就能继续工作。这才是真正面向真实世界的自动化。

划重点：Open-AutoGLM 的价值不在“能点”，而在“会思考”。它解决的是“意图到动作”的语义鸿沟，而不是“坐标A到坐标B”的机械位移。

2. 硬件与环境准备：三步确认，避免90%的失败

很多用户卡在第一步，不是代码问题，而是环境没理顺。我们按优先级排序，只列必要项，删掉所有可选项。

2.1 设备与系统要求（必须满足）

安卓手机：Android 7.0 及以上（建议 Android 10+，兼容性更稳）
电脑：Windows 10+/macOS 12+（M系列芯片Mac已全面适配）
Python：3.10 或 3.11（严禁使用3.12+，当前依赖库存在兼容问题）
网络：手机与电脑需在同一局域网（WiFi远程用），或通过USB数据线直连（推荐新手首选）

2.2 ADB 工具配置（5分钟搞定）

ADB 是连接电脑和手机的“神经通路”，配置错误会导致后续所有步骤失败。这里提供最简验证法：

Windows 用户：

下载 platform-tools（选 Windows 版）
解压到C:\adb（路径不含中文和空格！）
打开命令提示符，执行：
```
set PATH=%PATH%;C:\adb adb version
```
若显示Android Debug Bridge version 1.0.41或更高，即成功。

macOS 用户：

# 下载后解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

验证成功标志：adb devices命令返回List of devices attached+ 一串设备ID（如8A9X021234567890 device）。若显示unauthorized，请在手机弹窗点“允许”。

2.3 手机端关键设置（3个开关不能少）

很多用户忽略这三步，导致AI能“看”但不能“动”：

开启开发者模式：
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 显示“您现在处于开发者模式”
启用USB调试：
设置 → 系统 → 开发者选项 → 打开“USB调试”
（部分品牌如华为/小米，还需勾选“USB调试（安全设置）”）
安装并启用 ADB Keyboard：
- 下载 ADB Keyboard APK（v1.3+）
- 手机安装后，进入：设置 → 系统 → 语言与输入法 → 虚拟键盘 → 启用“ADB Keyboard”
- 返回上一级，将默认输入法切换为“ADB Keyboard”（此步极易遗漏！）

重要提醒：小红书等应用对输入法敏感。若搜索时文字无法输入，90%概率是这一步未生效。

3. 控制端部署：克隆、安装、验证三连击

所有操作均在你的本地电脑完成，无需在手机装任何APP（除ADB Keyboard外）。

3.1 克隆代码并安装依赖

# 克隆官方仓库（国内用户建议加 --depth=1 加速） git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境（强烈推荐，避免包冲突） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装核心依赖（耗时约2分钟） pip install -r requirements.txt pip install -e .

提示：requirements.txt中已包含adb-shell、Pillow、openai等关键库，无需额外安装。若报错torch版本冲突，请运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu（CPU版足够运行）。

3.2 连接手机并验证通信

确保手机通过USB连接电脑后，执行：

adb devices

输出应为：

List of devices attached 8A9X021234567890 device

若显示offline或无设备，请重启ADB服务：

adb kill-server && adb start-server

3.3 选择模型服务方式（新手必选方案）

Open-AutoGLM 本身不包含大模型，需对接推理服务。对新手，强烈推荐使用智谱BigModel云服务——免部署、免显卡、响应快、中文优化好。

访问智谱AI开放平台注册账号
进入「API密钥」页面，创建新密钥（复制保存，仅显示一次）

在终端中运行（替换<your-api-key>）：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "<your-api-key>" \ "打开小红书搜索‘上海静安寺附近小众咖啡馆’"

成功标志：终端开始输出Thinking...、Taking screenshot...、Action: CLICK on (x=..., y=...)等日志，手机同步执行操作。

4. 小红书自动搜索实战：从指令到结果全流程拆解

我们以真实需求为例：“打开小红书，搜索‘杭州西湖边适合拍照的茶馆’，并截图前三条笔记封面”。

4.1 指令设计原则：像教朋友一样说话

Open-AutoGLM 对指令语义鲁棒性强，但仍有优化技巧：

推荐写法：“打开小红书搜索‘杭州西湖边适合拍照的茶馆’”
❌ 避免写法：“启动小红书APP，定位到搜索页，输入关键词，点击搜索按钮”（这是教机器做事，不是下指令）
进阶技巧：加入明确动作词，如“截图”“保存”“滑动到第5条”，AI会自动理解并执行

4.2 执行过程详解（你看到的 vs AI做的）

当你输入上述指令后，AI实际执行了以下12步（非固定，根据界面动态调整）：

步骤	AI在做什么	你看到的现象
1	截取当前手机桌面截图	手机屏幕闪一下（ADB截图）
2	识别桌面图标，定位“小红书”App	无可见变化
3	点击小红书图标启动应用	手机自动打开小红书
4	截取小红书首页，识别顶部搜索框	屏幕停顿0.5秒
5	点击搜索框激活输入法	键盘弹出（ADB Keyboard）
6	逐字输入“杭州西湖边适合拍照的茶馆”	文字自动出现在搜索框
7	识别键盘上的“搜索”按钮	键盘未收起
8	点击“搜索”按钮	页面跳转至搜索结果页
9	截取搜索结果页，识别首条笔记的封面区域	页面滚动暂停
10	长按封面图片触发保存菜单	弹出“保存图片”选项
11	点击“保存图片”	状态栏显示“正在保存”
12	截图当前页面并退出	返回小红书首页

关键洞察：整个流程中，AI没有硬编码任何坐标。它靠视觉识别“搜索框”“放大镜图标”“保存按钮”的语义位置，因此即使小红书改版，只要UI元素功能不变，它依然有效。

4.3 常见问题与即时修复

问题：手机卡在启动小红书，反复截图无动作
原因：小红书启动页有开屏广告，AI误判为“首页”
解决：添加等待指令--wait-for-app "xiaohongshu"，或手动关闭开屏广告权限
问题：输入文字后不点击搜索，停留在输入框
原因：ADB Keyboard 未设为默认输入法
解决：手机设置 → 语言与输入法 → 切换默认输入法为 ADB Keyboard
问题：搜索结果页加载慢，AI超时退出
原因：默认超时30秒，弱网环境不足
解决：加参数--timeout 60延长等待时间
问题：截图模糊，AI识别不准
原因：手机开启了“深色模式”或“自适应亮度”
解决：设置 → 显示 → 关闭“深色模式”、调高屏幕亮度至80%以上

5. 进阶用法：不止于搜索，构建你的小红书工作流

单次搜索只是起点。Open-AutoGLM 的真正威力，在于串联多步任务，形成闭环工作流。

5.1 批量关键词搜索（竞品监控场景）

创建search_batch.py：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your-api-key" ) agent = PhoneAgent(model_config=model_config) keywords = [ "深圳科技园咖啡馆打卡", "广州天河区平价粤菜推荐", "成都春熙路小众买手店" ] for kw in keywords: print(f"\n=== 正在搜索：{kw} ===") result = agent.run(f"打开小红书搜索'{kw}'，截图前3条笔记标题和封面") print(f"执行状态：{result.status}")

效果：自动循环执行，每次搜索后生成本地截图（保存在outputs/目录），适合每日竞品舆情采集。

5.2 结合人工接管的敏感操作

小红书登录、点赞、收藏等操作涉及账号安全，AI默认会请求人工确认：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "xxx" \ "登录小红书账号，关注博主‘旅行小鹿’"

当AI检测到登录页时，终端会暂停并提示：

[ALERT] Detected login screen. Human intervention required. Press Enter to continue after manual login...

你只需在手机上手动输入账号密码完成登录，回车后AI继续执行后续“关注”动作。安全与效率兼得。

5.3 WiFi远程控制（解放USB线）

适合长期挂机场景（如24小时监控小红书热榜）：

手机开启“无线调试”（设置 → 开发者选项 → 无线调试 → 启用）

电脑执行：

adb tcpip 5555 adb connect 192.168.31.123:5555 # 替换为手机IP

运行指令时指定IP：

python main.py --device-id 192.168.31.123:5555 --base-url ... "打开小红书刷首页"

实测：WiFi控制延迟<800ms，完全满足日常搜索、浏览类任务。

6. 总结：为什么这个方案值得你现在就试试

回顾整个流程，Open-AutoGLM 在小红书自动化上提供了三个不可替代的价值：

零学习成本：你不需要懂ADB命令、不需写坐标脚本、不需训练模型——会说中文，就会用。
真鲁棒性：不依赖UI结构，靠视觉理解界面，小红书每次更新都不影响使用。
可扩展工作流：从单次搜索，到批量监控，再到人工协同操作，一条技术路径覆盖全部需求。

它不是取代你，而是把你从重复点击中解放出来。当你能用一句话让AI帮你扫完50个竞品笔记，你的时间就真正回到了“分析”和“决策”上。

下一步，你可以尝试：
→ 把搜索结果自动整理成Excel（用Python读取截图OCR）
→ 设置定时任务，每天早9点自动抓取小红书“今日热榜”
→ 结合微信通知，搜索到新笔记时自动推送消息

技术的意义，从来不是炫技，而是让复杂变简单，让重复变自动，让人的专注力回归创造本身。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Open-AutoGLM实现小红书自动搜索，附详细步骤