news 2026/4/16 20:02:31

用Open-AutoGLM实现小红书自动搜索,附详细步骤

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用Open-AutoGLM实现小红书自动搜索,附详细步骤

用Open-AutoGLM实现小红书自动搜索,附详细步骤

你有没有试过:想在小红书搜“北京周末咖啡馆推荐”,但手机正连着电脑、双手腾不开,或者正开会没法点屏幕?又或者,你运营多个小红书账号,每天要重复搜索同类关键词做竞品分析——手动操作太慢,录屏脚本又不智能?

Open-AutoGLM 就是为这类场景而生的。它不是传统意义上的“自动化点击工具”,而是一个真正能“看懂屏幕、听懂人话、想清楚步骤、再动手执行”的手机AI助手。今天我们就聚焦一个高频、实用、零门槛的落地场景:用自然语言一句话,让AI自动打开小红书、输入关键词、点击搜索、完成浏览——全程无需你碰手机

全文不讲空泛概念,只说你能立刻上手的实操路径。从环境准备到真机运行,从USB直连到WiFi远程,从命令行一键触发到Python代码集成,每一步都经过真实设备验证(测试机型:小米13,Android 14;开发机:MacBook Pro M2)。

1. Open-AutoGLM 是什么?一句话说清本质

Open-AutoGLM 不是模型,也不是APP,而是一套手机端AI Agent框架——你可以把它理解成给手机装上的“AI操作系统层”。

它的核心能力有三层,缺一不可:

  • 看得见:通过ADB实时截取手机屏幕画面,用视觉语言模型(VLM)识别当前界面元素(比如“搜索框在哪”“‘发现’按钮长什么样”);
  • 听得懂:把你的自然语言指令(如“搜小红书里最近爆火的露营装备”)精准解析成结构化任务目标;
  • 做得准:自主规划动作序列(先点底部导航栏→再点放大镜图标→再输入文字→最后点搜索按钮),并通过ADB精确执行每一步。

关键区别在于:它不依赖预设坐标或固定UI路径。即使小红书更新了界面、换了图标位置,只要视觉模型能认出“这是搜索入口”,它就能继续工作。这才是真正面向真实世界的自动化。

划重点:Open-AutoGLM 的价值不在“能点”,而在“会思考”。它解决的是“意图到动作”的语义鸿沟,而不是“坐标A到坐标B”的机械位移。

2. 硬件与环境准备:三步确认,避免90%的失败

很多用户卡在第一步,不是代码问题,而是环境没理顺。我们按优先级排序,只列必要项,删掉所有可选项。

2.1 设备与系统要求(必须满足)

  • 安卓手机:Android 7.0 及以上(建议 Android 10+,兼容性更稳)
  • 电脑:Windows 10+/macOS 12+(M系列芯片Mac已全面适配)
  • Python:3.10 或 3.11(严禁使用3.12+,当前依赖库存在兼容问题)
  • 网络:手机与电脑需在同一局域网(WiFi远程用),或通过USB数据线直连(推荐新手首选)

2.2 ADB 工具配置(5分钟搞定)

ADB 是连接电脑和手机的“神经通路”,配置错误会导致后续所有步骤失败。这里提供最简验证法:

Windows 用户

  1. 下载 platform-tools(选 Windows 版)
  2. 解压到C:\adb(路径不含中文和空格!)
  3. 打开命令提示符,执行:
    set PATH=%PATH%;C:\adb adb version
    若显示Android Debug Bridge version 1.0.41或更高,即成功。

macOS 用户

# 下载后解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

验证成功标志:adb devices命令返回List of devices attached+ 一串设备ID(如8A9X021234567890 device)。若显示unauthorized,请在手机弹窗点“允许”。

2.3 手机端关键设置(3个开关不能少)

很多用户忽略这三步,导致AI能“看”但不能“动”:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 显示“您现在处于开发者模式”

  2. 启用USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”
    (部分品牌如华为/小米,还需勾选“USB调试(安全设置)”)

  3. 安装并启用 ADB Keyboard

    • 下载 ADB Keyboard APK(v1.3+)
    • 手机安装后,进入:设置 → 系统 → 语言与输入法 → 虚拟键盘 → 启用“ADB Keyboard”
    • 返回上一级,将默认输入法切换为“ADB Keyboard”(此步极易遗漏!)

重要提醒:小红书等应用对输入法敏感。若搜索时文字无法输入,90%概率是这一步未生效。

3. 控制端部署:克隆、安装、验证三连击

所有操作均在你的本地电脑完成,无需在手机装任何APP(除ADB Keyboard外)。

3.1 克隆代码并安装依赖

# 克隆官方仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(强烈推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装核心依赖(耗时约2分钟) pip install -r requirements.txt pip install -e .

提示:requirements.txt中已包含adb-shellPillowopenai等关键库,无需额外安装。若报错torch版本冲突,请运行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu(CPU版足够运行)。

3.2 连接手机并验证通信

确保手机通过USB连接电脑后,执行:

adb devices

输出应为:

List of devices attached 8A9X021234567890 device

若显示offline或无设备,请重启ADB服务:

adb kill-server && adb start-server

3.3 选择模型服务方式(新手必选方案)

Open-AutoGLM 本身不包含大模型,需对接推理服务。对新手,强烈推荐使用智谱BigModel云服务——免部署、免显卡、响应快、中文优化好。

  1. 访问 智谱AI开放平台 注册账号
  2. 进入「API密钥」页面,创建新密钥(复制保存,仅显示一次)
  3. 在终端中运行(替换<your-api-key>):
    python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "<your-api-key>" \ "打开小红书搜索‘上海静安寺附近小众咖啡馆’"

成功标志:终端开始输出Thinking...Taking screenshot...Action: CLICK on (x=..., y=...)等日志,手机同步执行操作。

4. 小红书自动搜索实战:从指令到结果全流程拆解

我们以真实需求为例:“打开小红书,搜索‘杭州西湖边适合拍照的茶馆’,并截图前三条笔记封面”。

4.1 指令设计原则:像教朋友一样说话

Open-AutoGLM 对指令语义鲁棒性强,但仍有优化技巧:

  • 推荐写法:“打开小红书搜索‘杭州西湖边适合拍照的茶馆’”
  • ❌ 避免写法:“启动小红书APP,定位到搜索页,输入关键词,点击搜索按钮”(这是教机器做事,不是下指令)
  • 进阶技巧:加入明确动作词,如“截图”“保存”“滑动到第5条”,AI会自动理解并执行

4.2 执行过程详解(你看到的 vs AI做的)

当你输入上述指令后,AI实际执行了以下12步(非固定,根据界面动态调整):

步骤AI在做什么你看到的现象
1截取当前手机桌面截图手机屏幕闪一下(ADB截图)
2识别桌面图标,定位“小红书”App无可见变化
3点击小红书图标启动应用手机自动打开小红书
4截取小红书首页,识别顶部搜索框屏幕停顿0.5秒
5点击搜索框激活输入法键盘弹出(ADB Keyboard)
6逐字输入“杭州西湖边适合拍照的茶馆”文字自动出现在搜索框
7识别键盘上的“搜索”按钮键盘未收起
8点击“搜索”按钮页面跳转至搜索结果页
9截取搜索结果页,识别首条笔记的封面区域页面滚动暂停
10长按封面图片触发保存菜单弹出“保存图片”选项
11点击“保存图片”状态栏显示“正在保存”
12截图当前页面并退出返回小红书首页

关键洞察:整个流程中,AI没有硬编码任何坐标。它靠视觉识别“搜索框”“放大镜图标”“保存按钮”的语义位置,因此即使小红书改版,只要UI元素功能不变,它依然有效。

4.3 常见问题与即时修复

  • 问题:手机卡在启动小红书,反复截图无动作
    原因:小红书启动页有开屏广告,AI误判为“首页”
    解决:添加等待指令--wait-for-app "xiaohongshu",或手动关闭开屏广告权限

  • 问题:输入文字后不点击搜索,停留在输入框
    原因:ADB Keyboard 未设为默认输入法
    解决:手机设置 → 语言与输入法 → 切换默认输入法为 ADB Keyboard

  • 问题:搜索结果页加载慢,AI超时退出
    原因:默认超时30秒,弱网环境不足
    解决:加参数--timeout 60延长等待时间

  • 问题:截图模糊,AI识别不准
    原因:手机开启了“深色模式”或“自适应亮度”
    解决:设置 → 显示 → 关闭“深色模式”、调高屏幕亮度至80%以上

5. 进阶用法:不止于搜索,构建你的小红书工作流

单次搜索只是起点。Open-AutoGLM 的真正威力,在于串联多步任务,形成闭环工作流。

5.1 批量关键词搜索(竞品监控场景)

创建search_batch.py

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your-api-key" ) agent = PhoneAgent(model_config=model_config) keywords = [ "深圳科技园咖啡馆打卡", "广州天河区平价粤菜推荐", "成都春熙路小众买手店" ] for kw in keywords: print(f"\n=== 正在搜索:{kw} ===") result = agent.run(f"打开小红书搜索'{kw}',截图前3条笔记标题和封面") print(f"执行状态:{result.status}")

效果:自动循环执行,每次搜索后生成本地截图(保存在outputs/目录),适合每日竞品舆情采集。

5.2 结合人工接管的敏感操作

小红书登录、点赞、收藏等操作涉及账号安全,AI默认会请求人工确认:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "xxx" \ "登录小红书账号,关注博主‘旅行小鹿’"

当AI检测到登录页时,终端会暂停并提示:

[ALERT] Detected login screen. Human intervention required. Press Enter to continue after manual login...

你只需在手机上手动输入账号密码完成登录,回车后AI继续执行后续“关注”动作。安全与效率兼得。

5.3 WiFi远程控制(解放USB线)

适合长期挂机场景(如24小时监控小红书热榜):

  1. 手机开启“无线调试”(设置 → 开发者选项 → 无线调试 → 启用)
  2. 电脑执行:
    adb tcpip 5555 adb connect 192.168.31.123:5555 # 替换为手机IP
  3. 运行指令时指定IP:
    python main.py --device-id 192.168.31.123:5555 --base-url ... "打开小红书刷首页"

实测:WiFi控制延迟<800ms,完全满足日常搜索、浏览类任务。

6. 总结:为什么这个方案值得你现在就试试

回顾整个流程,Open-AutoGLM 在小红书自动化上提供了三个不可替代的价值:

  • 零学习成本:你不需要懂ADB命令、不需写坐标脚本、不需训练模型——会说中文,就会用。
  • 真鲁棒性:不依赖UI结构,靠视觉理解界面,小红书每次更新都不影响使用。
  • 可扩展工作流:从单次搜索,到批量监控,再到人工协同操作,一条技术路径覆盖全部需求。

它不是取代你,而是把你从重复点击中解放出来。当你能用一句话让AI帮你扫完50个竞品笔记,你的时间就真正回到了“分析”和“决策”上。

下一步,你可以尝试:
→ 把搜索结果自动整理成Excel(用Python读取截图OCR)
→ 设置定时任务,每天早9点自动抓取小红书“今日热榜”
→ 结合微信通知,搜索到新笔记时自动推送消息

技术的意义,从来不是炫技,而是让复杂变简单,让重复变自动,让人的专注力回归创造本身。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:05:41

RexUniNLU极简教程:3步完成智能家居指令解析系统

RexUniNLU极简教程&#xff1a;3步完成智能家居指令解析系统 1. 为什么你需要一个“不用教就会听”的指令理解系统&#xff1f; 你有没有遇到过这样的场景&#xff1a; 家里老人对着智能音箱说“把客厅灯调暗一点”&#xff0c;结果设备只识别出“灯”&#xff0c;却不知道“…

作者头像 李华
网站建设 2026/4/16 14:39:17

颠覆传统PPT创作:3大革新功能让浏览器变专业演示文稿工作室

颠覆传统PPT创作&#xff1a;3大革新功能让浏览器变专业演示文稿工作室 【免费下载链接】PPTist 基于 Vue3.x TypeScript 的在线演示文稿&#xff08;幻灯片&#xff09;应用&#xff0c;还原了大部分 Office PowerPoint 常用功能&#xff0c;实现在线PPT的编辑、演示。支持导…

作者头像 李华
网站建设 2026/4/15 22:04:57

重构岛屿设计思维:解锁三维空间叙事的创新创作指南

重构岛屿设计思维&#xff1a;解锁三维空间叙事的创新创作指南 【免费下载链接】HappyIslandDesigner "Happy Island Designer (Alpha)"&#xff0c;是一个在线工具&#xff0c;它允许用户设计和定制自己的岛屿。这个工具是受游戏《动物森友会》(Animal Crossing)启发…

作者头像 李华
网站建设 2026/4/16 12:46:22

7步精准调控:macOS鼠标优化与效率提升实战指南

7步精准调控&#xff1a;macOS鼠标优化与效率提升实战指南 【免费下载链接】Mos 一个用于在 macOS 上平滑你的鼠标滚动效果或单独设置滚动方向的小工具, 让你的滚轮爽如触控板 | A lightweight tool used to smooth scrolling and set scroll direction independently for your…

作者头像 李华
网站建设 2026/4/16 12:52:51

Z-Image-Turbo_UI界面使用全攻略:生成、查看、删除图片一步到位

Z-Image-Turbo_UI界面使用全攻略&#xff1a;生成、查看、删除图片一步到位 1. 为什么你需要这个UI界面 你可能已经试过命令行跑模型&#xff0c;但每次都要写提示词、调参数、等输出、再手动打开图片——太折腾了。Z-Image-Turbo_UI界面就是为解决这个问题而生的&#xff1a…

作者头像 李华
网站建设 2026/4/16 10:53:47

高效MP4处理实战:MP4Box.js JavaScript媒体处理全攻略

高效MP4处理实战&#xff1a;MP4Box.js JavaScript媒体处理全攻略 【免费下载链接】mp4box.js JavaScript version of GPACs MP4Box tool 项目地址: https://gitcode.com/gh_mirrors/mp/mp4box.js MP4Box.js是一款基于GPAC项目MP4Box工具开发的JavaScript媒体处理库&…

作者头像 李华