news 2026/4/15 16:56:19

小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

小红书美食搜索自动化?Open-AutoGLM一键执行部署教程

你有没有试过:想在小红书找一家附近新开的川菜馆,却要反复点开App、输入关键词、翻页筛选、对比图片和评论……整个过程耗时又费眼?更别提还要手动截图发给朋友问意见。如果手机能听懂你一句话,比如“打开小红书搜最近3公里内评分4.8以上的火锅店”,然后自动完成打开App、输入搜索词、滑动浏览、甚至截图保存——这还是科幻吗?

不是。Open-AutoGLM 就是让这件事今天就能跑起来的工具。

它不是另一个大模型API调用库,而是一套真正“能动手”的AI手机智能助理框架。由智谱开源,专为移动端任务自动化设计,核心能力就一句话:看得到、想得清、动得了。它把视觉理解、语言推理和设备操控三件事串成一条流水线,中间不靠人工干预,只靠你一句自然语言指令。

这篇文章不讲论文、不堆参数,只带你从零开始,在自己电脑上连上真机,5分钟内让AI替你打开小红书、搜美食、刷结果——全程可复现、可调试、可扩展。哪怕你没写过ADB命令,也没碰过vLLM,只要照着做,就能亲眼看到AI在你手机屏幕上“自己点、自己输、自己滑”。


1. 先搞懂它到底是什么:不是模型,是会干活的AI助手

很多人第一眼看到“AutoGLM”会下意识以为是又一个语言模型。其实不然——AutoGLM-Phone 是一个端到端的AI Agent框架,它的角色更像一位“数字手艺人”:眼睛是手机屏幕截图(多模态视觉输入),脑子是云端运行的轻量级视觉语言模型(autoglm-phone-9b),双手是ADB指令(点击、滑动、输入、返回)。

它和传统自动化工具(比如Tasker或Appium脚本)有本质区别:

  • 不用写规则逻辑:你不需要定义“先点首页图标→再点搜索框→再输入‘火锅’→再点搜索按钮”。你只说“搜火锅”,AI自己拆解动作。
  • 能看懂界面:不是靠坐标或控件ID硬匹配,而是用视觉语言模型实时理解当前屏幕内容——比如识别出“搜索框”在哪、“关注”按钮长什么样、“笔记卡片”包含哪些信息。
  • 支持动态决策:遇到登录弹窗、验证码、权限请求等不确定场景,它会暂停并提示你人工接管,而不是直接报错崩溃。

Phone Agent 就是基于这个框架构建的完整可用版本。它把所有底层能力打包成清晰接口:屏幕感知 → 意图解析 → 动作规划 → ADB执行 → 结果反馈。你下达指令后,它会在后台默默完成一整套“观察-思考-行动”闭环,最后把结果(比如截图、文字摘要、操作日志)交还给你。

你可以把它理解成:给你的安卓手机配了一个随叫随到、看得懂、想得明、干得利索的AI副驾驶。


2. 硬件与环境准备:三步搞定本地控制端

部署Open-AutoGLM不需要GPU服务器,也不需要Root手机。你只需要一台日常使用的电脑(Windows/macOS均可)、一部安卓真机(Android 7.0+),以及一个稳定的网络连接。

2.1 本地电脑基础配置

  • 操作系统:Windows 10/11 或 macOS Monterey 及以上
  • Python 版本:强烈建议使用 Python 3.10(实测兼容性最好,避免3.12中部分依赖冲突)
  • ADB 工具:Android SDK Platform-Tools(官网下载地址)

验证是否装好:打开终端(Windows用CMD/PowerShell,macOS用Terminal),输入adb version。如果返回类似Android Debug Bridge version 1.0.41的信息,说明已就绪。

Windows 环境变量配置(简明版)
  1. 下载平台工具压缩包,解压到例如C:\platform-tools
  2. Win + R→ 输入sysdm.cpl→ “高级”选项卡 → “环境变量”
  3. 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
  4. 重启终端,再次运行adb version
macOS 快速配置(一行命令)
# 假设你把 platform-tools 解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

2.2 安卓手机设置:三步打开“被控制权”

别担心“开发者模式”听起来很技术——它只是安卓系统里一个隐藏开关,开启后才能让电脑真正操控你的手机。

  1. 开启开发者选项
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示

  2. 启用USB调试
    返回设置主界面 → 系统与更新 → 开发者选项 → 打开“USB调试”开关

    首次开启时,手机会弹出授权对话框,请勾选“始终允许”,并点击“确定”

  3. 安装并启用 ADB Keyboard(关键!)

    • 下载 ADB Keyboard APK(推荐 v1.1)
    • 用USB线安装到手机(或通过微信/QQ传过去安装)
    • 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”

    这一步决定了AI能否“打字”。没有它,模型可以点、可以滑,但无法输入搜索词。


3. 部署控制端:克隆、安装、连接,三行命令起步

Open-AutoGLM 的控制端代码完全开源,结构清晰,无隐藏依赖。我们不编译、不改源码,纯命令行操作。

3.1 下载与安装

打开终端,依次执行:

# 1. 克隆仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含核心ADB封装与HTTP客户端) pip install -r requirements.txt pip install -e .

提示:pip install -e .表示以“开发模式”安装,后续你修改代码(比如调整日志级别、加个截图保存)会立即生效,无需重复安装。

3.2 连接你的手机:USB or WiFi?两种都教

确保手机已通过USB线连接电脑,并且已授权调试。运行:

adb devices

正常输出应类似:

List of devices attached ZY322FDQ67 device

其中ZY322FDQ67就是你的设备ID,后面要用到。

如果你想无线控制(推荐用于长期调试)
  1. 先用USB线连接,执行:
    adb tcpip 5555
  2. 拔掉USB线,确保手机和电脑在同一WiFi下
  3. 查看手机IP(设置 → 关于手机 → 状态 → IP地址),假设是192.168.1.105
  4. 连接WiFi设备:
    adb connect 192.168.1.105:5555

成功后adb devices会显示192.168.1.105:5555 device。断开USB后仍可稳定控制约10–15分钟,超时可重连。


4. 启动AI代理:一句话让AI开始干活

Open-AutoGLM 默认不自带大模型服务——它是一个“指挥官”,需要你提供一个已部署好的视觉语言模型API端点(即--base-url)。你可以选择:

  • 使用官方提供的云服务(需申请API Key)
  • 自建 vLLM + Qwen-VL 或 AutoGLM-Phone 模型服务(本文不展开,但文末有资源指引)
  • 本地快速体验:用 HuggingFace 的免费 Spaces 演示服务(如https://autoglm-phone.hf.space/v1,仅限测试)

我们以本地快速验证为例(假设你已部署好服务,监听在http://localhost:8800/v1):

python main.py \ --device-id ZY322FDQ67 \ --base-url http://localhost:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘北京朝阳区私房菜’,截取前三条笔记的标题和点赞数"

执行后,你会看到终端实时打印日志:

[INFO] 截图已保存至 ./screenshots/20240522_142211.png [INFO] 视觉理解完成:检测到搜索框、底部导航栏、‘发现’标签 [INFO] 意图解析:需启动小红书 → 点击搜索框 → 输入“北京朝阳区私房菜” → 点击搜索 → 滑动查看结果 [INFO] 执行动作:tap(520, 1890) → input_text("北京朝阳区私房菜") → tap(960, 180) [INFO] 成功获取3条笔记:《藏在胡同里的川味》(2.4w赞)、《老板娘手写菜单》(1.8w赞)...

同时,你的手机屏幕会真实发生以下动作:
自动解锁(如已锁屏)
启动小红书App
点击顶部搜索框
输入“北京朝阳区私房菜”
点击搜索按钮
向下滑动浏览前3条笔记
截图并返回结果

整个过程无需你触碰手机,就像看着另一个“你”在操作。


5. 更灵活的调用方式:不只是命令行

如果你计划把它集成进自己的工作流(比如每天自动抓取竞品笔记、批量测试App UI),命令行就不够用了。Open-AutoGLM 提供了干净的 Python API,支持远程连接、设备管理、指令异步提交。

5.1 设备管理与连接(代码即文档)

from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接WiFi设备(也可传入USB设备ID) success, msg = conn.connect("192.168.1.105:5555") print(f"连接状态:{msg}") # 输出:连接成功 # 查看所有已连接设备 for dev in list_devices(): print(f"{dev.device_id} — {dev.connection_type.value}") # 获取设备当前IP(用于后续远程调试) ip = conn.get_device_ip() print(f"设备IP:{ip}")

5.2 发送自然语言指令(一行调用)

from phone_agent.agent import PhoneAgent # 初始化AI代理(指向你的模型服务) agent = PhoneAgent( base_url="http://localhost:8800/v1", model_name="autoglm-phone-9b", device_id="ZY322FDQ67" ) # 下达指令(支持中文,支持长句) result = agent.run("进入小红书个人主页,检查是否有新粉丝,并把头像截图保存") print("执行结果:", result.summary) print("截图路径:", result.screenshot_path)

这段代码可以直接放进你的自动化脚本、定时任务(cron)、甚至Web后端接口里。它返回的是结构化结果对象,含操作步骤、截图路径、文本摘要、错误信息,方便你做后续处理。


6. 常见问题与避坑指南:少走3小时弯路

部署过程中最常卡在三个地方。我们把真实踩过的坑,浓缩成可立即验证的解决方案:

问题现象根本原因一招解决
adb devices显示unauthorized手机未授权电脑调试拔插USB线,手机弹窗点“允许”,勾选“始终允许”
Connection refused(连接模型服务失败)云服务器防火墙未开放端口,或vLLM未监听0.0.0.0检查netstat -tuln | grep 8800;vLLM启动加参数--host 0.0.0.0
AI点了错位置 / 输入框没反应ADB Keyboard未设为默认输入法设置 → 语言与输入法 → 切换为 ADB Keyboard(不是“选择默认”,是“切换”)
模型返回乱码 / 卡住不动vLLMmax_model_len设置过小(<2048)或显存不足启动vLLM时加--max-model-len 4096 --gpu-memory-utilization 0.9
WiFi连接频繁断开路由器省电策略关闭ADB连接改用USB连接,或在手机设置中关闭“WLAN休眠”

终极建议:首次部署,务必先用USB线 + 本地vLLM服务(CPU模式也行)跑通全流程。确认功能正常后,再切WiFi、再上GPU服务。顺序错了,90%的问题都会叠加出现。


7. 总结:你刚刚掌握的,是一项新能力

回顾一下,你已经完成了:

  • 理解了 Open-AutoGLM 的本质:它不是模型,而是让AI真正“动手”的Agent框架
  • 在本地电脑配齐了 ADB、Python、环境变量等基础依赖
  • 在安卓手机上开启了开发者模式、USB调试、并正确启用了 ADB Keyboard
  • 克隆并安装了控制端代码,掌握了 USB/WiFi 两种连接方式
  • 用一条命令让AI自动打开小红书、搜索美食、截图返回结果
  • 学会了用 Python API 把它嵌入自己的脚本,实现真正的工程化调用

这不再只是“调API生成文字”,而是让AI成为你手机上的“数字分身”——它能看、能想、能操作,而且每一步都可追溯、可调试、可定制。

下一步,你可以尝试:
🔹 让它每天早上8点自动打开小红书,抓取“早餐”话题最新爆款笔记
🔹 接入企业微信机器人,同事发“查下XX品牌最新小红书种草”,AI立刻执行并回传图文
🔹 把截图结果喂给另一个OCR模型,自动提取笔记中的门店地址和电话

技术的价值,从来不在参数多高,而在它能不能帮你省下那15分钟、避开那个重复劳动、抓住那个稍纵即逝的灵感。而Open-AutoGLM,就是那把已经递到你手里的钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:08:21

Qwen3-Embedding-4B部署省成本?共享GPU实战案例

Qwen3-Embedding-4B部署省成本&#xff1f;共享GPU实战案例 1. Qwen3-Embedding-4B&#xff1a;轻量高效的新一代嵌入模型 你有没有遇到过这样的问题&#xff1a;想给自己的搜索系统加个向量检索能力&#xff0c;但一查模型动辄要8GB显存起步&#xff0c;租一台A10卡每月要三…

作者头像 李华
网站建设 2026/4/16 10:42:26

新手必看:RS485与RS232电气特性通俗解释

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。全文严格遵循您的全部优化要求: ✅ 彻底去除AI痕迹,语言自然如资深工程师面对面讲解; ✅ 摒弃所有模板化标题(如“引言”“总结”“展望”),代之以逻辑连贯、层层递进的有机叙述; ✅ 核心原理用类比…

作者头像 李华
网站建设 2026/4/16 11:09:01

Unsloth微调Gemma2:新版本模型适配实战

Unsloth微调Gemma2&#xff1a;新版本模型适配实战 1. Unsloth 是什么&#xff1f;为什么它值得你花5分钟了解 你有没有试过在自己的显卡上微调一个大语言模型&#xff0c;结果刚跑两轮就内存爆满、显存告急&#xff0c;最后只能关掉训练脚本&#xff0c;默默打开浏览器搜索“…

作者头像 李华
网站建设 2026/4/16 10:45:38

Wan2.2:MoE架构让4090轻松生成电影级视频

Wan2.2&#xff1a;MoE架构让4090轻松生成电影级视频 【免费下载链接】Wan2.2-T2V-A14B-Diffusers 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.2-T2V-A14B-Diffusers 导语&#xff1a;Wan2.2文本到视频生成模型正式发布&#xff0c;凭借创新的MoE架构和…

作者头像 李华
网站建设 2026/4/16 12:13:43

腾讯开源Hunyuan-GameCraft:用键鼠信号生成游戏视频

腾讯开源Hunyuan-GameCraft&#xff1a;用键鼠信号生成游戏视频 【免费下载链接】Hunyuan-GameCraft-1.0 Hunyuan-GameCraft是腾讯开源的高动态交互式游戏视频生成框架&#xff0c;支持从参考图和键鼠信号生成连贯游戏视频。采用混合历史条件训练策略与模型蒸馏技术&#xff0c…

作者头像 李华
网站建设 2026/4/16 12:58:00

Qwen3-VL-FP8:235B视觉大模型如何玩转AI新交互?

Qwen3-VL-FP8&#xff1a;235B视觉大模型如何玩转AI新交互&#xff1f; 【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 导语&#xff1a;阿里达摩院最新推出的Qwen3-VL-235B-A2…

作者头像 李华