news 2026/4/16 17:57:32

从0开始玩转Open-AutoGLM,手机AI助理快速入门

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始玩转Open-AutoGLM,手机AI助理快速入门

从0开始玩转Open-AutoGLM,手机AI助理快速入门

你有没有想过,让手机自己“看懂”屏幕、“听懂”你的指令,然后像真人一样点开APP、输入文字、滑动页面、完成任务?不是科幻电影,而是今天就能上手的现实——Open-AutoGLM,一个真正能动手操作手机的AI智能体框架。它不只聊天,它真干活;不靠截图识别+人工脚本,而是用多模态视觉语言模型理解界面、规划动作、调用ADB自动执行。本文不讲大道理,不堆术语,就带你从零开始:插上线、配好环境、敲几行命令,15分钟内让AI替你打开小红书、搜美食、点关注。全程小白友好,连ADB是什么都不用提前查,每一步都告诉你为什么做、怎么做、出错了怎么救。

1. 它到底能干什么?先看几个真实场景

别急着装,先看看它能帮你省多少事。这不是“能识别图片”的AI,而是“能操作手机”的AI——它把屏幕当眼睛,把ADB当手指,把语言当指令。

1.1 三秒完成你原本要点8下的事

你说:“打开美团,搜‘川菜’,选评分4.8以上、人均100元以内的店,打电话预约。”
AI会:
自动解锁手机(如果已设置)
找到并点击美团图标
点击搜索框 → 调起ADB Keyboard输入“川菜”
解析搜索结果页 → 定位评分栏和价格标签
筛选出符合条件的店铺 → 点击进入详情页 → 找到电话按钮 → 拨号

整个过程你只需看着,关键步骤还会在终端里实时打印思考逻辑,比如:

💭 当前界面:美团首页,顶部有搜索框 执行动作:点击搜索框 💭 输入完成后,等待搜索结果加载...

1.2 不再为验证码抓狂

遇到登录页弹出图形验证码?AI不会硬闯。它会立刻暂停,弹出提示:

需要人工确认:检测到验证码图片,请手动输入后按回车继续

你输完,它接着干。安全、可控,不越界。

1.3 支持什么应用?不是“理论上可以”,而是“已实测能跑”

目前已稳定支持主流APP的典型任务:

  • 外卖/出行:美团(搜店、下单)、滴滴(填地址、叫车)、高德(查路线)
  • 电商:淘宝(搜商品、比价格)、拼多多(筛选参数)、京东(查物流)
  • 社交:微信(发消息、朋友圈点赞)、抖音(搜账号、关注)、小红书(搜攻略、收藏笔记)
  • 工具类:设置(调亮度、开蓝牙)、相册(找上周的合影)、备忘录(新建待办)

重点来了:它不依赖APP内部API,而是纯靠“看图+推理+点击”,所以只要界面元素清晰、布局稳定,新APP也能快速适配——你甚至可以教它认自家公司的内部应用。

2. 准备工作:5样东西,10分钟搞定

别被“AI”“多模态”吓住。整个部署就像装一个稍复杂的手机游戏:需要电脑、手机、数据线、网络,再加一点耐心。下面清单里的每一项,我都标出了“为什么必须”和“小白避坑提示”。

2.1 硬件与系统要求(真·最低配置)

项目要求为什么 & 小白提示
电脑Windows 10+/macOS 12+,内存≥16GB模型推理吃内存,16GB是流畅运行底线;低于此可能卡顿或启动失败。Mac用户注意:M系列芯片需额外安装llvmlite,教程后文会提。
手机Android 7.0+(推荐Android 10以上),屏幕≥5英寸低版本系统ADB兼容性差;小屏手机界面元素挤,AI识别易出错。真机优先,模拟器仅限调试。
数据线必须支持数据传输(非仅充电线)很多新手机配的“快充线”只通电不通数据!测试方法:连电脑后,手机通知栏是否弹出“USB用于文件传输”?没有?换线。
网络电脑需联网(下载模型/依赖),手机与电脑同WiFi更佳USB连接虽稳定,但WiFi远程控制更自由(比如手机放桌上,你坐沙发发指令)。
存储空间电脑硬盘空余≥25GB模型文件18GB + 项目代码 + 缓存 = 实打实25GB起步。别用C盘只剩10GB的电脑硬刚。

关键提醒:这不是云端服务,所有AI推理、屏幕分析、操作执行都在你本地电脑完成。你的手机截图、APP数据、操作记录永不上传,隐私由你完全掌控。

2.2 软件安装:三步走,拒绝玄学报错

2.2.1 Python:选对版本,少踩90%的坑
  • 必须用Python 3.10或3.11(3.12暂未全面适配,3.9及以下缺少关键库)。
  • Windows用户:去python.org下载,安装时务必勾选“Add python.exe to PATH”(这句是重点!漏了后面所有命令都会报“不是内部命令”)。
  • Mac用户:别用系统自带Python!终端执行:
    brew install python@3.11 # 安装后验证 python3.11 --version # 应显示 3.11.x
2.2.2 ADB工具:手机的“遥控器”,装完立刻验证

ADB是安卓调试桥,没有它,AI就是个哑巴。

  • 下载:去Android官网platform-tools页下载对应系统的压缩包。
  • 解压:Windows建议解压到D:\adb,Mac建议~/adb(路径别带中文和空格!)。
  • 配环境变量(关键!)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径(如D:\adb)→确定。
    • Mac:终端执行(把/Users/你的用户名/adb换成你的真实路径):
      echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc source ~/.zshrc
  • 终极验证:打开新命令行窗口,输入adb version。看到类似Android Debug Bridge version 1.0.41就成功了!如果报错,回头检查路径和环境变量。
2.2.3 手机端设置:三步开启“被操控”权限

这是最常卡住的环节,按顺序来:

  1. 开开发者模式:手机“设置”→“关于手机”→连续点击“版本号”7次→出现“您现在处于开发者模式”。
  2. 开USB调试:返回“设置”→“系统”→“开发者选项”→找到“USB调试”,打开它(旁边会有提示“允许通过USB调试修改设备”)。
  3. 装ADB Keyboard(重中之重!):这是AI输入中文的唯一方式。
    • 下载ADBKeyboard.apk(GitHub搜“ADBKeyboard”或直接用这个直链)。
    • 电脑端安装:USB连好手机,命令行执行:
      adb install ADBKeyboard.apk
    • 手机端启用:设置→“系统”→“语言和输入法”→“虚拟键盘”→找到“ADB Keyboard”并设为默认输入法

    验证成功:在手机任意输入框长按,应能看到“选择输入法”弹窗,且ADB Keyboard在列表中。

3. 部署实战:四步到位,从克隆到第一次运行

现在,真正的动手时刻。我们跳过所有理论,只留最简路径:克隆代码→装依赖→连手机→发指令。每一步都有明确预期结果,出错立刻定位。

3.1 克隆项目与安装依赖(2分钟)

打开电脑终端(Windows用CMD/PowerShell,Mac用Terminal),逐行执行:

# 1. 克隆Open-AutoGLM项目(官方维护版) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建独立Python环境(强烈推荐,避免污染系统) python3.11 -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装项目依赖(核心!) pip install -r requirements.txt pip install -e .

常见问题直击

  • 如果pip install卡在building wheel for xxx:网络问题,加镜像源,如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ -r requirements.txt
  • Mac M系列芯片报llvmlite错误:先执行brew install llvm,再重试。

3.2 连接你的手机(USB or WiFi)

确保手机已按2.2.3节设置完毕,并用数据线连电脑。

  • USB连接验证:终端执行adb devices。正常输出应类似:

    List of devices attached 1234567890abcdef device

    如果显示unauthorized,手机屏幕会弹出授权提示,点“允许”。如果显示空,检查数据线、USB调试开关、是否弹窗被误点“拒绝”。

  • WiFi远程连接(进阶但实用)

    1. 先用USB连好,执行adb tcpip 5555(开启TCP/IP模式)
    2. 拔掉USB线,手机连上同一WiFi,记下手机IP(设置→关于手机→状态→IP地址)
    3. 终端执行adb connect 192.168.1.100:5555(把IP换成你手机的)
    4. 再次adb devices,应看到192.168.1.100:5555 device

3.3 启动AI代理:一行命令,见证奇迹

现在,最关键的一步。我们用最简方式启动——不部署本地大模型,直接调用云服务(官方提供免费体验端口,免去18GB模型下载和显卡要求)。

Open-AutoGLM项目目录下,执行:

python main.py \ --device-id $(adb devices | grep -o '^[^[:space:]]*') \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开设置"

命令拆解(你只需知道这些)

  • --device-id:自动获取你手机的ADB ID(不用手动查)
  • --base-url:指向官方云API(无需自己搭服务,新手零负担)
  • 最后引号内:你的第一条自然语言指令

预期结果

  • 终端开始滚动日志,你会看到类似:
    💭 思考过程: 当前在手机桌面,需要找到并打开“设置”应用图标 执行动作: {"action": "Click", "x": 210, "y": 450}
  • 同时,你的手机屏幕会自动亮起,找到“设置”图标并点击打开!
  • 如果成功,你会看到设置APP启动。恭喜,你的AI手机助理已上岗!

首次失败?别慌,90%是这三个原因

  1. 手机没解锁(AI无法操作锁屏界面)→ 手动解锁再试
  2. ADB Keyboard未设为默认输入法 → 去手机设置里检查
  3. 云API临时不可用 → 换个时间再试,或查看官方状态页

4. 开始使用:从一句话指令到自动化工作流

现在,AI已能响应指令。接下来,教你如何让它真正成为你的效率助手——从单条命令,到组合任务,再到安全接管。

4.1 命令行模式:日常高频操作速查表

记住这个万能模板,替换引号里的内容即可:

python main.py --device-id <你的ID> --base-url <API地址> --model "autoglm-phone-9b" "你的指令"

高频场景指令示例(复制即用)

场景指令效果说明
外卖"打开饿了么,搜‘火锅’,选最近的评分4.9店,下单一份毛肚"AI自动完成搜索、筛选、进入店铺、加购、结算(支付前会暂停确认)
社交"打开微信,给张三发消息‘周末聚餐地点定在XX餐厅’"精准定位联系人,调起输入法,发送指定文字
购物"打开淘宝,搜‘无线降噪耳机’,按销量排序,打开第一个商品页"展示AI如何理解“销量排序”并执行点击
工具"打开相册,找2024年6月15日拍的照片"利用系统相册时间索引能力,快速定位

指令写作心法(提升成功率)

  • 说人话,别缩写:写“打开小红书”而非“开小红书”;写“搜索美食攻略”而非“搜美食”。
  • 给明确目标,少模糊词:“附近”“最好”“很多”这类词AI难量化,换成“500米内”“评分4.8以上”“前三条”。
  • 一次一任务:不要写“打开抖音,搜美食,关注10个博主”,AI会专注做好第一件事。后续任务可链式调用。

4.2 Python API模式:给开发者留的接口

如果你会写几行Python,可以用API实现更灵活的控制,比如循环、判断、集成其他服务。

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置连接(复用云API) model_config = ModelConfig( base_url="https://autoglm-phone-api.zhipuai.com/v1", model_name="autoglm-phone-9b", ) # 创建智能体 agent = PhoneAgent(model_config=model_config) # 执行任务(同步阻塞,等AI做完才返回) result = agent.run("打开微博,搜索‘今日热点’,截图保存") print("任务完成!结果:", result)

进阶用法:自定义确认函数(安全核心)

def my_confirm(msg): print(f"\n🚨 敏感操作预警:{msg}") return input("确认执行?(y/n): ").strip().lower() == 'y' # 创建带确认的智能体 agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirm # 注入你的确认逻辑 ) agent.run("打开支付宝,转账给李四 100元") # 此时会停住,等你输入y/n

4.3 敏感操作防护:AI的“刹车系统”

Open-AutoGLM内置三层防护,确保它永远是你可控的助手:

  • 自动识别:当AI检测到“支付”“删除”“清空”“永久”等关键词,或进入支付页面,立即暂停。
  • 人工接管:暂停时,终端显示详细操作预览(如“即将向张三转账28.5元”),并等待你输入yn
  • 物理隔离:所有操作需你主动授权,AI无权绕过确认。即使你睡着了,它也不会偷偷扣款。

安全实践建议

  • 首次使用,务必用“转账”“删除聊天”等指令测试确认流程。
  • 生产环境,建议始终启用confirmation_callback,把最终决定权牢牢握在自己手中。

5. 故障排除:95%的问题,这里都有答案

部署和使用中遇到报错?别关窗口,先看这一页。按现象找方案,精准解决。

5.1 连接类问题(最常见)

现象可能原因解决方案
adb devices显示unauthorized或空白手机未授权USB调试检查手机屏幕是否弹出授权弹窗,点“允许”;若没弹窗,重启手机ADB:adb kill-server && adb start-server
adb connect IP:5555失败WiFi未同网/手机IP错/防火墙拦截1. 确认手机和电脑在同一WiFi;2. 在手机“设置→关于手机→状态”里核对IP;3. 电脑防火墙临时关闭测试
终端报device not foundADB环境变量未生效Windows:重启命令行;Mac:执行source ~/.zshrc;再运行adb version验证

5.2 执行类问题(AI“看不懂”或“点不对”)

现象可能原因解决方案
AI一直说“正在分析界面”,但无后续动作手机屏幕熄灭或锁屏必须保持屏幕常亮且解锁!可在手机“设置→显示→休眠”调至“永不停止”。
AI点击位置明显偏移(如点了屏幕顶部,实际点在底部)手机分辨率未正确识别main.py同级目录创建config.yaml,添加:screen_width: 1080screen_height: 2340(填你手机真实分辨率)
中文输入失败,显示乱码或无反应ADB Keyboard未启用或冲突1. 手机设置里确认ADB Keyboard是默认输入法;2. 卸载重装:adb uninstall com.android.adbkeyboard,再adb install

5.3 云API类问题(新手最易卡壳)

现象可能原因解决方案
报错Connection refusedtimeout官方云API临时维护查看智谱AI状态页,或切换为本地部署(教程见文末“进阶指南”)
返回Model not found模型名拼写错误严格使用小写:autoglm-phone-9b(注意连字符,不是下划线)

6. 进阶指南:从使用者到定制者

当你已熟练使用,下一步就是让它更懂你。这里提供三条轻量级升级路径,无需深入代码,10分钟见效。

6.1 用环境变量,告别重复输入

每次都要敲--device-id--base-url?太麻烦。设置环境变量,一劳永逸:

  • Windows(CMD中执行):
    set PHONE_AGENT_DEVICE_ID=1234567890abcdef set PHONE_AGENT_BASE_URL=https://autoglm-phone-api.zhipuai.com/v1 set PHONE_AGENT_MODEL=autoglm-phone-9b
  • Mac/Linux(终端执行):
    export PHONE_AGENT_DEVICE_ID="1234567890abcdef" export PHONE_AGENT_BASE_URL="https://autoglm-phone-api.zhipuai.com/v1" export PHONE_AGENT_MODEL="autoglm-phone-9b"

设置后,你只需运行:

python main.py "打开小红书"

所有参数自动读取,清爽!

6.2 自定义提示词:让AI更懂你的领域

想让它成为你的专属电商助手?改一句提示词就行。编辑文件phone_agent/config/prompts.py,找到SYSTEM_PROMPT变量,替换为:

SYSTEM_PROMPT = """ 你是一个专注电商领域的手机AI助手,特别擅长在淘宝、京东、拼多多处理购物任务。 请严格遵守: 1. 搜索商品时,优先按“销量”排序,其次看“好评率” 2. 对比商品时,重点提取“价格”“发货地”“售后保障”三个字段 3. 下单前,必须确认收货地址是否为“默认地址” """

保存后重试指令,你会发现AI的回复更聚焦电商细节了。

6.3 本地部署(追求极致隐私与速度)

官方云API方便,但想100%数据不出本地?可以部署自己的模型服务(需NVIDIA显卡):

  1. 下载模型(约18GB):
    git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B
  2. 启动vLLM服务(假设模型在./AutoGLM-Phone-9B):
    python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480
  3. 调用时改URL--base-url http://localhost:8000/v1

提示:显存≥12GB可流畅运行;若显存不足,加参数--tensor-parallel-size 1 --gpu-memory-utilization 0.95优化。

7. 总结:你的AI手机助理,已经准备就绪

回顾这一路,你完成了什么?
从零配置:装好了Python、ADB、手机开发者模式,打通了电脑与手机的数据通道;
首次运行:用一行命令,让AI替你打开了“设置”,亲眼见证了“看-想-做”的闭环;
日常使用:掌握了外卖、社交、购物等高频指令写法,知道了如何应对敏感操作;
问题排查:遇到连接失败、点击偏移、输入异常,有了清晰的解决路径;
个性定制:学会了用环境变量简化命令、用提示词强化专业能力、用本地部署守护隐私。

Open-AutoGLM的价值,从来不是炫技,而是把重复、繁琐、机械的手机操作,交还给AI。它不取代你思考,而是放大你行动的半径——今天你让它搜美食,明天它就能帮你批量处理百条微信消息,后天它能成为你专属的移动办公助理。技术的温度,在于它是否让你多出半小时陪家人,少一次为验证码焦头烂额。现在,钥匙就在你手中。别等未来,就从下一条指令开始:

python main.py "打开小红书,搜‘北京周末去哪玩’,收藏前三篇攻略"

去试试吧。你的AI手机助理,正等着第一次为你服务。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:46:54

零基础游戏模组开发入门:用ScriptHookV打造专属GTA V体验

零基础游戏模组开发入门&#xff1a;用ScriptHookV打造专属GTA V体验 【免费下载链接】ScriptHookV An open source hook into GTAV for loading offline mods 项目地址: https://gitcode.com/gh_mirrors/sc/ScriptHookV 你是否曾幻想过改变GTA V的游戏规则&#xff1f;…

作者头像 李华
网站建设 2026/4/15 15:20:47

解锁Blender电影级渲染:Mitsuba插件的7个进阶技巧

解锁Blender电影级渲染&#xff1a;Mitsuba插件的7个进阶技巧 【免费下载链接】mitsuba-blender Mitsuba integration add-on for Blender 项目地址: https://gitcode.com/gh_mirrors/mi/mitsuba-blender 为什么顶级渲染师都在偷偷用这个Blender插件&#xff1f;当大多数…

作者头像 李华
网站建设 2026/4/16 14:02:17

Llama3-8B基因序列分析:生物信息学部署实战

Llama3-8B基因序列分析&#xff1a;生物信息学部署实战 1. 为什么用Llama3-8B做基因序列分析&#xff1f; 很多人第一反应是&#xff1a;“大语言模型不是用来聊天写代码的吗&#xff1f;跟DNA有什么关系&#xff1f;” 其实&#xff0c;这背后有个被低估的关键事实&#xff…

作者头像 李华
网站建设 2026/4/16 11:12:46

macOS兼容Windows程序完全指南:2024最新适配方案

macOS兼容Windows程序完全指南&#xff1a;2024最新适配方案 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 在macOS系统中运行Windows专属程序时&#xff0c;你是否常遇到格式不兼容…

作者头像 李华
网站建设 2026/4/16 13:01:56

Speech Seaco Paraformer支持哪些设备?CUDA与CPU模式性能对比

Speech Seaco Paraformer支持哪些设备&#xff1f;CUDA与CPU模式性能对比 1. 模型基础与设备兼容性全景 Speech Seaco Paraformer 是基于阿里 FunASR 框架深度优化的中文语音识别模型&#xff0c;由科哥完成 WebUI 封装与工程化适配。它并非简单调用 API&#xff0c;而是完整…

作者头像 李华
网站建设 2026/4/16 12:26:38

如何零成本打通四大音乐平台?音乐API集成指南

如何零成本打通四大音乐平台&#xff1f;音乐API集成指南 【免费下载链接】music-api 各大音乐平台的歌曲播放地址获取接口&#xff0c;包含网易云音乐&#xff0c;qq音乐&#xff0c;酷狗音乐等平台 项目地址: https://gitcode.com/gh_mirrors/mu/music-api &#x1f4…

作者头像 李华