news 2026/5/8 9:31:52

MANTIS:基于Android的本地AI代理,实现手机自动化任务执行

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MANTIS:基于Android的本地AI代理,实现手机自动化任务执行

1. 项目概述:一个运行在你手机里的“数字管家”

如果你和我一样,对手机上那些号称“智能”的语音助手感到失望——它们要么只能回答简单问题,要么就是把你引向一个网页搜索——那么MANTIS的出现,可能会彻底改变你的看法。这不是一个聊天机器人,而是一个真正能“动手”的AI代理。你可以把它理解为一个运行在你手机里的数字管家,它能看到你的屏幕,操控你的应用,并按照你的自然语言指令,自主完成一系列复杂的任务。

想象一下这个场景:你正在开车,突然想起需要给家人发个消息。你不需要冒险去触碰手机,只需对MANTIS说一句:“给妈妈发个微信,说我晚上七点到家。”接下来,你会看到你的手机屏幕自己亮起,微信被自动打开,通讯录被滚动,妈妈的聊天窗口被选中,文字被输入,最后“发送”按钮被点击。整个过程,你就像一个旁观者,看着另一个“你”在熟练地操作手机。这就是MANTIS的核心魅力:全自动化、本地化、可视化的AI任务执行。

与市面上绝大多数需要将你的屏幕截图、操作记录上传到云端服务器进行处理的方案不同,MANTIS坚守“你的手机,你的AI,无云端”的原则。所有的AI推理、任务规划、操作执行都发生在你的设备本地。唯一需要与外界通信的,是将屏幕截图和任务描述发送给你自己选择的AI服务提供商(如OpenAI、Claude等)以获取下一步的操作指令,而你的API密钥被安全地存储在Android的硬件级密钥库中。这意味着你的隐私、聊天记录、应用数据都牢牢锁在你的手机里。对于注重隐私和安全,又渴望自动化便利的用户来说,这无疑是一个极具吸引力的解决方案。

2. 核心架构与工作原理拆解

要理解MANTIS如何工作,我们需要深入其技术内核。它本质上实现了一个经典的“感知-思考-行动”自主代理循环,并将其紧密地集成在Android系统之上。

2.1 自主代理循环:感知、思考、行动的闭环

MANTIS的核心是一个运行在后台的紧密循环,我将其称为“代理心跳”。这个循环的每一次跳动,都代表AI完成了一次对手机状态的观察、分析和干预。

  1. 感知(Perception):循环开始,MANTIS通过Android的MediaProjectionAPI捕获当前屏幕的实时截图。这是AI的“眼睛”,让它能看到和你一模一样的界面。
  2. 思考(Cognition):这张截图,连同你最初下达的任务描述(例如“订一份披萨外卖”),以及可能存在的上下文记忆(例如你常去的披萨店),被一起打包,发送给你预先配置好的大型语言模型(LLM),例如GPT-4o或Claude Sonnet。AI模型的任务是分析这张图,理解当前处于哪个应用、哪个界面,并基于最终目标,决定下一步最应该做什么。它会返回一个结构化的操作指令,比如{"action": “tap”, “target”: “搜索框”}{"action": “type”, “text”: “达美乐披萨”}
  3. 行动(Action):收到指令后,MANTIS通过Android的AccessibilityService(无障碍服务)来执行操作。这是一个系统级权限,允许应用模拟用户交互,如点击、滑动、输入文本。执行完毕后,循环回到第一步,再次截图,观察操作结果(例如搜索框是否已输入文字),然后继续思考下一步(例如点击搜索结果中的第一家店)。这个循环会一直持续,直到LLM判断任务已完成、无法继续,或者你手动中断。

注意:这个循环的稳定性高度依赖于LLM对UI界面的理解能力。复杂的、动态加载的界面(如某些新闻信息流)可能会让AI困惑。因此,初始任务描述越清晰,成功率越高。

2.2 技术基石:Android无障碍服务与屏幕捕获

MANTIS的强大操控能力建立在两项关键的Android系统特性之上,理解它们有助于我们更好地配置和使用。

  • Android无障碍服务(Accessibility Service):这是实现自动化操控的“手”。启用后,MANTIS可以:

    • 遍历视图树:获取屏幕上所有UI元素(按钮、文本框、列表项)的详细信息,包括其文本、坐标、是否可点击等。这为AI提供了丰富的结构化界面信息。
    • 执行操作:模拟用户点击、长按、滚动、返回等操作。MANTIS的“Set-of-Marks”功能(在可操作元素上显示数字边框)就是基于此服务实现的,它让AI能更精确地通过索引号定位元素。
    • 监听全局事件:如通知、窗口状态变化,这有助于代理理解任务执行的上下文。
    • 实操心得:在首次启用时,系统会给出强烈的安全警告,这是正常的。请务必只在官方渠道(如GitHub Releases页面)下载APK,并仔细检查你授予权限的应用确实是“MANTIS”。不同手机厂商(如小米、华为、OPPO)可能会在“电池优化”或“后台管理”中限制无障碍服务,需要在设置中额外为MANTIS开启“自启动”和“允许后台活动”。
  • 媒体投影(MediaProjection):这是实现屏幕捕获的“眼睛”。它允许应用在获得用户一次性授权后,持续录制或截取屏幕内容。MANTIS利用它来获取实时截图,供LLM分析。

    • 隐私关键点:当你授权时,系统会有一个永久性的提示“正在录制屏幕”显示在状态栏。这是Android系统的安全设计,用于提醒用户当前有应用正在捕获屏幕内容。对于MANTIS,这恰恰是一个透明的体现——你随时都知道它在“看”。

2.3 多模型支持与本地记忆系统

MANTIS没有绑定任何特定的AI模型,而是将选择权交给了用户,这带来了灵活性和成本控制优势。

LLM提供商选型策略: 你可以根据任务需求和预算,在设置中灵活选择AI“大脑”。

  • 复杂任务(推荐):使用能力更强的模型,如OpenAI的gpt-4o或Anthropic的claude-3-5-sonnet。它们对复杂界面的理解、多步骤规划能力更强,成功率更高。
  • 简单任务或路由调用:为了节省成本,可以设置为使用更经济的小模型,如gpt-4o-miniclaude-3-5-haiku来处理一些简单的、标准化的操作判断。
  • 完全本地化(高级):理论上,MANTIS支持接入本地部署的LLM(通过提供本地API端点)。这对于追求极致隐私或网络隔离的用户是终极方案,但需要用户自行解决本地模型的部署和性能问题。

本地记忆系统: 这是MANTIS体现“个性化”和“智能”的关键特性。它不是一个复杂的数据库,而是一个简单的Markdown文件(user_context.md)。每次任务完成后,代理会生成一段简短的总结,例如“用户于周五晚上通常会给‘妈妈’发送微信消息”。这段总结会被追加到这个文件中。 当下一次你给出一个模糊指令如“像上次一样提醒妈妈”时,这个记忆文件的内容会被作为系统提示词的一部分注入给LLM。LLM便能联想到之前的记录,从而更准确地理解“上次”指的是什么。当文件过大时,MANTIS甚至会调用小模型(如Haiku)自动对其进行摘要,保持上下文的有效性。你可以随时在设置中查看、编辑或清空这个记忆文件,完全掌控AI对你的了解程度。

3. 从安装配置到首次任务实战

纸上谈兵终觉浅,让我们一步步将MANTIS部署到手机上,并完成第一个自动化任务。我将以一部运行Android 13的小米手机为例,演示完整流程。

3.1 安全获取与安装APK

由于MANTIS尚未上架Google Play商店,我们需要从官方源手动安装。

  1. 访问发布页面:在手机或电脑浏览器中,打开MANTIS的GitHub Releases页面:https://github.com/sajjad-vahdatzadeh/mantis/releases务必确认域名正确,避免下载到恶意软件。
  2. 下载APK:找到最新的版本(通常标有“Latest”),在“Assets”折叠栏下,下载名为mantis-vX.X.X.apk的文件(X代表版本号)。
  3. 安装前准备:在Android手机上,进入“设置”->“安全”或“应用设置”,开启“允许来自此来源的应用”或“安装未知应用”的权限,针对你正在使用的浏览器或文件管理器。
  4. 安装APK:使用文件管理器找到下载的APK文件,点击安装。系统可能会提示“此安装程序包含恶意软件”的警告(这是Android对未知来源应用的常规检查),选择“继续安装”即可。安装完成后,不要急于打开。

3.2 初始配置与权限授予

首次启动MANTIS,会进入一个精心设计的7步引导流程,这是确保其正常工作的关键。

  1. 欢迎与命名:输入一个你喜欢的名字,这将被用于本地记忆和日志中。
  2. 选择AI提供商:这是核心配置。以使用OpenAI为例:
    • 选择“OpenAI”。
    • 在API Key字段,填入你的OpenAI API密钥。强烈建议先在电脑上通过OpenAI官网生成一个密钥,并为其设置使用额度(如每月10美元)和仅限调用指定模型,然后将密钥复制到手机。MANTIS会使用Android Keystore加密存储该密钥。
    • 模型选择:主代理模型选择gpt-4o,路由/廉价调用模型选择gpt-4o-mini
  3. 授予无障碍服务权限:点击“开启无障碍服务”,系统会跳转到设置页面。在“已下载的服务”或“已安装的服务”列表中找到“MANTIS”,点击进入并开启开关。系统会显示警告,仔细阅读后确认开启。完成后务必点击返回键回到MANTIS应用,它会自动检测。
  4. 授予屏幕捕获权限:点击“开启屏幕捕获”,系统会弹出一次性的授权对话框,询问“是否允许MANTIS录制屏幕内容?”。选择“立即开始”。此时状态栏应出现一个“屏幕录制”图标。
  5. 豁免电池优化:为了让MANTIS能在后台长期运行代理循环,需要防止系统为了省电而杀死它。点击后跳转到电池设置,找到MANTIS,将其电池策略设置为“无限制”或“允许后台活动”。
  6. 设置PIN锁(可选但推荐):为MANTIS应用本身加一道锁,防止他人误操作。设置一个4-6位的PIN码。
  7. 完成:至此,所有必要配置完成。你会进入MANTIS的主界面,顶部状态应显示“健康”(所有权限就绪)。

3.3 执行你的第一个自动化任务

让我们从一个简单且安全的任务开始,感受代理的工作流程。

  1. 输入任务:在主界面的输入框中,用自然语言描述任务。例如:打开微信,找到与‘文件传输助手’的对话,发送消息‘Hello from MANTIS!’
  2. 发送与观察:点击“发送”按钮。屏幕会短暂黑屏一下(这是开始屏幕捕获),然后你会看到:
    • 手机自动解锁(如果之前锁屏)。
    • 主屏幕出现,然后自动点击进入微信。
    • 微信界面被打开,代理可能会先尝试点击底部的“通讯录”或“搜索”图标。
    • 你会看到屏幕上可能出现带数字的绿色方框(Set-of-Marks模式),这是AI在识别可点击的元素。
    • 最终,它找到“文件传输助手”,点击进入聊天窗口,点击输入框,调用键盘输入指定文本,并点击“发送”。
  3. 理解结果:任务完成后,MANTIS主界面会显示“任务完成”的总结,并记录步骤数。你可以点击“历史”查看本次任务的详细JSON日志,了解AI每一步的思考和操作。

实操心得:第一次任务可能会比较慢,因为AI需要逐步探索。任务描述越精确越好。例如,“在微信中给‘张三’发消息说‘晚上开会’”就比“发个微信”要好得多。避免一开始就让它执行涉及支付、删除等不可逆的操作。

4. 核心功能深度解析与高级用法

掌握了基础操作后,我们可以探索MANTIS那些真正提升效率和安全性的高级功能。

4.1 技能系统:将复杂流程模板化

技能(Skills)是MANTIS的一个革命性设计,它解决了LLM在面对复杂、多步骤任务时可能出现的逻辑混乱问题。技能本质上是一个Markdown格式的“剧本”,预先定义好了完成某类任务的标准步骤和决策逻辑。

内置技能示例: 以“设置闹钟”技能为例。其Markdown模板可能包含以下逻辑:

1. 打开时钟应用。 2. 点击“闹钟”标签页。 3. 点击“添加”按钮。 4. 在时间选择器上,将时间调整为{{TIME}}。 5. 点击“确认”按钮。 6. 确保闹钟开关是打开状态。

当你使用这个技能,并输入参数“TIME=07:30”时,MANTIS不是将原始指令“设置一个早上7点半的闹钟”直接扔给LLM,而是将这个结构化的模板和参数注入上下文。LLM的工作被简化为在每一步根据当前屏幕截图,执行模板中指定的精确操作(如点击“添加”按钮),大大提高了复杂任务的可靠性和速度。

社区技能商店: 你可以在应用内的“技能商店”浏览由社区贡献的技能。这些技能托管在GitHub上,以.md文件形式存在。如果你经常需要完成某个特定流程(例如,每天上午从某个特定新闻APP抓取头条并保存到笔记),你可以自己编写一个技能文件,分享给社区。这极大地扩展了MANTIS的边界,使其从一个通用代理,进化成一个可被无限定制的工作流自动化平台。

4.2 主动调度器:让AI成为你的定时助手

这是将自动化从“被动响应”升级为“主动服务”的功能。你可以在“调度器”中创建定时任务。

配置一个每日天气提醒任务

  1. 点击“添加新调度”。
  2. 任务描述输入:打开天气应用,查看当前温度和天气状况,然后通过微信发送给‘自己’(文件传输助手)
  3. 设置重复周期为“每日”。
  4. 选择执行时间,例如“08:00”。
  5. 开启“时区跟随”(如果你经常跨时区旅行,这个功能非常实用)。
  6. 保存。

此后,每天上午8点,MANTIS会通过Android的WorkManager在后台启动,安静地执行这个任务。完成后,你会收到一条通知,显示任务结果摘要。即使手机重启,调度任务也会在开机后自动恢复。

4.3 安全机制:不可逆操作确认与任务接管

自动化越强大,安全闸门就越重要。MANTIS设计了多层防护。

  • 不可逆操作确认:当AI即将执行发送消息、删除文件、确认支付等操作时,它会自动暂停。你的手机顶部会弹出一条持续的通知,清晰地告诉你即将执行什么操作(例如“即将在微信中发送消息:‘转账1000元’”),并提供“允许”和“取消”两个按钮。你有60秒的时间做出决定。如果不做任何操作,60秒后代理会自动取消该步骤。这为你提供了最后的审查和否决权。
  • 任务中断与恢复:在代理执行任务的过程中,你可以随时点击MANTIS通知或应用内的“接管”按钮。代理会立即暂停,并将控制权完全交还给你。同时,一个“任务暂停”的通知会保留在通知栏。当你处理完紧急事务后,点击通知中的“恢复”,代理会重新截图,分析当前界面状态,并尝试从断点继续执行任务。这个功能对于处理需要临时介入的自动化流程至关重要。

4.4 权限健康监控与设备兼容性

Android生态的碎片化是此类系统级工具面临的最大挑战。不同厂商(小米、华为、三星、OPPO等)对后台服务和电池管理的策略千差万别。MANTIS的“权限健康”页面很好地解决了这个问题。

  • 状态仪表盘:主界面顶部的横幅会实时显示三种状态:
    • 绿色(健康):所有权限正常,代理可全功能运行。
    • 黄色(降级):部分权限受限(例如无障碍服务被系统临时禁用),代理可能运行不稳定或部分功能失效。
    • 红色(损坏):关键权限(如无障碍或屏幕捕获)缺失,代理无法运行。
  • 一键修复向导:点击非绿色的状态栏,会进入一个设备制造商专属的修复指南页面。例如,对于小米手机,它会详细列出步骤:“前往‘设置’->‘应用设置’->‘授权管理’->‘自启动管理’,找到MANTIS并开启;然后返回,进入‘省电策略’,设置为‘无限制’。” 这个向导极大地降低了用户的配置门槛和排查成本。

5. 常见问题排查与实战优化技巧

在实际使用中,你可能会遇到一些问题。以下是我在长期测试中总结的常见故障及其解决方案,以及一些提升成功率的技巧。

5.1 代理执行失败或行为异常

问题现象可能原因排查与解决步骤
代理不执行任何操作,或提示“无法开始”1. 无障碍服务未启用或已被系统关闭。
2. 屏幕捕获权限未授予或已失效。
3. API密钥无效或余额不足。
1. 检查MANTIS主界面顶部状态,如果是红色或黄色,点击进入修复向导。
2. 重新进入Android“无障碍”设置,确认MANTIS服务开关是打开的。有时系统更新或内存清理后会关闭它。
3. 重新授权屏幕捕获(每次重启后可能需要重新授权一次)。
4. 前往设置,检查API密钥是否正确,或登录提供商后台查看额度。
代理点击位置错误,或一直在某个界面循环1. LLM对当前UI界面理解有误。
2. 网络延迟导致截图与操作指令不同步。
3. 应用界面动态加载(如瀑布流),元素位置变化。
1.启用Set-of-Marks:在MANTIS设置中开启此功能。AI会为屏幕上可操作元素标上数字,它通过数字索引点击,比通过模糊的文本描述更精确。
2.优化任务描述:在指令中提供更明确的上下文。例如,不说“点赞第一条帖子”,而说“在微博首页,找到第一条带有图片的帖子,点击右下角的心形点赞按钮”。
3.手动介入并恢复:点击“接管”,手动将界面滚动到正确位置,再点击“恢复”,让AI基于新截图继续。
代理无法输入文字1. MANTIS的输入法(IME)未被启用或选中。
2. 目标输入框无法通过无障碍服务获取焦点。
1. 当代理需要输入时,确保弹出的键盘是“MANTIS Keyboard”。如果不是,手动点击输入框,在键盘选择器里切换到它。
2. 对于一些游戏或特殊定制的输入框,无障碍服务可能无法工作。这是一个系统限制,可尝试先由手动点击输入框并调出键盘,再由代理接管输入。
后台任务调度不执行1. 系统电池优化杀死了后台服务。
2. 设备制造商(如小米、华为)的后台管理策略限制。
1. 严格按照“权限健康”向导,为MANTIS设置“无限制”的电池优化策略和“允许自启动”。
2. 在手机管家中,将MANTIS加入“清理白名单”或“受保护应用”列表。
3. 测试时,可以尝试让手机连接充电器,这通常能减少系统的后台限制。

5.2 提升任务成功率的进阶技巧

  1. 分而治之:对于非常复杂的任务,不要试图用一个指令完成。将其拆分成多个子任务,依次执行。例如,“将上周拍摄的所有照片备份到网盘”可以拆分为:① 打开相册应用;② 切换到“按日期查看”模式;③ 选择上周的日期范围;④ 点击“全选”;⑤ 点击“分享”按钮;⑥ 在分享列表中选择网盘应用。你可以先让代理执行前两步,确认无误后再执行后续。
  2. 利用记忆上下文:在任务描述中,主动引用记忆文件中已有的信息。例如,如果你之前让MANTIS给“Alice”发过消息,记忆里存下了“Alice”在通讯录中的备注名。下次你可以直接说“像上次一样给Alice发个问候”,AI结合记忆,成功率更高。
  3. 模型选择策略:对于涉及复杂逻辑判断或陌生界面的任务,在设置中临时将主代理模型切换到能力最强的gpt-4oclaude-3-5-sonnet。对于日常的、重复性的简单任务(如每天打开某个应用签到),可以切回成本更低的gpt-4o-mini。这种混合策略能在效果和成本间取得平衡。
  4. 任务历史复盘:每次失败的任务都是一次学习机会。务必去“历史”记录里查看详细的JSON日志。里面记录了AI每一步收到的截图、发出的指令以及系统的响应。通过分析这些日志,你可以精准定位是AI理解错了界面元素,还是操作执行时遇到了技术障碍,从而优化你的指令或发现潜在的兼容性问题。

5.3 隐私与安全自检清单

尽管MANTIS设计上以隐私为先,但作为用户,我们仍需保持清醒:

  • [ ]API密钥安全:仅在OpenAI/Anthropic/Google官方平台生成密钥,并为该密钥设置用量限制和过期时间。定期轮换密钥。
  • [ ]权限审视:定期进入手机设置,查看MANTIS拥有的权限(无障碍、屏幕捕获)。确保你了解这些权限正在被使用。
  • [ ]记忆文件审查:偶尔打开MANTIS设置中的记忆文件查看器,看看AI记录了什么。删除任何你认为敏感或不需要的信息。
  • [ ]网络监控(可选):对于技术用户,可以使用抓包工具(如HTTP Toolkit)监控手机流量,确认MANTIS发出的请求仅指向你所配置的LLM提供商API端点,且不包含其他数据。
  • [ ]物理安全:如果设置了PIN锁,请妥善保管。因为一旦解锁,MANTIS就能操控你的手机。

MANTIS代表了一种新的可能性:将强大的AI能力以一种私密、可控、可视化的方式融入我们的移动设备日常。它不再是一个黑箱般的云服务,而是一个你可以观察、干预、甚至定制其“思维模式”的数字伙伴。从自动处理繁琐的日常操作,到定时执行个性化的信息收集,它的潜力取决于你如何设计和引导。当然,它目前仍处于发展阶段,对复杂动态界面的处理、对模糊指令的理解还有提升空间,但其所构建的“本地AI代理”范式,已经为我们打开了一扇通往未来人机交互的大门。我最深的体会是,与其等待一个完美的全能AI助手,不如像使用MANTIS这样,从一个具体的、可解释的自动化场景开始,亲手塑造属于你自己的智能效率工具。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 9:31:51

用DS1302给51单片机做个电子钟,手把手教你从接线到调校(附完整代码)

用DS1302给51单片机打造高精度电子钟:从硬件搭建到软件调校全指南 第一次接触电子钟项目时,我被那个小小的DS1302芯片深深吸引——它能在断电后依然保持时间走动,还能用普通的32.768kHz晶振实现日误差不超过2秒的精度。本文将带你完整实现一个…

作者头像 李华
网站建设 2026/5/8 9:29:57

Windows平台Cursor智能体适配方案:PowerShell兼容层实现与应用

1. 项目概述:一个专为Windows设计的Cursor智能体 如果你和我一样,是个重度依赖Cursor编辑器,同时又主要工作在Windows环境下的开发者,那么你很可能已经对“智能体”这个概念又爱又恨。爱的是,它能极大地提升编码效率&a…

作者头像 李华
网站建设 2026/5/8 9:29:56

Zotero Style插件:让你的文献管理变得直观高效的终极解决方案

Zotero Style插件:让你的文献管理变得直观高效的终极解决方案 【免费下载链接】zotero-style Ethereal Style for Zotero 项目地址: https://gitcode.com/GitHub_Trending/zo/zotero-style 在学术研究的海洋中,文献管理常常成为研究者最头疼的问题…

作者头像 李华
网站建设 2026/5/8 9:28:04

百度网盘直链解析技术深度解密:突破限速封锁的完整技术方案

百度网盘直链解析技术深度解密:突破限速封锁的完整技术方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘令人沮丧的下载速度而困扰吗&#xff1f…

作者头像 李华
网站建设 2026/5/8 9:27:37

长链分子预测与防御:GNN与蒸馏机制实战

1. 项目概述 在化学信息学与计算毒理学领域,长链分子结构的推理一直是个棘手的难题。我最近在实验室里折腾了三个月,终于摸索出一套结合分子式结构分析与蒸馏防御机制的解决方案。这套方法不仅能准确预测长链分子的理化性质,还能有效抵御对抗…

作者头像 李华
网站建设 2026/5/8 9:24:30

Scroll Reverser终极指南:揭秘macOS滚动方向深度定制技术

Scroll Reverser终极指南:揭秘macOS滚动方向深度定制技术 【免费下载链接】Scroll-Reverser Per-device scrolling prefs on macOS. 项目地址: https://gitcode.com/gh_mirrors/sc/Scroll-Reverser 在macOS生态中,滚动方向冲突是许多用户面临的共…

作者头像 李华