MANTIS：基于Android的本地AI代理，实现手机自动化任务执行-编程阁

1. 项目概述：一个运行在你手机里的“数字管家”

如果你和我一样，对手机上那些号称“智能”的语音助手感到失望——它们要么只能回答简单问题，要么就是把你引向一个网页搜索——那么MANTIS的出现，可能会彻底改变你的看法。这不是一个聊天机器人，而是一个真正能“动手”的AI代理。你可以把它理解为一个运行在你手机里的数字管家，它能看到你的屏幕，操控你的应用，并按照你的自然语言指令，自主完成一系列复杂的任务。

想象一下这个场景：你正在开车，突然想起需要给家人发个消息。你不需要冒险去触碰手机，只需对MANTIS说一句：“给妈妈发个微信，说我晚上七点到家。”接下来，你会看到你的手机屏幕自己亮起，微信被自动打开，通讯录被滚动，妈妈的聊天窗口被选中，文字被输入，最后“发送”按钮被点击。整个过程，你就像一个旁观者，看着另一个“你”在熟练地操作手机。这就是MANTIS的核心魅力：全自动化、本地化、可视化的AI任务执行。

与市面上绝大多数需要将你的屏幕截图、操作记录上传到云端服务器进行处理的方案不同，MANTIS坚守“你的手机，你的AI，无云端”的原则。所有的AI推理、任务规划、操作执行都发生在你的设备本地。唯一需要与外界通信的，是将屏幕截图和任务描述发送给你自己选择的AI服务提供商（如OpenAI、Claude等）以获取下一步的操作指令，而你的API密钥被安全地存储在Android的硬件级密钥库中。这意味着你的隐私、聊天记录、应用数据都牢牢锁在你的手机里。对于注重隐私和安全，又渴望自动化便利的用户来说，这无疑是一个极具吸引力的解决方案。

2. 核心架构与工作原理拆解

要理解MANTIS如何工作，我们需要深入其技术内核。它本质上实现了一个经典的“感知-思考-行动”自主代理循环，并将其紧密地集成在Android系统之上。

2.1 自主代理循环：感知、思考、行动的闭环

MANTIS的核心是一个运行在后台的紧密循环，我将其称为“代理心跳”。这个循环的每一次跳动，都代表AI完成了一次对手机状态的观察、分析和干预。

感知（Perception）：循环开始，MANTIS通过Android的MediaProjectionAPI捕获当前屏幕的实时截图。这是AI的“眼睛”，让它能看到和你一模一样的界面。
思考（Cognition）：这张截图，连同你最初下达的任务描述（例如“订一份披萨外卖”），以及可能存在的上下文记忆（例如你常去的披萨店），被一起打包，发送给你预先配置好的大型语言模型（LLM），例如GPT-4o或Claude Sonnet。AI模型的任务是分析这张图，理解当前处于哪个应用、哪个界面，并基于最终目标，决定下一步最应该做什么。它会返回一个结构化的操作指令，比如{"action": “tap”， “target”: “搜索框”}或{"action": “type”， “text”: “达美乐披萨”}。
行动（Action）：收到指令后，MANTIS通过Android的AccessibilityService（无障碍服务）来执行操作。这是一个系统级权限，允许应用模拟用户交互，如点击、滑动、输入文本。执行完毕后，循环回到第一步，再次截图，观察操作结果（例如搜索框是否已输入文字），然后继续思考下一步（例如点击搜索结果中的第一家店）。这个循环会一直持续，直到LLM判断任务已完成、无法继续，或者你手动中断。

注意：这个循环的稳定性高度依赖于LLM对UI界面的理解能力。复杂的、动态加载的界面（如某些新闻信息流）可能会让AI困惑。因此，初始任务描述越清晰，成功率越高。

2.2 技术基石：Android无障碍服务与屏幕捕获

MANTIS的强大操控能力建立在两项关键的Android系统特性之上，理解它们有助于我们更好地配置和使用。

Android无障碍服务（Accessibility Service）：这是实现自动化操控的“手”。启用后，MANTIS可以：
- 遍历视图树：获取屏幕上所有UI元素（按钮、文本框、列表项）的详细信息，包括其文本、坐标、是否可点击等。这为AI提供了丰富的结构化界面信息。
- 执行操作：模拟用户点击、长按、滚动、返回等操作。MANTIS的“Set-of-Marks”功能（在可操作元素上显示数字边框）就是基于此服务实现的，它让AI能更精确地通过索引号定位元素。
- 监听全局事件：如通知、窗口状态变化，这有助于代理理解任务执行的上下文。
- 实操心得：在首次启用时，系统会给出强烈的安全警告，这是正常的。请务必只在官方渠道（如GitHub Releases页面）下载APK，并仔细检查你授予权限的应用确实是“MANTIS”。不同手机厂商（如小米、华为、OPPO）可能会在“电池优化”或“后台管理”中限制无障碍服务，需要在设置中额外为MANTIS开启“自启动”和“允许后台活动”。
媒体投影（MediaProjection）：这是实现屏幕捕获的“眼睛”。它允许应用在获得用户一次性授权后，持续录制或截取屏幕内容。MANTIS利用它来获取实时截图，供LLM分析。
- 隐私关键点：当你授权时，系统会有一个永久性的提示“正在录制屏幕”显示在状态栏。这是Android系统的安全设计，用于提醒用户当前有应用正在捕获屏幕内容。对于MANTIS，这恰恰是一个透明的体现——你随时都知道它在“看”。

2.3 多模型支持与本地记忆系统

MANTIS没有绑定任何特定的AI模型，而是将选择权交给了用户，这带来了灵活性和成本控制优势。

LLM提供商选型策略：你可以根据任务需求和预算，在设置中灵活选择AI“大脑”。

复杂任务（推荐）：使用能力更强的模型，如OpenAI的gpt-4o或Anthropic的claude-3-5-sonnet。它们对复杂界面的理解、多步骤规划能力更强，成功率更高。
简单任务或路由调用：为了节省成本，可以设置为使用更经济的小模型，如gpt-4o-mini或claude-3-5-haiku来处理一些简单的、标准化的操作判断。
完全本地化（高级）：理论上，MANTIS支持接入本地部署的LLM（通过提供本地API端点）。这对于追求极致隐私或网络隔离的用户是终极方案，但需要用户自行解决本地模型的部署和性能问题。

本地记忆系统：这是MANTIS体现“个性化”和“智能”的关键特性。它不是一个复杂的数据库，而是一个简单的Markdown文件（user_context.md）。每次任务完成后，代理会生成一段简短的总结，例如“用户于周五晚上通常会给‘妈妈’发送微信消息”。这段总结会被追加到这个文件中。当下一次你给出一个模糊指令如“像上次一样提醒妈妈”时，这个记忆文件的内容会被作为系统提示词的一部分注入给LLM。LLM便能联想到之前的记录，从而更准确地理解“上次”指的是什么。当文件过大时，MANTIS甚至会调用小模型（如Haiku）自动对其进行摘要，保持上下文的有效性。你可以随时在设置中查看、编辑或清空这个记忆文件，完全掌控AI对你的了解程度。

3. 从安装配置到首次任务实战

纸上谈兵终觉浅，让我们一步步将MANTIS部署到手机上，并完成第一个自动化任务。我将以一部运行Android 13的小米手机为例，演示完整流程。

3.1 安全获取与安装APK

由于MANTIS尚未上架Google Play商店，我们需要从官方源手动安装。

访问发布页面：在手机或电脑浏览器中，打开MANTIS的GitHub Releases页面：https://github.com/sajjad-vahdatzadeh/mantis/releases。务必确认域名正确，避免下载到恶意软件。
下载APK：找到最新的版本（通常标有“Latest”），在“Assets”折叠栏下，下载名为mantis-vX.X.X.apk的文件（X代表版本号）。
安装前准备：在Android手机上，进入“设置”->“安全”或“应用设置”，开启“允许来自此来源的应用”或“安装未知应用”的权限，针对你正在使用的浏览器或文件管理器。
安装APK：使用文件管理器找到下载的APK文件，点击安装。系统可能会提示“此安装程序包含恶意软件”的警告（这是Android对未知来源应用的常规检查），选择“继续安装”即可。安装完成后，不要急于打开。

3.2 初始配置与权限授予

首次启动MANTIS，会进入一个精心设计的7步引导流程，这是确保其正常工作的关键。

欢迎与命名：输入一个你喜欢的名字，这将被用于本地记忆和日志中。
选择AI提供商：这是核心配置。以使用OpenAI为例：
- 选择“OpenAI”。
- 在API Key字段，填入你的OpenAI API密钥。强烈建议先在电脑上通过OpenAI官网生成一个密钥，并为其设置使用额度（如每月10美元）和仅限调用指定模型，然后将密钥复制到手机。MANTIS会使用Android Keystore加密存储该密钥。
- 模型选择：主代理模型选择gpt-4o，路由/廉价调用模型选择gpt-4o-mini。
授予无障碍服务权限：点击“开启无障碍服务”，系统会跳转到设置页面。在“已下载的服务”或“已安装的服务”列表中找到“MANTIS”，点击进入并开启开关。系统会显示警告，仔细阅读后确认开启。完成后务必点击返回键回到MANTIS应用，它会自动检测。
授予屏幕捕获权限：点击“开启屏幕捕获”，系统会弹出一次性的授权对话框，询问“是否允许MANTIS录制屏幕内容？”。选择“立即开始”。此时状态栏应出现一个“屏幕录制”图标。
豁免电池优化：为了让MANTIS能在后台长期运行代理循环，需要防止系统为了省电而杀死它。点击后跳转到电池设置，找到MANTIS，将其电池策略设置为“无限制”或“允许后台活动”。
设置PIN锁（可选但推荐）：为MANTIS应用本身加一道锁，防止他人误操作。设置一个4-6位的PIN码。
完成：至此，所有必要配置完成。你会进入MANTIS的主界面，顶部状态应显示“健康”（所有权限就绪）。

3.3 执行你的第一个自动化任务

让我们从一个简单且安全的任务开始，感受代理的工作流程。

输入任务：在主界面的输入框中，用自然语言描述任务。例如：打开微信，找到与‘文件传输助手’的对话，发送消息‘Hello from MANTIS!’。
发送与观察：点击“发送”按钮。屏幕会短暂黑屏一下（这是开始屏幕捕获），然后你会看到：
- 手机自动解锁（如果之前锁屏）。
- 主屏幕出现，然后自动点击进入微信。
- 微信界面被打开，代理可能会先尝试点击底部的“通讯录”或“搜索”图标。
- 你会看到屏幕上可能出现带数字的绿色方框（Set-of-Marks模式），这是AI在识别可点击的元素。
- 最终，它找到“文件传输助手”，点击进入聊天窗口，点击输入框，调用键盘输入指定文本，并点击“发送”。
理解结果：任务完成后，MANTIS主界面会显示“任务完成”的总结，并记录步骤数。你可以点击“历史”查看本次任务的详细JSON日志，了解AI每一步的思考和操作。

实操心得：第一次任务可能会比较慢，因为AI需要逐步探索。任务描述越精确越好。例如，“在微信中给‘张三’发消息说‘晚上开会’”就比“发个微信”要好得多。避免一开始就让它执行涉及支付、删除等不可逆的操作。

4. 核心功能深度解析与高级用法

掌握了基础操作后，我们可以探索MANTIS那些真正提升效率和安全性的高级功能。

4.1 技能系统：将复杂流程模板化

技能（Skills）是MANTIS的一个革命性设计，它解决了LLM在面对复杂、多步骤任务时可能出现的逻辑混乱问题。技能本质上是一个Markdown格式的“剧本”，预先定义好了完成某类任务的标准步骤和决策逻辑。

内置技能示例：以“设置闹钟”技能为例。其Markdown模板可能包含以下逻辑：

1. 打开时钟应用。 2. 点击“闹钟”标签页。 3. 点击“添加”按钮。 4. 在时间选择器上，将时间调整为{{TIME}}。 5. 点击“确认”按钮。 6. 确保闹钟开关是打开状态。

当你使用这个技能，并输入参数“TIME=07:30”时，MANTIS不是将原始指令“设置一个早上7点半的闹钟”直接扔给LLM，而是将这个结构化的模板和参数注入上下文。LLM的工作被简化为在每一步根据当前屏幕截图，执行模板中指定的精确操作（如点击“添加”按钮），大大提高了复杂任务的可靠性和速度。

社区技能商店：你可以在应用内的“技能商店”浏览由社区贡献的技能。这些技能托管在GitHub上，以.md文件形式存在。如果你经常需要完成某个特定流程（例如，每天上午从某个特定新闻APP抓取头条并保存到笔记），你可以自己编写一个技能文件，分享给社区。这极大地扩展了MANTIS的边界，使其从一个通用代理，进化成一个可被无限定制的工作流自动化平台。

4.2 主动调度器：让AI成为你的定时助手

这是将自动化从“被动响应”升级为“主动服务”的功能。你可以在“调度器”中创建定时任务。

配置一个每日天气提醒任务：

点击“添加新调度”。
任务描述输入：打开天气应用，查看当前温度和天气状况，然后通过微信发送给‘自己’（文件传输助手）。
设置重复周期为“每日”。
选择执行时间，例如“08:00”。
开启“时区跟随”（如果你经常跨时区旅行，这个功能非常实用）。
保存。

此后，每天上午8点，MANTIS会通过Android的WorkManager在后台启动，安静地执行这个任务。完成后，你会收到一条通知，显示任务结果摘要。即使手机重启，调度任务也会在开机后自动恢复。

4.3 安全机制：不可逆操作确认与任务接管

自动化越强大，安全闸门就越重要。MANTIS设计了多层防护。

不可逆操作确认：当AI即将执行发送消息、删除文件、确认支付等操作时，它会自动暂停。你的手机顶部会弹出一条持续的通知，清晰地告诉你即将执行什么操作（例如“即将在微信中发送消息：‘转账1000元’”），并提供“允许”和“取消”两个按钮。你有60秒的时间做出决定。如果不做任何操作，60秒后代理会自动取消该步骤。这为你提供了最后的审查和否决权。
任务中断与恢复：在代理执行任务的过程中，你可以随时点击MANTIS通知或应用内的“接管”按钮。代理会立即暂停，并将控制权完全交还给你。同时，一个“任务暂停”的通知会保留在通知栏。当你处理完紧急事务后，点击通知中的“恢复”，代理会重新截图，分析当前界面状态，并尝试从断点继续执行任务。这个功能对于处理需要临时介入的自动化流程至关重要。

4.4 权限健康监控与设备兼容性

Android生态的碎片化是此类系统级工具面临的最大挑战。不同厂商（小米、华为、三星、OPPO等）对后台服务和电池管理的策略千差万别。MANTIS的“权限健康”页面很好地解决了这个问题。

状态仪表盘：主界面顶部的横幅会实时显示三种状态：
- 绿色（健康）：所有权限正常，代理可全功能运行。
- 黄色（降级）：部分权限受限（例如无障碍服务被系统临时禁用），代理可能运行不稳定或部分功能失效。
- 红色（损坏）：关键权限（如无障碍或屏幕捕获）缺失，代理无法运行。
一键修复向导：点击非绿色的状态栏，会进入一个设备制造商专属的修复指南页面。例如，对于小米手机，它会详细列出步骤：“前往‘设置’->‘应用设置’->‘授权管理’->‘自启动管理’，找到MANTIS并开启；然后返回，进入‘省电策略’，设置为‘无限制’。” 这个向导极大地降低了用户的配置门槛和排查成本。

5. 常见问题排查与实战优化技巧

在实际使用中，你可能会遇到一些问题。以下是我在长期测试中总结的常见故障及其解决方案，以及一些提升成功率的技巧。

5.1 代理执行失败或行为异常

问题现象	可能原因	排查与解决步骤
代理不执行任何操作，或提示“无法开始”	1. 无障碍服务未启用或已被系统关闭。 2. 屏幕捕获权限未授予或已失效。 3. API密钥无效或余额不足。	1. 检查MANTIS主界面顶部状态，如果是红色或黄色，点击进入修复向导。 2. 重新进入Android“无障碍”设置，确认MANTIS服务开关是打开的。有时系统更新或内存清理后会关闭它。 3. 重新授权屏幕捕获（每次重启后可能需要重新授权一次）。 4. 前往设置，检查API密钥是否正确，或登录提供商后台查看额度。
代理点击位置错误，或一直在某个界面循环	1. LLM对当前UI界面理解有误。 2. 网络延迟导致截图与操作指令不同步。 3. 应用界面动态加载（如瀑布流），元素位置变化。	1.启用Set-of-Marks：在MANTIS设置中开启此功能。AI会为屏幕上可操作元素标上数字，它通过数字索引点击，比通过模糊的文本描述更精确。 2.优化任务描述：在指令中提供更明确的上下文。例如，不说“点赞第一条帖子”，而说“在微博首页，找到第一条带有图片的帖子，点击右下角的心形点赞按钮”。 3.手动介入并恢复：点击“接管”，手动将界面滚动到正确位置，再点击“恢复”，让AI基于新截图继续。
代理无法输入文字	1. MANTIS的输入法（IME）未被启用或选中。 2. 目标输入框无法通过无障碍服务获取焦点。	1. 当代理需要输入时，确保弹出的键盘是“MANTIS Keyboard”。如果不是，手动点击输入框，在键盘选择器里切换到它。 2. 对于一些游戏或特殊定制的输入框，无障碍服务可能无法工作。这是一个系统限制，可尝试先由手动点击输入框并调出键盘，再由代理接管输入。
后台任务调度不执行	1. 系统电池优化杀死了后台服务。 2. 设备制造商（如小米、华为）的后台管理策略限制。	1. 严格按照“权限健康”向导，为MANTIS设置“无限制”的电池优化策略和“允许自启动”。 2. 在手机管家中，将MANTIS加入“清理白名单”或“受保护应用”列表。 3. 测试时，可以尝试让手机连接充电器，这通常能减少系统的后台限制。

5.2 提升任务成功率的进阶技巧

分而治之：对于非常复杂的任务，不要试图用一个指令完成。将其拆分成多个子任务，依次执行。例如，“将上周拍摄的所有照片备份到网盘”可以拆分为：① 打开相册应用；② 切换到“按日期查看”模式；③ 选择上周的日期范围；④ 点击“全选”；⑤ 点击“分享”按钮；⑥ 在分享列表中选择网盘应用。你可以先让代理执行前两步，确认无误后再执行后续。
利用记忆上下文：在任务描述中，主动引用记忆文件中已有的信息。例如，如果你之前让MANTIS给“Alice”发过消息，记忆里存下了“Alice”在通讯录中的备注名。下次你可以直接说“像上次一样给Alice发个问候”，AI结合记忆，成功率更高。
模型选择策略：对于涉及复杂逻辑判断或陌生界面的任务，在设置中临时将主代理模型切换到能力最强的gpt-4o或claude-3-5-sonnet。对于日常的、重复性的简单任务（如每天打开某个应用签到），可以切回成本更低的gpt-4o-mini。这种混合策略能在效果和成本间取得平衡。
任务历史复盘：每次失败的任务都是一次学习机会。务必去“历史”记录里查看详细的JSON日志。里面记录了AI每一步收到的截图、发出的指令以及系统的响应。通过分析这些日志，你可以精准定位是AI理解错了界面元素，还是操作执行时遇到了技术障碍，从而优化你的指令或发现潜在的兼容性问题。

5.3 隐私与安全自检清单

尽管MANTIS设计上以隐私为先，但作为用户，我们仍需保持清醒：

[ ]API密钥安全：仅在OpenAI/Anthropic/Google官方平台生成密钥，并为该密钥设置用量限制和过期时间。定期轮换密钥。
[ ]权限审视：定期进入手机设置，查看MANTIS拥有的权限（无障碍、屏幕捕获）。确保你了解这些权限正在被使用。
[ ]记忆文件审查：偶尔打开MANTIS设置中的记忆文件查看器，看看AI记录了什么。删除任何你认为敏感或不需要的信息。
[ ]网络监控（可选）：对于技术用户，可以使用抓包工具（如HTTP Toolkit）监控手机流量，确认MANTIS发出的请求仅指向你所配置的LLM提供商API端点，且不包含其他数据。
[ ]物理安全：如果设置了PIN锁，请妥善保管。因为一旦解锁，MANTIS就能操控你的手机。

MANTIS代表了一种新的可能性：将强大的AI能力以一种私密、可控、可视化的方式融入我们的移动设备日常。它不再是一个黑箱般的云服务，而是一个你可以观察、干预、甚至定制其“思维模式”的数字伙伴。从自动处理繁琐的日常操作，到定时执行个性化的信息收集，它的潜力取决于你如何设计和引导。当然，它目前仍处于发展阶段，对复杂动态界面的处理、对模糊指令的理解还有提升空间，但其所构建的“本地AI代理”范式，已经为我们打开了一扇通往未来人机交互的大门。我最深的体会是，与其等待一个完美的全能AI助手，不如像使用MANTIS这样，从一个具体的、可解释的自动化场景开始，亲手塑造属于你自己的智能效率工具。