UI-TARS-desktop行业落地：医疗信息科自动抓取检验报告→结构化入库→触发审核流程-编程阁

UI-TARS-desktop行业落地：医疗信息科自动抓取检验报告→结构化入库→触发审核流程

医疗信息科每天都要处理海量的检验报告，从不同系统抓取、手动整理、核对数据、再录入到数据库，最后还要走审核流程。这个过程不仅耗时费力，还容易出错。一个数据录入错误，可能就会影响后续的诊疗决策。

有没有一种方法，能让这个流程自动跑起来？让AI代替人工去抓取报告、理解内容、整理成结构化数据，并自动触发下一步的审核？今天，我们就来聊聊如何用UI-TARS-desktop这个AI应用，在医疗信息科实现从“报告抓取”到“审核触发”的全流程自动化。

1. 医疗信息科的业务痛点与自动化机遇

在深入技术细节之前，我们先看看医疗信息科日常工作中最耗时的几个环节：

报告来源分散：检验报告可能来自LIS（实验室信息系统）、HIS（医院信息系统）的接口文件，甚至是医生手动上传的PDF或图片，格式不一。
信息提取困难：报告中的关键信息（如患者ID、检验项目、结果、单位、参考范围、异常标志）需要人工识别并摘录。
结构化录入繁琐：提取出的信息需要按照数据库字段要求，手动录入或导入，容易产生错位或遗漏。
审核流程依赖人工：数据入库后，需要人工在系统内点击“提交审核”或通知审核人员，流程衔接不自动。

UI-TARS-desktop的出现，为破解这些痛点提供了新思路。它不是一个简单的脚本工具，而是一个内置了视觉理解和逻辑推理能力的“AI数字员工”。我们可以教会它看懂各种格式的检验报告，理解其中的语义，执行标准化的数据提取与录入动作，并最终模拟人工操作去触发审核流程。

2. UI-TARS-desktop与Qwen大模型：你的自动化核心引擎

2.1 UI-TARS-desktop是什么？

简单来说，UI-TARS-desktop是一个运行在你电脑上的、拥有“眼睛”和“大脑”的自动化智能体（AI Agent）。

它的“眼睛”是GUI Agent能力：它能像人一样“看到”并操作电脑屏幕上的任何软件界面，无论是浏览器、桌面应用还是系统弹窗。这意味着它不需要软件提供专门的API接口，就能进行交互。
它的“大脑”是内置的Qwen3-4B-Instruct模型：这是一个经过指令微调的大语言模型，负责理解任务目标、分析屏幕信息、做出决策并规划操作步骤。比如，它能看懂一份PDF报告里哪些是患者姓名，哪些是检验数值。
它的“手”是丰富的工具集：它内置了文件操作、命令行执行、浏览器控制等工具，可以完成复制、粘贴、点击、输入、文件读写等一系列动作。

对于医疗信息科而言，这就相当于雇佣了一个不知疲倦、高度准确、且能同时操作多个系统的全能助手。

2.2 快速验证你的自动化引擎是否就绪

在使用前，我们需要确保UI-TARS-desktop及其核心“大脑”（Qwen模型服务）已经正常启动。

首先，进入工作目录并查看模型服务的启动日志：

cd /root/workspace cat llm.log

如果看到日志中包含模型成功加载、服务端口监听等信息（如下图所示），则说明推理引擎已就绪。

接着，打开UI-TARS-desktop的Web前端界面。通常，你可以在浏览器中访问http://<你的服务器IP>:<端口号>。打开后，你会看到一个清晰的任务控制面板。

可视化效果如下：界面左侧是任务列表和日志，中间是主操作区，右侧是智能体的状态和工具调用情况。整个设计非常直观，即使不是开发人员也能快速上手。

3. 四步构建检验报告全流程自动化

下面，我们以一个经典场景为例：定时从指定文件夹抓取新增的PDF格式检验报告，提取信息后录入医院数据库，并自动在OA系统中创建审核工单。

3.1 第一步：教会AI识别与提取报告信息

我们需要创建第一个智能体任务，命名为“报告信息提取员”。这个任务的核心是让AI看懂PDF报告。

在UI-TARS-desktop中，我们可以通过自然语言描述任务：

任务目标：打开指定路径下的PDF检验报告文件，识别并提取以下结构化信息： - 患者姓名 - 病历号/患者ID - 检验日期 - 检验项目名称（如：白细胞计数） - 检验结果数值 - 结果单位 - 参考值范围 - 异常标志（如有） 将提取出的信息整理成JSON格式。

UI-TARS-desktop会利用其视觉理解能力，解析PDF的版面布局和文字内容，并由Qwen模型判断文字的逻辑归属。你无需编写复杂的正则表达式或OCR规则。

3.2 第二步：配置数据入库自动化流程

信息提取出来后，下一步是录入数据库。我们创建第二个智能体任务：“数据库录入员”。

这个任务需要连接医院的数据库。我们可以通过UI-TARS-desktop的“工具配置”功能，预先设置好数据库连接参数（如MySQL连接串）。然后，给智能体下达指令：

任务目标：接收上一任务输出的JSON数据。连接到预配置的“检验报告数据库”。 执行操作：将JSON中的每个字段，插入到数据库`lab_reports`表的对应列中。 关键要求：插入前检查“病历号”和“检验日期”是否已存在相同记录，避免重复录入。 插入成功后，在日志中记录“录入成功”并返回新记录ID。

智能体会自动调用数据库操作工具，执行SQL语句，完成精准的数据入库。

3.3 第三步：模拟人工操作触发审核流程

数据入库后，很多医院还需要在OA或流程系统中手动提交审核申请。现在，我们可以用第三个智能体任务“审核流程触发器”来完成。

这个任务展示了UI-TARS-desktop作为“GUI Agent”的强大之处。假设医院的审核流程需要在Chrome浏览器中登录某个内部系统页面进行操作。

任务目标：在Chrome浏览器中自动打开医院内部审核系统页面。 执行操作： 1. 自动填入用户名和密码登录（密码可加密存储）。 2. 导航到“新建审核工单”页面。 3. 在表单中，填入刚入库的“记录ID”和“患者姓名”等信息。 4. 选择审核类型为“检验报告入库审核”。 5. 点击“提交”按钮。 6. 捕获系统返回的“工单号”，并记录到总日志中。

智能体会像真人一样操作浏览器，点击、输入、提交。即使页面布局稍有变化，其视觉理解能力也能在一定程度上适应。

3.4 第四步：串联任务，构建完整工作流

单个任务能力再强，也需要协作。UI-TARS-desktop支持任务编排。我们可以创建一个主控工作流：

文件监听：使用“文件系统工具”监控某个文件夹（如/data/new_reports/），当有新的PDF文件放入时，触发流程。
顺序执行：
- 调用“报告信息提取员”，处理新文件。
- 将提取的JSON结果，传递给“数据库录入员”。
- 如果数据库录入成功并返回记录ID，则调用“审核流程触发器”，传入记录ID。
异常处理：在任何一步失败时（如文件损坏、数据库连接失败），发送通知告警（如调用邮件工具），并记录详细错误日志。

这样，一个完整的、端到端的自动化流程就搭建完成了。一旦部署，它就可以7x24小时无声无息地处理报告，将医护人员从重复劳动中解放出来。