上海市第一人民医院、香港城市大学AML实验室与蚂蚁集团联合研发的眼科临床文档辅助系统 LAOS,近日被Nature《npj Digital Medicine》(影响因子 15.1)收录,该系统创新融合语音识别、检索增强生成(RAG)与低秩适配(LoRA)技术,构建眼科核心场景专用数据集与临床评估体系,在入院记录、手术记录、出院小结三类关键文档任务中,仅用 7B-13B 参数模型便实现超越人工专家的文档质量,更将医生文档撰写时间平均缩短 62%,为眼科临床工作流减负提供了兼具技术突破性与落地实用性的解决方案。《npj Digital Medicine》是《自然》(Nature)出版集团旗下的一本国际学术期刊,专注于数字医学领域的科学研究,涵盖数字医疗技术、数据科学、远程医疗、患者参与和伦理政策等内容。该刊于2018年创刊,已被SCIE数据库收录,在中国科学院和JCR分区中均属于高水平的1区Top期刊。文章的详细介绍如下:
背景介绍
随着电子健康记录(EHR)在医疗领域的全面普及,其在提升诊疗质量的同时,也给临床医生带来了沉重的文档负担。尤其在眼科领域,专科医生的接诊量是其他科室的 1.6 倍,日间手术占比高达 70%,导致住院医师的文档工作量剧增。
传统临床文档依赖人工录入,存在三大核心痛点:
- 耗时严重:医生 36%-40% 的工作时间用于文档处理,日均额外加班 1-2 小时 “pajama time”;
- 质量不均:人工记录易出现术语不规范、信息遗漏或冗余问题,尤其在双侧眼部检查、手术步骤描述等场景;
- 流程割裂:语音输入与 EHR 系统衔接不畅,中英混排术语(如 “IOP”“vitreous opacity”)识别准确率低,且难以实时生成结构化文档。
为解决这些问题,LAOS 框架应运而生。它将语音实时转写、领域知识检索与 LLM 生成能力深度整合,构建了端到端的临床文档自动化生成系统。通过针对眼科场景的专项优化,实现了从临床对话到结构化病历的高效转化,同时通过 “定量指标 + 临床专家评估” 双验证体系保障文档的医疗合规性。
技术难点
实现眼科临床文档自动化生成面临三大核心挑战:
- 领域适配难:眼科术语专业性强(如 “angle-closure glaucoma”“diabetic retinopathy”)、中英混排频繁,且双侧眼部检查需严格区分左右眼记录,手术流程文档需精准描述术中操作与器械使用,通用模型难以捕捉这些特性;
- 多目标平衡难:临床文档需同时满足准确性(无事实错误,如眼压数值、用药方案)、完整性(关键信息无遗漏,如既往病史、辅助检查结果)与简洁性(无冗余内容,避免影响诊疗效率),三者存在天然张力;
- 临床兼容性难:系统需无缝集成现有 EHR 系统,在手术室(设备噪声)、门诊(人员嘈杂)等复杂环境中保持稳定性能,同时需符合《个人信息保护法》与医疗数据隐私要求,无法依赖外部云端服务。
方法
LAOS 由四大核心模块构成,形成了从 “语音输入→文本转写→知识增强→结构化输出” 的全流程解决方案,其整体工作流如下图所示:
1. 语音识别模块:专科化语音转文字
基于 Paraformer 非自回归模型构建语音识别引擎,通过 LoRA 技术进行眼科专项微调,解决中英混排与噪声环境下的转写问题:
- 训练数据构建:融合公开普通话语音数据集(AISHELL-1、MagicData)与 50 小时眼科专有语音数据。数据来源于上海总医院手术室、门诊的真实诊疗场景,包含患者病史采集、检查描述、手术对话等内容,其中 80% 为普通话,20% 为英文医疗术语(如药物名 “mannitol”、检查项 “IOP”);
- 噪声抑制优化:采用两阶段降噪 pipeline:① 谱减法处理空调、仪器运行等稳态背景噪声;② 深度学习降噪自编码器(基于临床噪声数据训练)解决手术器械碰撞、患者对话等非稳态噪声;
- 性能指标:在临床场景中,普通话医疗术语的词错误率(WER)达 4.2%,英文医疗术语 WER 达 5.1%,平均转写延迟 0.3 秒,支持 30 分钟连续无间断处理,满足手术全程记录需求。
2. 模型选型与领域适配:高效参数优化
筛选适配临床场景的基础模型,并通过 LoRA 微调与 Prompt 工程提升眼科任务性能,核心考量双语能力、本地部署可行性与资源 - 性能平衡:
- 基础模型选型:对比 5 类候选模型(ChatGLM2-6B、Baichuan-13B、Qwen-7B、Qwen2-7B、Baichuan-13B-SFT),最终选定 Qwen2-7B 作为基础模型。其优势在于:① 中英双语处理能力强,适配眼科中英混排文档;② 7B 参数规模可在医院本地服务器部署,符合隐私要求;③ 指令跟随能力优,经微调后可生成结构化病历;
- LoRA 微调策略:针对眼科任务优化,仅更新模型关键注意力层参数(如自注意力 QKV 矩阵、Feed-Forward 网络),具体配置为:秩(rank)=8,学习率 = 1e-4,批大小 = 128,在 1000 例高质量眼科临床病例(含白内障、青光眼、视网膜脱离等常见病种)上训练 3 轮,通过验证集困惑度(PPL)早停(耐心值 = 3),避免过拟合;
- 结构化 Prompt 设计:构建六组件提示词模板,确保生成文档符合临床规范,具体组件如下表所示
| 组件 | 描述 |
|---|---|
| 专业身份定义 | “你是专业眼科医生,需基于临床对话生成符合上海总医院格式的病历,术语使用需规范” |
| 任务指令 | “基于输入的语音转写文本,生成 [入院记录 / 手术记录 / 出院小结],包含核心 sections(如现病史、查体、诊断)” |
| 格式要求 | “使用 JSON 格式输出,严格区分左眼(OS)、右眼(OD)信息,避免左右眼混淆” |
| 术语规范 | 引用 RAG 检索的眼科标准术语(如 “急性闭角型青光眼” 而非 “青光眼急性发作”) |
| 示例参考 | 提供 1-2 例同类病种的高质量病历片段作为生成参考(来源于 RAG 知识库) |
| 输入材料 | 语音转写文本 + 患者基本信息(如年龄、性别,用于上下文补充) |
3. RAG 模块:知识增强与幻觉抑制
构建眼科专用知识库,通过 “检索 - 重排 - 生成” 流程提升文档准确性,减少模型幻觉,确保术语与诊疗方案符合临床指南:
- 知识库构建:整合三类核心数据,形成结构化知识源:① 10000 + 份上海总医院历史 EHR 数据(去标识化处理,经伦理审批);② 眼科权威教材与指南(如《眼科学》第 9 版、《中国青光眼诊疗指南 2023》);③ 医院标准化文档模板(如入院记录必填 sections、手术记录术中发现格式);
- 检索技术实现:① 向量数据库选用 Chroma,支持高效相似性检索;② 嵌入模型选用 BGE-Large-En,其在医疗文本语义理解任务上表现优于 all-MiniLM-L6-v2;③ 文档切分策略:将知识库文本按 512token 片段分割,片段间保留 50token 重叠,避免关键信息割裂;④ 推理时检索逻辑:输入文本经嵌入后,从知识库检索 Top5 相似文档,再通过 bgereranker-large 模型重排,筛选最相关的 2-3 份文档作为生成参考;
- 核心价值:在白内障相关文档生成中,RAG 技术使模型的 BERTScore 提升 8.3%,ROUGE-L 提升 6.5%,显著减少 “虚构用药方案”“错误检查结果” 等幻觉问题,同时确保术语使用与医院现有 EHR 系统一致。
4. 临床文档生成与双级评估体系
针对眼科三类核心文档(入院记录、手术记录、出院小结)进行专项优化,并建立 “定量指标 + 临床专家评估” 双级体系,验证系统临床可用性:
分场景文档优化:
- 入院记录:重点优化 “现病史”“既往史”“辅助检查” sections,确保病史时间线清晰,阳性体征无遗漏;
- 手术记录:强化 “术中发现”“手术步骤”“术后处理” 描述,要求精准记录器械使用(如 “超声乳化仪”)、操作细节(如 “人工晶状体植入囊袋内”);
- 出院小结:突出 “治疗过程”“出院医嘱”“随访计划”,确保用药剂量、复查时间等关键信息明确;
双级评估体系:
- 定量指标:采用 NLP 领域常用的三项指标评估文本质量 ——① BLEU(词序列匹配,评估准确性);② ROUGE-L(最长公共子序列,评估完整性);③ BERTScore(上下文语义相似度,评估语义一致性);
- 临床专家评估:邀请 26 名上海总医院眼科住院医师(1 年资历,熟悉临床文档规范),基于 “Voice-to-Text Clinical Evaluation Scale(V2T-CES)” 评分。量表包含 3 个维度(准确性、效率、系统兼容性)共 10 个评估项,采用 5 分制(1 = 强烈不同意,5 = 强烈同意),并设置临床可用性阈值(总分≥80 分可用,≥85 分可替代人工初稿);
错误类型与风险控制:
- 定义三类文档错误(歧义误解、事实错误、幻觉),通过 5 名副主任医师以上资质的专家评估。结果显示,LAOS 生成文档的总体不可用率仅 6.4%(低于人工记录的 7.8%),且无 “可能导致误诊 / 误治” 的严重错误(如错误诊断、剂量错误),符合临床安全要求。
实验结果
1. 核心性能指标汇总
LAOS 在语音识别、文档生成效率、临床评估三大维度的核心表现如下表所示:
| 评估维度 | 具体指标 | 结果数据 |
|---|---|---|
| 语音识别 | 普通话医疗术语 WER | 4.2% |
| 英文医疗术语 WER | 5.1% | |
| 眼科术语识别准确率 | 83.2% | |
| 文档生成效率 | 入院记录平均生成时间(含检索) | 157±41 秒 / 份 |
| 手术记录平均生成时间(含检索) | 98±22 秒 / 份 | |
| 出院小结平均生成时间(含检索) | 164±27 秒 / 份 | |
| 较人工文档时间缩短比例 | 62% | |
| 临床评估 | V2T-CES 综合评分 | 84.1 分(≥80 分临床可用) |
| 系统与现有 EHR 兼容性 | 81.4% | |
| 医生反馈 “患者参与度提升” 比例 | 87% | |
| 文档质量 | 总体不可用率(错误导致无法使用) | 6.4%(人工为 7.8%) |
| 出院小结 BERTScore | 82-86(手术记录为 80-84) |
2. 分文档类型性能对比
LAOS 在入院记录、手术记录、出院小结三类任务中的表现存在差异。出院小结性能最优,手术记录挑战最大,具体数据如下(基于 Qwen2-7B-SFT-RAG 模型):
- 出院小结:表现最佳,三项指标均达最高 ——BERTScore 82-86,ROUGE-L 45-55,BLEU 16-22。临床评估中,“出院医嘱” section 的完整性评分达 3.1±2.7(p=0.008),“出院状态” 简洁性评分达 3.4±4.2(p=0.003),原因在于出院小结结构高度标准化,且训练数据充足;
- 入院记录:性能居中 ——BERTScore 81-85,ROUGE-L 40-50,BLEU 14-20。“既往史” section 完整性最优(3.1±2.7,p=0.009),“辅助检查” 简洁性最优(3.3±2.5,p=0.006),但 “现病史” 时间线描述偶有逻辑偏差;
- 手术记录:挑战最大,三项指标最低 ——BERTScore 80-84,ROUGE-L 35-45,BLEU 10-16。仅 “术中发现” section 达统计显著(2.6±6.9,p=0.005),主要因手术流程多变(如不同医生操作习惯差异)、术中突发情况多(如 “出血”“眼压骤升”),导致模型难以精准捕捉所有细节。
3. 临床价值验证
通过医生反馈与实际 workflow 测试,验证 LAOS 的临床实用价值:
- 医生工作负担减轻:26 名测试医生中,87% 反馈 “文档时间减少,可更多关注患者”。如门诊医生平均每接诊 1 名患者,文档时间从 20 分钟缩短至 8 分钟,可增加 3-4 名日接诊量;手术医生可在术中通过语音实时记录,无需术后补记,日均加班时间减少 1 小时;
- 文档质量提升:人工审核 LAOS 生成的 500 份文档,发现错误率较纯人工记录下降 33%-50%。其中 “左右眼混淆” 错误从 12% 降至 3%,“术语不规范” 错误从 18% 降至 5%,“信息遗漏” 错误从 20% 降至 8%;
- 环境适应性:在手术室嘈杂环境(噪声强度 60-80dB)中,语音识别准确率仅下降 12%(从 83.2% 降至 73.2%),优于同类通用医疗语音系统(平均下降 25%);系统与上海总医院现有 EHR 系统(基于 HL7 标准)无缝集成,支持自动填充 “患者 ID”“诊断编码” 等结构化字段,无需人工二次录入。
总结与未来方向
LAOS 通过 “语音识别 + 领域适配 LLM+RAG 知识增强” 的深度融合,成功解决了眼科临床文档生成的三大核心痛点(效率低、质量不均、流程割裂),其创新点在于:① 首次构建眼科专用的语音 - 文档端到端系统,适配专科术语与场景需求;② 建立 “定量 + 临床” 双级评估体系,确保系统安全可用;③ 实现本地部署与隐私保护,符合医疗数据合规要求。
未来可从三方面进一步优化:
- 扩展疾病覆盖范围:当前模型在白内障、青光眼等常见病种表现最优,未来需增加罕见眼病(如 “黄斑变性”“眼外伤”)的训练数据,提升复杂病例的文档生成能力;
- 多模态信息融合:整合眼底照片、OCT 检查图像等视觉数据,实现 “语音 + 图像” 多源输入的文档生成。例如,模型可自动识别眼底照片中的 “视网膜出血”,并补充至 “辅助检查” section;
- 跨科室迁移适配:将 LAOS 框架推广至内科、外科等文档密集型科室。如针对心内科优化 “心电图描述”“用药方案” 生成,针对外科优化 “手术切口描述”“术后并发症记录”,形成通用临床文档辅助解决方案。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。