【AI医疗】谷歌两大健康大模型深度解析：PH-LLM与智能体如何实现个性化医疗革命！-编程阁

简介

谷歌推出两项基于Gemini模型的创新健康大模型研究：个人健康大型语言模型(PH-LLM)和智能体框架。PH-LLM通过多模态编码器处理可穿戴设备数据，在睡眠和健身领域提供个性化健康建议；智能体则利用代码生成和工具交互能力，将原始健康数据转化为可操作的洞察。两项研究均展现出接近甚至超越人类专家的性能，为构建真正个性化的健康助手奠定基础。

文章摘要

谷歌的研究引入了一种新型大型语言模型，旨在理解和推理个人健康问题和数据，并提供了基于 Gemini 模型的两种互补方法。通过构建个人健康大型语言模型 (PH-LLM)，以及利用大型语言模型 Agent 将可穿戴设备数据转化为个人健康洞察，在睡眠和健身领域取得了显著成果。这两项研究有助于开发真正个性化的健康助手，为实现更长寿、更健康的生活提供技术支持。

正文

近年来，人工智能 (AI) 在医疗健康领域的应用日益受到关注。特别是在个性化健康管理方面，AI展现出巨大的潜力。本文将深入探讨谷歌在利用 AI 赋能个人健康与福祉方面的研究进展，重点介绍其大型语言模型 (LLM) 的创新应用，以及如何通过这些技术为人们提供更精准、更个性化的健康管理方案。

引言：AI赋能个性化健康的新时代

移动设备和可穿戴设备可以持续、细致地收集个体的生理状态和行为数据，例如步数、心率变异性、睡眠时长等。这些数据不仅可以用于个人健康监测，还可以激励人们养成健康的生活习惯。基于生成式 AI 模型的个性化健康见解和建议，能够帮助人们实现健康目标。然而，要做到这一点，模型必须能够处理包含复杂时间序列和零散信息（如锻炼日志）的个人健康数据，结合相关的个人健康领域知识，并根据个人的健康状况提供个性化的解读和建议。

以一个常见的健康问题为例：“我怎样才能睡得更好？” 尽管这个问题看似简单，但要给出针对个人的定制化回答，需要执行一系列复杂的分析步骤，包括：检查数据可用性、计算平均睡眠时长、识别一段时间内的睡眠模式异常、结合个人的整体健康状况来解读这些发现、整合关于睡眠的群体规范知识，并提供量身定制的睡眠改善建议。

构建在 Gemini 模型之上的创新方法

谷歌的研究重点是构建在 Gemini 模型之上的创新方法，以提供准确的个人健康和福祉信息。研究人员展示了两种互补的方法：

个人健康大型语言模型 (PH-LLM)
：这是一种经过微调的 Gemini 模型，旨在生成见解和建议，以改善与睡眠和健身模式相关的个人健康行为。PH-LLM 使用多模态编码器，针对文本理解和推理以及来自可穿戴设备（如心率变异性和呼吸频率）的原始时间序列传感器数据的解读进行了优化。
利用大型语言模型 Agent 将可穿戴数据转化为个人健康洞察
：这种方法强调了代码生成和基于 Agent 的工作流程的价值，通过自然语言查询来准确分析行为健康数据。

这两项研究共同促进了交互式计算和基于个人健康数据的推理，为开发真正个性化的健康助手奠定了基础。

个人健康大型语言模型 (PH-LLM) 的深入研究

为了系统地评估 PH-LLM，研究人员创建并整理了三组基准数据集，以测试：

模型根据个人睡眠模式、身体活动和生理反应生成详细的见解和建议的能力。
专家级领域知识。
预测自我报告的睡眠质量评估。

实验设计与结果分析

对于见解和建议任务，研究人员与领域专家合作，创建了 857 个来自美国用户的案例研究，涵盖睡眠和健身两个个人健康领域。这些案例研究代表了真实的指导场景，突出了模型通过使用文本表示解释时间序列生理数据来理解、推理和指导的能力。

通过对模型响应的全面评估，研究人员观察到，Gemini Ultra 1.0 和 PH-LLM 在健身方面的表现与专家表现没有统计学差异。虽然专家撰写的建议在睡眠方面获得了更高的评价，但性能很接近，并且进一步微调 PH-LLM 显著提高了其在使用相关领域知识和个性化信息方面的能力，以生成见解并预测潜在的因果因素。

根据人类专家的评估，对 PH-LLM 进行微调提高了其在睡眠方面生成准确见解和潜在致病因素的能力。性能在健身方面与人类专家没有统计学差异。

为了进一步评估专家领域知识，研究人员通过手动测试者使用在线门户网站，评估了 PH-LLM 在睡眠医学和健身认证考试风格的多项选择题数据集上的表现。PH-LLM 在睡眠方面达到了 79%（N=629 道题），在健身方面达到了 88%（N=99 道题），这两者都超过了人类专家样本的平均分（分别为 76% 和 71%），以及用于获得继续教育学分以维持这些领域专业执照的基准。

PH-LLM 的多模态编码优势

为了使 PH-LLM 能够预测自我报告的睡眠质量评估，研究人员使用可穿戴传感器数据的文本和多模态编码表示，对模型进行了关于睡眠中断和损伤的验证调查问卷回复的训练。研究表明，多模态编码对于实现与仅用于预测这些结果的判别模型相当的性能是必要且充分的。

图表：PH-LLM 模型变体在自我报告的睡眠结果预测中的 AUROC 性能

总而言之，这些结果证明了调整 PH-LLM 以结合个人健康应用中的生理数据的优势。

利用大型语言模型 Agent 将可穿戴数据转化为个人健康洞察

大型语言模型 (LLM) 可以通过软件工具进行增强以扩展其功能，例如代码生成和信息检索。基于 LLM 的 Agent 能够迭代地推理并与工具交互，这为扩展其对复杂、时间性可穿戴数据的推理能力提供了一种有前景的方法。

在第二篇论文中，研究人员介绍了一种基于 Gemini Ultra 1.0 的个人健康洞察 Agent 的框架。该 Agent 利用 Gemini 模型的强大功能以及 Agent 框架、代码生成能力和信息检索工具，迭代地分析原始可穿戴数据，并为健康查询提供个性化的解读和建议。这种组合使 Agent 能够：

分析来自可穿戴设备的数据
：Agent 使用 Python 解释器分析来自可穿戴设备的多维时间序列数据，执行复杂的计算并识别趋势。
整合额外的健康知识
：Agent 通过搜索引擎访问知识库，将最新的医学和健康信息整合到其回复中。
提供个性化见解
：Agent 通过个人数据、医学知识和特定用户查询进行迭代的多步骤推理，生成量身定制的见解和建议。

Agent 逐步推理个人健康查询

Agent 的评估与性能

为了评估 Agent 的能力，研究人员整理了两个数据集：一个用于测试 Agent 在健康查询中的数值准确性，另一个用于通过人工注释评估 Agent 在开放式健康查询中的推理和代码质量。

在第一个数据集“客观健康洞察查询”上，Agent 在 4,000 个客观个人健康洞察查询的数据集上达到了 84% 的准确率，证明了其处理数值推理和数据分析的能力。

在第二个数据集“开放式健康洞察查询”上，研究人员评估了 Agent 在 172 个代表性开放式个人健康查询上的表现，涵盖了超过 600 小时的人工评估和超过 6,000 个模型响应。总的来说，Agent 在 14 个评估轴中的 9 个上显著提高了性能，优于非 Agent 代码生成基线，包括领域知识、逻辑和推理质量等关键方面。

研究人员的人工和专家评估表明，Agent 的表现优于代码生成基线，这表明迭代推理和工具使用的重要性。

结论与展望

谷歌的研究重点在于探索有助于人们拥有更长寿、更健康生活的特性和能力。睡眠和健身是影响人口健康的关键组成部分，也是全世界过早死亡的预测指标。研究中在案例研究、个人健康领域知识和睡眠与健身方面的开放式查询中展示的能力，代表了朝着 AI 模型迈出的重要一步，这些模型支持个性化的见解和建议，使个人能够从自己的健康数据中得出准确且可行的结论。

研究人员期待着仔细的测试，并了解哪些能力对用户最有帮助。随着 LLM 的持续发展，Agent 有望变得越来越复杂，并可能为个人健康管理提供更深入的见解和更有效的指导。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。