news 2026/4/23 4:38:32

制药行业AI数据质量危机:垃圾进垃圾出的隐患

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
制药行业AI数据质量危机:垃圾进垃圾出的隐患

人工智能正在重塑各行各业,但在生命科学领域,其影响尤为重要。制药公司看到了AI加速药物发现、简化临床试验、降低开发成本(通常超过20亿美元)的潜力。

然而,尽管充满热情,大多数试点项目仍难以取得成果。据MIT统计,企业中95%的AI项目都以失败告终,往往是因为模型接收了质量差或不相关的数据。虽然制药行业的确切数字有待商榷,但期望落空的模式是不可否认的。

这些失败的共同点并非算法的复杂程度,而是它们所使用数据的质量。在制药领域,"垃圾进,垃圾出"不仅意味着时间和金钱的浪费,还可能产生带有监管、伦理甚至患者安全后果的误导性输出。这种隐藏的数据危机是该行业AI扩展的根本障碍。

隐藏的数据危机表现形式

当制药领导者谈论数据问题时,他们指的不仅仅是质量差的信息。这场危机更为广泛:

不相关或未经整理的数据

AI试点中使用的大部分数据来自公共资源或分散在内部孤岛中。没有整理和背景信息,输出缺乏临床相关性。

暗数据

大量的临床试验结果、患者病史和影像数据仍锁定在无法访问的格式或传统系统中。

输入中烘焙的偏见

即使是善意的数据收集也可能无意中编码噪音。一个被广泛引用的例子是"尺子问题",一个训练用于识别恶性黑色素瘤的AI模型错误地学会将诊断照片中尺子的存在(而非肿瘤特征)与恶性肿瘤联系起来。

这些陷阱说明了AI在缺乏临床视角时,会完全按照设计目的去寻找相关性。但如果没有背景指导,这些相关性可能具有危险的误导性。

为什么制药行业容错空间更小

在消费行业,失败的AI试点可能意味着误导的营销活动或表现不佳的聊天机器人。在制药行业,失败的后果影响更为深远。临床试验已经是该行业最昂贵、最耗时的工作之一。即使六个月的延误也可能造成数亿美元的收入损失。

此外,该行业在严格的监管监督下运营。临床上无效的输出不仅无用,还可能不合规。与零售或制造业不同,"快速行动,打破常规"的容忍度很低。制药公司必须谨慎行动并证明一切。

企业级AI需要经临床整理的数据

"企业级"已成为AI领域的流行词,但在监管市场中,其含义超越了可扩展性和云集成。在制药行业,企业级AI意味着满足三个标准。这意味着使用经临床整理的输入,数据经过清理、背景化并以临床思维结构化。这需要摆脱抓取公共数据集的做法,转而专注于从试验历史和真实世界证据创建专有的高质量语料库。这也意味着应用强有力的治理。AI项目需要在达到技术基准的同时满足包括FDA和EMA要求在内的合规框架,关注数据血统、可审计性和可重现性。

最终标准是与临床专业知识的一致性。最有前景的模型反映了经验丰富研究人员的推理,而非作为统计黑盒运行。在临床监督指导下的大语言模型可以避免黑色素瘤"尺子问题"等误导性捷径。没有经临床整理的数据,制药AI就会成为负担而非优势。

数据问题在真实试点中的表现

制药公司通常只有在试点进行中才认识到数据问题。模型可能产生表面上令人信服的输出,但经临床审查后证明不相关或具有误导性。例如,在影像分析中,模型可能识别照明或标注伪影而非真正的生物特征。在患者选择中,历史数据集的偏见可能使试验招募偏向不具代表性的人群,损害试验有效性。

这就是为什么许多试点在概念验证阶段停滞不前。底层算法可能有效,但数据整理不足以产生既具临床可操作性又符合监管要求的结果。

混合模式:初创企业加内部整理

面对这些挑战,许多制药领导者面临构建与合作的两难选择。他们应该内部开发AI能力还是寻求初创企业创新?实际上,答案往往是混合的。初创企业带来尖端技术并吸引大型制药企业难以招募的AI工程人才。制药现有企业带来专有数据集、监管专业知识和扩展基础设施。

最成功的合作结合了这些优势。与制药公司合作处理内部数据集而非仅依赖公共数据的初创企业,往往能提供更相关的输出。相反,期望初创企业以有限资源解决一切的制药企业可能面临失望。

在拥挤的初创企业环境中降低合作风险

制药AI初创企业生态系统爆发式增长,过去五年推出了100多家公司,目标涵盖从分子发现到试验招募的各个方面。这既创造了机会也带来了噪音。制药领导者可以通过以下方式降低合作风险:

评估可扩展性

有前景的"两人车库初创企业"可能有创新想法,但缺乏负责任处理敏感数据的资源。合作需要对技术和组织成熟度都有信心。

验证投资者

由可信、资金充足的投资者支持的初创企业更能在长期时间线和监管障碍中生存。

明确边界试点

围绕特定、明确定义的用例构建合作可以在测试可行性时减少风险。

建立内部能力:首席AI官的兴起

另一个值得注意的趋势是大型制药企业中首席AI官的出现。这些领导者通常从传统生命科学外招募,带来数据科学专业知识并担任AI采用的内部倡导者。他们的角色不仅是评估合作伙伴关系,还要确保内部数据集得到整理、治理和可用。这种制度投资表明AI不再被视为实验性副业项目,而是正在成为核心能力。

成功的样子

当制药企业有效管理其数据时,益处遍及开发和患者护理的每个阶段。将临床试验时间缩短仅六个月就能为每种药物节省数亿美元并加速患者获得救命疗法。更好的患者分层可以改善试验结果、减少流失并使结果更具普遍性。

除了试验,经过整理的数据还能让AI在开发早期预测不良事件、在更高合规性下优化制造过程,以及为现有药物识别新适应症或患者亚群。

经过整理的、临床相关的数据是制药AI从承诺到影响的桥梁。今天投资解决数据挑战的公司将是明天更快、更安全、更高效地提供突破性成果的公司。

关于作者

Erik Terjesen是Silicon Foundry(凯尔尼公司)的董事总经理。他的职业生涯致力于将清洁技术研究转化为使世界更清洁、更高效的商业产品。在Silicon Foundry,他就清洁技术采用、商业化和投资策略为组织提供建议。在此之前,他在Ionic Materials工作,协商合作伙伴关系以将公司新颖的固体聚合物技术推向电池应用市场。职业生涯早期,他在HarbourVest Partners获得风险投资经验,在Robertson Stephens获得投资银行经验。Terjesen拥有哈佛学士学位和沃顿MBA学位。工作之余,他在圣地亚哥与家人共度时光,专注于电子音乐制作爱好。

Q&A

Q1:制药行业AI项目失败率为什么这么高?

A:据MIT统计,企业中95%的AI项目都以失败告终,主要是因为模型接收了质量差或不相关的数据。在制药领域,"垃圾进,垃圾出"不仅浪费时间金钱,还可能产生带有监管、伦理甚至患者安全后果的误导性输出。

Q2:什么是制药AI中的"尺子问题"?

A:"尺子问题"是一个经典案例,AI模型在识别恶性黑色素瘤时,错误地学会将诊断照片中尺子的存在(而非肿瘤特征)与恶性肿瘤联系起来。这说明AI在缺乏临床视角时会寻找错误的相关性,产生危险的误导结果。

Q3:制药企业如何建立企业级AI能力?

A:需要满足三个标准:使用经临床整理的数据,确保数据清理、背景化并以临床思维结构化;应用强有力的治理框架满足FDA和EMA等监管要求;与临床专业知识保持一致,让模型反映经验丰富研究人员的推理而非统计黑盒。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 4:11:11

多目标优化算法大比拼:MOCOA 与 MOTROA 的对决

两种较新多目标优化算法对比(多目标小龙虾优化算法MOCOA多目标霸王龙优化算法MOTROA)多目标小龙虾优化算法MOCOA多目标霸王龙优化算法MOTROA,均为较新的优化算法,具有较强的研究价值,也可增加其他算法进来,使得测试函数对比图更加…

作者头像 李华
网站建设 2026/4/21 2:53:42

Llama-Factory能否训练观点挖掘模型?情感极性分析精准

Llama-Factory 能否训练观点挖掘模型?情感极性分析的精准落地实践 在电商评论区滚动着成千上万条用户反馈,社交媒体上每分钟都在爆发新的舆情热点——企业越来越依赖自动化手段来“听清”用户的声音。而在这背后,情感极性分析早已不再是简单的…

作者头像 李华
网站建设 2026/4/22 19:35:59

26、探索Live Linux CD:多媒体与防火墙应用

探索Live Linux CD:多媒体与防火墙应用 1. 多媒体Live Linux CD介绍 1.1 常见多媒体Live CD 在开源世界中,有许多用于播放和展示音频、视频和数字图像的小型Linux发行版。以下是一些常见的多媒体Live CD: - LiMP :LiMP Linux多媒体播放器Live CD(http://limp-vkk-ve…

作者头像 李华
网站建设 2026/4/22 10:07:45

27、深入了解Devil Linux:从启动到定制防火墙及相关操作

深入了解Devil Linux:从启动到定制防火墙及相关操作 1. 使用Devil Linux的系统要求 要使用Devil Linux,你至少需要满足以下配置: - 至少是486或兼容的CPU。 - 32MB的RAM。 - 两到三块受Linux支持的以太网卡。 - 一个用于存储配置的设备,通常可以是连接到计算机的硬盘…

作者头像 李华
网站建设 2026/4/20 22:41:26

【数据库】【MySQL】各种 JOIN 的特点及应用场景

MySQL 各种 JOIN 的特点及应用场景 MySQL 中的 JOIN 操作用于将多个表中的数据关联起来,常见的 JOIN 类型包括 INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN(MySQL 不直接支持 FULL JOIN,但可通过 UNION 实现)。以下是它们的特…

作者头像 李华
网站建设 2026/4/21 3:21:43

网络安全最新SQL 三种注入方式详解!

SQL 注入原理 SQL注入攻击指的是通过构建特殊的输入作为参数传入Web应用程序,而这些输入大都是SQL语法里的一些组合,通过执行SQL语句进而执行攻击者所要的操作,其主要原因是程序没有细致地过滤用户输入的数据,致使非法数据侵入系…

作者头像 李华