news 2026/4/16 15:00:26

利用知识图谱加速生物医学研究:Databricks湖仓助力制药创新

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
利用知识图谱加速生物医学研究:Databricks湖仓助力制药创新

Original Title: Building Knowledge Graphs for Healthcare and Life Sciences with Databricks Lakehouse

摘要

制药企业面临海量生物医学数据挑战,知识图谱可连接语义、丰富洞见并加速发现。本文探讨如何利用Databricks湖仓构建知识图谱,解决数据孤岛,提升药物研发效率。

正文

引言:制药行业的机遇与挑战

在当今快速发展的制药行业中,企业致力于发现、开发和商业化针对全球最严重疾病的突破性药物。采用数据驱动的研发方法可以显著提高药物发现的成功率,并确保临床试验的安全管理。然而,一个关键障碍是无法比新数据生成速度更快地挖掘所有可用的科学信息。

制药研发数据通常源于数百万数据点和数千来源,包括高通量技术如基因组学和蛋白质组学、电子健康记录的日益使用,以及其他数字数据来源。这些数据的可用性推动了生物医学科学各个领域发表研究的显著增加。对于制药组织而言,对这些出版物的系统分析(即元分析)在循证医学中发挥关键作用,有助于加速研发、优化临床试验设计,并更快地将新型药物推向市场。

元分析可以提供治疗效果或疾病风险因素的更精确估计。它还为复杂且有时相互矛盾的研究体系提供全面和定量的审查框架。此外,将先进分析方法应用于大量文献可以导致新型知识发现。例如,在整合知识库上使用预测方法,可以帮助识别常用方法可能遗漏的信息性遗传变异。

如果制药组织未能识别并整合现有研究进入他们的元分析,后果将非常严重。这可能导致误导性结论,在受管制的研发环境中阻碍进展,并延迟上市时间。依赖无法扩展的遗留数据平台和数据孤岛往往是促成因素。

通过消除这些规模障碍,组织可以提取有意义的洞见,从而设计出新型药物,帮助人们过上更健康的生活。在本文中,我们将讨论生物医学研究中知识发现的几个挑战,并探讨统一的数据湖和分析方法如何应对这些挑战。本文是Databricks与wisecube.ai的合作文章,我们感谢wisecube.ai创始人Vishnu Vettrivel和首席数据科学家Alex Thomas的贡献。

挑战一:从分散数据集中创建语义含义(Connect)

生物医学研究和临床试验可能是生命科学中数据量爆炸性增长的经典例子。在2004-2013年间,PubMed添加了超过730万篇期刊文章,比2003年增加了48.9%。

这就是PubMed采用像MeSH这样的受控词汇的主要原因之一。在MEDLINE/PubMed中,每篇期刊文章都用大约10-15个主题标题、副标题和补充概念记录进行索引,其中一些被指定为主要主题并标记星号,表示文章的主要主题。

在ClinicalTrials.gov,每项试验都有描述试验的关键字。ClinicalTrials.gov团队为每项试验分配两组MeSH术语。一组用于试验研究的条件,另一组用于试验中使用的干预措施。

这允许研究人员在不同数据来源之间使用共同语言,具有共享的理解和语义。不幸的是,这种语义层在现代数据湖中往往被忽略,通常是事后考虑。

知识图谱揭示生物医学实体之间的关系,以促进从现有事实推断新事实。知识图谱是一种强大的工具,它将数据表示为节点(实体)和边(关系)的网络,从而揭示隐藏的连接。例如,在制药中,知识图谱可以连接药物、基因和疾病,帮助识别潜在的药物靶点。

为了更深入理解这一挑战,我们可以考虑数据孤岛的问题。在传统系统中,PubMed文章、临床试验数据和内部研发数据库往往独立存在,导致研究人员难以整合信息。通过构建知识图谱,我们可以将这些来源统一起来,提供一个连贯的视图。这不仅提高了效率,还减少了手动整合的错误风险。在实际应用中,例如,一家制药公司可能使用知识图谱来追踪特定基因与多种疾病的关联,从而优先考虑研发管道中的候选药物。

扩展来说,语义含义的创建涉及本体论的使用。MeSH作为一种本体论,提供标准化的术语,确保不同数据集之间的互操作性。没有这种语义层,数据湖就变成了简单的存储库,无法支持高级分析。在Databricks湖仓环境中,这种语义可以无缝集成到数据管道中,确保从摄入到分析的整个过程都保持一致性。

挑战二:丰富并解锁连接数据中的隐藏知识(Enrich)

将生物医学数据以连接方式整合有助于快速检索隐藏洞见。这些语义网络还帮助减少错误,并以成本有效的方式增加发现机会。对于揭示医疗数据之间的隐藏相关性,分析师使用不同技术如链接预测。通过视觉探索这些医疗实体之间的相关性,科学家可以就敏感治疗选项做出及时决策。

提供生物医学数据的连接视图可以导致发现新关联,并识别单个数据集单独无法显现的新趋势。

此外,组织需要在将人工智能(AI)和机器学习(ML)引入临床环境时建模治理。不幸的是,大多数组织的数据科学工作流平台与数据仓库分离。这在构建AI驱动应用的信任和可重复性时创建严重挑战。这就是可解释和透明的数据表示有助于的地方。数据孤岛和分散系统可能使确保模型在现实环境中安全、道德和有效变得困难。

在这一挑战中,链接预测是一种关键技术。它涉及使用图算法预测实体之间缺失的连接。例如,在知识图谱中,算法可以预测某种化合物与特定蛋白质的潜在交互,从而指导药物设计。这种方法比传统统计方法更强大,因为它考虑了网络拓扑。

为了丰富数据,组织可以应用高级网络分析。Wisecube知识图谱提供统一的架构,用于结构化和非结构化数据。它还具有模块,允许通过链接预测等先进网络分析合成新洞见。此外,通过在Databricks上完全运行知识图谱,组织可以根据工作负载自动扩展。

让我们详细探讨一个例子:假设我们有一个知识图谱整合了PubMed文章和临床试验数据。通过链接预测,我们可能发现一种已知药物与新型癌症亚型的未预料关联。这可以加速再利用现有药物的过程,降低开发成本和时间。在监管环境中,这种丰富过程必须透明,以确保合规。Databricks的治理功能,如Delta Lake的版本控制,帮助跟踪数据变更,确保AI模型的可审计性。

进一步扩展,隐藏知识的解锁涉及多模态数据整合。例如,结合文本挖掘(从文献中提取实体)和结构化数据(如基因数据库)可以创建更全面的知识库。这在慢性病管理中特别有用,帮助识别个性化治疗的生物标志物。

挑战三:访问连接图谱以构建洞见和应用(Discover)

集中数据可以促进不同实体之间新关系的发现,这些关系可用于构建强大的网络分析和预测模型。一旦数据集中在知识图谱中,我们应该能够直接在图谱上构建强大的网络分析和预测模型。

更重要的是,我们需要使所有这些数据可供组织中的大多数人访问。组织中的大多数人不是数据从业者,这意味着他们不精通SQL、SPARQL或其他数据查询语言。因此,使用像SPARQL这样的开放标准提供查询和分析能力至关重要。但更重要的是,以简单直观的方式允许这些洞见被非数据专家的终端用户访问。

这通常是一个迭代过程,用户从简单查询开始,并逐步构建使其更复杂以满足特定需求。此外,用户可能希望将自然语言关键字与语义实体结合,以强大方式查询知识图谱。

查询工具需要支持这种复杂、迭代的查询过程,以允许领域专家逐步查询知识图谱进行分析和推导洞见。然而,今天许多工具并不这样做。

在发现阶段,SPARQL作为RDF查询语言,允许用户表达复杂的图模式查询。例如,一个研究人员可以查询所有与特定疾病相关的临床试验,并过滤那些使用特定干预的试验。这比传统数据库查询更灵活,因为它利用了图的语义。

为了使之更易访问,工具如Graphster提供可视化界面,允许非技术用户通过拖拽构建查询。这降低了进入门槛,使投资人和决策者能够直接从知识图谱中提取价值,而无需依赖数据科学家。

在实际场景中,这种访问性可以加速从药物发现到慢性病管理程序的各种用例。通过将开放标准如SPARQL与Databricks能力结合,组织可以支持广泛的高影响力用例。

使用Delta Lake构建知识图谱

为了解决上述为医疗保健和生命科学组织概述的挑战,知识图谱可以是优秀的解决方案。然而,要真正实现企业级知识图谱,需要克服各种新障碍,这些知识图谱需要处理不断变化的数据,以及数据版本控制、快照、可重复性和治理问题,同时仍保持可扩展性、灵活性和性能,作为主要数据湖仓。

这就是为什么我们强烈认为答案不是构建另一个孤立的知识图谱数据库,而是构建在数据湖之上。这不仅更具成本效益,对数据团队的构建、维护和管理开销更少,而且对终端用户更好,因为它避免了多数据源的典型问题,如数据延迟和同步问题。

医疗保健和生命科学的湖仓使医疗保健组织能够将所有数据——结构化、半结构化和非结构化——汇集到一个单一的高性能平台,用于传统分析和数据科学。作为基础的是Databricks湖仓平台,这是一种现代数据架构,结合了数据仓库的最佳元素与云数据湖的低成本、灵活性和规模。这种简化、可扩展的架构使医疗保健组织能够将所有数据汇集到一个单一平台。

具体而言,建立在Delta Lake上的知识图谱为医疗保健和生命科学组织提供以下三大主要益处:

连接(Connect):使用特定领域但灵活的本体组织所有研发数据。Wisecube知识图谱的核心是Delta Lake,这是一个数据管理层,为云数据湖提供可靠性和性能。与传统数据仓库不同,Delta Lake支持所有类型的结构化和非结构化数据。为了使数据摄入更容易,Wisecube构建了针对研发特定数据集的连接器,如临床试验、MeSH等。此外,Wisecube提供内置的图查询和AI优化,以显著加速基于图的分析。通过这些能力,团队可以将所有原始数据落地到一个地方,然后 curation它以创建所有生物医学数据的整体视图。

Delta Lake的ACID事务支持确保数据一致性,这在处理敏感的临床数据时至关重要。它还提供时间旅行功能,允许用户查询历史数据版本,这对审计和合规非常有用。

丰富(Enrich):Wisecube知识图谱提供结构化和非结构化数据的统一架构。它还具有模块,允许通过先进网络分析如链接预测合成新洞见。此外,通过在Databricks上完全运行知识图谱,组织可以根据工作负载自动扩展。

在丰富过程中,AI模块可以自动从文本中提取实体和关系,增强图谱。例如,使用自然语言处理(NLP)技术从PubMed摘要中提取药物-疾病关系,并将其添加到图谱中。这大大提高了知识发现的速度。

发现(Discover):通过将开放标准如SPARQL与Databricks能力结合,组织可以支持从药物发现到慢性病管理程序的广泛高影响力用例。这使Wisecube知识图谱成为管理医疗保健和生命科学数据的理想数据存储。

开始构建您的医疗保健和生命科学知识图谱:使用Graphster和Delta Lake

Graphster是一个开源工具,用于创建、查询和可视化知识图谱,适用于各种用例,如靶点识别和生物标志物发现。

我们引入了一个新的基于Apache Spark的开源库:Graphster,专为从非结构化和结构化数据进行可扩展的端到端知识图谱构建、分析和查询而设计。Graphster库获取文档集合,提取提及和关系来填充原始知识图谱,然后用Wikidata的事实丰富知识图谱。一旦构建了知识图谱,Graphster还可以帮助使用SPARQL原生查询知识图谱。

我们还高兴地提供“使用临床试验构建知识图谱”作为解决方案加速器,帮助生命科学组织开始构建适合他们特定需求的知识图谱。我们的解决方案加速器包括样本数据、预构建代码和Databricks笔记本中的逐步说明。它向您展示如何摄入临床试验数据,使用MeSH本体为其赋予语义结构,然后使用SPARQL查询大规模分析它。要开始,请查看这里的加速器。

Graphster的开源性质允许社区贡献和自定义,使其适合各种规模的组织。从小型科研院所到大型制药企业,都可以利用它来构建定制知识图谱。

在实际部署中,步骤包括:1. 数据摄入:使用连接器从PubMed和ClinicalTrials.gov拉取数据。2. 语义标注:应用MeSH本体标记实体。3. 图构建:使用Spark分布式计算构建图。4. 查询和分析:通过SPARQL或可视化工具探索洞见。这整个过程在Databricks上运行,确保可扩展性。

为了更详细说明,让我们考虑一个端到端的例子。假设一家投资于生物技术初创公司的机构希望评估潜在投资的药物管道。他们可以使用Graphster构建一个知识图谱,整合公开临床试验数据和文献。通过查询图谱,他们可以识别竞争格局、潜在风险和机会,如未被探索的药物-靶点关系。这不仅为投资决策提供数据支持,还帮助评估知识产权潜力。

进一步扩展,Graphster支持与大语言模型(LLM)的集成,例如使用GraphRAG技术增强查询响应。这允许用户以自然语言提问,如“哪些药物与阿尔茨海默病相关?”,并获得基于图谱的精确答案。

结论:湖仓平台的未来潜力

通过Databricks湖仓和工具如Wisecube与Graphster,制药和生物医学研究可以克服数据挑战,实现更快的创新。这对专家和投资人而言,意味着更高的研发效率和更好的投资回报。保持关注Databricks的最新发展,以探索更多应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:05:55

蚂蚁开源世界模型LingBot-World:具有分钟级记忆的实时世界模拟器

蚂蚁集团旗下的具身智能公司灵波科技开源了两大重磅模型。 具身智能模型,最强开源机器人大脑!两万小时真机数据开启物理AI缩放定律。 以及强大的世界模型LingBot-World。 LingBot-World将视频生成模型进化成了可交互世界模拟器,让AI学会了理…

作者头像 李华
网站建设 2026/4/16 12:00:25

第二十一届全国大学生智能汽车竞赛天途亚龙智慧救援创意组赛项通知

01 智慧救援竞赛导读一、竞赛导读1.强化空地协同,要求无人机与智能车通过协作共同完成系列任务。2.不限定参赛设备的具体型号,允许参赛队对无人机、智能车、加装模块及部分场地交互机构进行自主设计与改装。3.为引导技术方向、避免“军备竞赛”&#xff…

作者头像 李华
网站建设 2026/4/16 2:57:23

简单理解:为什么有DCDC降压了,还需要LDO?

简单说:DC-DC 负责 “高效降压”,解决 “从高压降到低压的能耗问题”;LDO 负责 “精准稳压滤波”,解决 “DC-DC 输出有纹波、精度不足,满足不了精密芯片供电要求” 的问题。 二者是互补配合的关系,不是替代…

作者头像 李华
网站建设 2026/4/13 18:46:54

计算机毕业设计springboot基于Java的自习教室预约管理系统 高校智能自习室座位预约管理平台 校园共享学习空间预约服务系统

计算机毕业设计springboot基于Java的自习教室预约管理系统5i3268a2 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着高等教育规模扩大与考研热潮持续升温,高校公…

作者头像 李华