news 2026/6/10 18:39:52

知识图谱加速COVID-19科研信息发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱加速COVID-19科研信息发现

利用知识图谱简化COVID-19研究

知识图谱是一种组织信息的方式,以便更高效地进行探索和分析。像所有图谱一样,它由节点(通常描绘为圆圈)和边(通常描绘为连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体之间的关系。

2020年5月,某中心网络服务部门公开发布了COVID-19知识图谱(CKG)。该图谱组织了COVID-19开放研究数据集(CORD-19)中的信息。CORD-19是一个由某机构人工智能研究所领导的联盟创建的、不断增长的关于COVID-19及相关主题的学术出版物存储库。CKG为某中心的CORD-19排名和推荐系统提供了支持。

在早些时候于AACL-IJCNLP“将结构化知识与神经网络整合用于自然语言处理”研讨会上发表的一篇论文中,我们解释了如何创建CKG,并描述了几种可能的应用,包括针对特定主题的论文排名和相关论文的发现。

图谱结构如何?

该图谱包含五种类型的节点:

  • 论文节点:包含论文的元数据,如标题和ID号。
  • 作者节点:包含作者的姓名。
  • 机构节点:包含机构的名称和位置。
  • 概念节点:包含论文中出现的特定医学术语,例如布洛芬、心功能不全和哮喘。
  • 主题节点:包含广泛的研究领域,例如基因组学、流行病学和病毒学。

该图谱还包含五种类型的边:

  • authored_by:将论文与其作者链接起来。
  • affiliated_with:将作者与其所属机构链接起来。
  • associated_concept:将论文与其相关概念链接起来。
  • associated_topic:将论文与其主题链接起来。
  • cites:将论文链接到引用它的其他论文。

图谱是如何创建的?

CORD-19数据库中论文的标准化格式允许轻松提取标题、摘要、正文、作者、机构和引用。

为了识别概念,使用了某中心Comprehend Medical服务,该服务从文本中提取医学实体并将其分类为实体类型。例如,给定句子“腹部超声提示急性阑尾炎”,该服务会提取以下实体:腹部(解剖结构)超声(检查治疗程序)急性阑尾炎(医疗状况)

为了提取主题,使用了一种名为Z-LDA的潜在狄利克雷分配的扩展方法,该方法使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映了某个主题,并根据该术语在整个语料库中的出现频率选择其中一个作为该主题的标签。通过这种方式生成的主题列表在医疗专业人员的帮助下最终缩减为10个主题。

应用示例:基于引用的排名

在学术界,衡量论文相关性的一个标准是引用它的出版物数量。图结构使引用计数变得容易。但它也支持自定义计数,例如处理特定主题或包含特定概念的出版物进行的引用。

相似论文引擎

给定一篇论文,相似论文引擎会检索一个包含k篇相似论文的列表。它使用两种不同的相似性度量,在最后一步进行组合。

一种度量使用SciBert嵌入,它建立在流行的BERT语言模型之上,但针对科学文本进行了微调。SciBert将输入句子表示为多维空间中的点,使得涉及相同科学概念的句子倾向于聚集在一起。

我们为论文的标题、摘要和正文创建独立的嵌入,然后将它们平均以生成最终的嵌入。先前的研究表明,标题嵌入可能比正文嵌入更容易区分,而正文嵌入则携带更丰富的信息。因此,选择了一种赋予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明了相关论文的相似性。

第二个模型使用另一种嵌入方式,即知识图谱嵌入,它试图保留知识图谱中编码的关系。如果图中的两个实体通过一条代表关系的边连接,那么第一个实体的嵌入,加上代表该关系的向量后,应该在第二个实体位置的附近(理想情况下是精确位置)产生一个点。

为了创建知识图谱嵌入网络,使用了DGL-KE工具,该工具在某中心开发,并扩展了早期的深度图库(DGL)。

作为训练数据,从CKG中提取向量三元组(h, r, t)的集合,其中h是头实体,r是关系类型,t是尾实体。这些三元组是正面的训练样本。负面样本是通过随机替换现有三元组的头或尾实体来合成的。

使用这些样本,训练模型以区分错误链接和真实链接。结果是为图中的每个节点生成一个嵌入。

在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创造一个新的、更高维度的表示空间。通过计算该空间中前k个最接近的向量(余弦距离),即可获得前k篇最相似的论文。

鉴于缺乏论文推荐的基准事实,通过分析性的定量和定性指标来评估该算法。这些指标包括但不限于流行度分析、源论文与推荐论文之间的主题交集、低维聚类和摘要比较。关于方法的更多信息,可以参阅某中心博客上的两篇文章:“使用某中心 Neptune、某中心 Comprehend Medical 和 Tom Sawyer Graph Database Browser 探索COVID-19科学研究”以及“构建和查询某中心 COVID-19知识图谱”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:07:37

AI如何帮你快速实现CANopen协议通信?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用AI生成一个基于STM32的CANopen从站设备代码,要求实现以下功能:1. 使用CAN2.0B协议,波特率1Mbps 2. 支持心跳报文和节点保护 3. 配置2个TPDO…

作者头像 李华
网站建设 2026/5/28 23:29:59

智能电表部署优化:基于地址相似度的设备-户号匹配方案

智能电表部署优化:基于地址相似度的设备-户号匹配方案实战 电力公司在推进智能电表改造时,经常遇到一个棘手问题:现场安装位置与系统记录的客户地址存在表述差异,导致数据无法自动关联。本文将介绍如何利用AI模型解决这一难题&…

作者头像 李华
网站建设 2026/6/6 15:22:00

VideoJS零基础入门:小白也能做的网页播放器

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个新手教学项目,包含:1.最简VideoJS示例(单个视频文件) 2.逐步添加控制按钮的教程 3.CSS美化指导 4.常见问题解答 5.调试技巧 6.移动端适配说明 7.免…

作者头像 李华
网站建设 2026/5/26 16:52:58

GRAPH TD零基础入门:5分钟学会画专业流程图

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个GRAPH TD交互式学习应用,包含基础语法教学、实时练习区和错误修正功能。设计渐进式学习路径:从简单线性流程到包含分支和循环的复杂流程图。集成智…

作者头像 李华
网站建设 2026/6/8 18:23:30

企业级Chrome版本管理实战:历史版本下载全攻略

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个企业级Chrome版本管理系统,需要:1.搭建内部版本仓库服务器 2.实现自动化校验下载文件的哈希值 3.提供API供CI/CD调用 4.生成版本使用分析报告 5.支…

作者头像 李华
网站建设 2026/6/10 13:37:47

地址要素智能提取:MGeo在不动产登记中的应用

地址要素智能提取:MGeo在不动产登记中的应用实战 不动产登记中心经常需要处理大量历史文档,其中包含关键的地址信息如"省-市-区-街道-门牌号"等结构化数据。但文档扫描质量参差不齐,传统OCR提取方式准确率有限。本文将介绍如何利用…

作者头像 李华