文章目录
- 介绍
- 代码
- 参考
介绍
纵向微生物组研究(LMS)正变得越来越常见,但其分析过程中存在一些挑战,比如数据并非相互独立,这就需要使用混合效应模型来处理。此外,大量的数据促使进行探索性分析,以确定与结果变量相关的因素。尽管变化分析(即计算不同时间点特征的变化)可能非常有效,但如何最好地进行这些分析往往并不明确。例如,观察性的 LMS 测量显示出自然波动,因此基线可能不是主要关注的参考点,而对于干预性的 LMS,基线通常是关键的参考点,通常表示治疗的开始。
为应对这些挑战,我们为 LMS 开发了一种名为 EXPLANA(探索性分析)的特征选择工作流程,该流程能够处理数值型和分类型数据,并且还能适用于横断面研究。我们将机器学习方法与不同类型的变动计算以及下游解释方法相结合,以识别具有统计学意义的变量,并解释它们与结果之间的关系。EXPLANA 会生成一个交互式的报告,该报告以文字和图形的形式总结了方法和结果。EXPLANA 在模拟的纵向数据上表现良好,平衡准确率得分达到 0.91(范围:0.79 - 1.00,标准差 = 0.05),优于现有的工具 QIIME 2 特征波动性(平衡准确率:0.95 对 0.56),并且发现了新的与结果相关的顺序依赖型分类特征变化(例如,A_B 与 B_A 的效果不同)。EXPLANA 具有广泛的适用性,并简化了用于识别与感兴趣结果相关的特征的分析工作。
科学研究通常会涉及一系列复杂的多组学数据(Santiago-Rodriguez 和 Hollister 2021),例如微生物组(乌尔塞尔等人 2012 年)、转录组(赫德利科娃等人 2017 年)和代谢组(赞博尼等人 2015 年),人们很感兴趣的是,是否可能存在任何新的特征或特征集合与某个结果变量有关。此外,研究人员还会从个体中收集可能影响结果的其他数据,例如人口统计学和健康数据,或者关于饮食或药物的调查。可用数据量的不断增加使关于变量纳入的统计决策变得复杂,这些决策通常基于最初研究设计所激发的假设。此外,研究可以包含分类变量和数值变量,并且常常包含非独立的纵向数据,这带来了更大的统计挑战。随着研究进展,不同研究实验室之间的合作使得每个研究产生的数据量增多,而在研究设计和分析过程中常常会引入人为偏差。这些挑战最终激发了对数据驱动方法日益浓厚的兴趣。
数据量过大对微生物组研究产生了尤为显著的影响。微生物组研究旨在对病毒、真菌和细菌的群落及其基因进行特征描述。微生物组的特征分析通常通过 16S 核糖体 RNA(rRNA)基因测序来完成,该方法能够识别环境中的细菌和古菌种类。由于细菌群落的代谢潜力及其与众多人类疾病(包括肥胖症(马鲁瓦达等人,2017 年)、抑郁症(瓦莱斯-科洛默等人,2019 年)、自闭症谱系障碍(ASD)(克拉耶姆尼克-布朗等人,2015 年)、癌症(庄等人,2019 年;雷贝塞克,2021 年)、艾滋病(威廉斯等人,2016 年)和心血管疾病(维托科夫斯基等人,2020 年))的关联,肠道微生物组是一个被广泛研究的微生物环境。肠道微生物组与人类疾病的关系表明,通过诸如饮食改变、益生菌或粪便微生物移植等干预措施来调整肠道微生物组,可能为疾病预防或治疗提供新的选择。
为了了解健康状况的变化以及解决个体差异的影响,需要进行纵向研究,这类研究会从多个个体中收集不同时间点的数据。除了这些研究通常包含多样化的研究对象数据(包含数值变量和分类变量)之外,它们还包括对个体的重复测量,这需要对非独立数据中的特征之间的关系进行特殊统计考量(皮尼罗和贝茨 2000 年)。基于随机森林(RF)(布雷曼 2001 年)的机器学习(ML)方法对于结合不同数据类型来预测结果和识别重要特征非常有效。随机森林在高维数据(特征多于样本/实例)中表现良好(迪亚斯-乌里亚特和阿尔瓦雷斯·德·安德烈斯 2006 年),能够发现线性和非线性关系,并能处理非正态数据分布。此外,随机森林比许多其他机器学习模型更易于解释,因为它们基于简单的决策树,这可以提高复杂工具的可访问性。此外,混合效应随机森林(MERF)(哈杰梅等 2014 年)模型可用于纵向研究设计。然而,诸多挑战可能会阻碍这些方法的有效应用。
MERFs 可以基于纵向研究的原始(原始)数据进行计算,也可以通过不同参考时间点之间的差值/变化(Δ)来进行计算,这在某些研究中能够揭示出独特的见解(博库利奇等人,2018 年;费罗西诺等人,2018 年;梅斯利尔等人,2020 年;弗雷等人,2022 年;罗德内斯-加维迪亚等人,2023 年)。然而,所关注的研究问题可能会对 Δs 的最优计算方式产生影响。在某些设计中,例如干预措施或一些预期会随时间呈现趋势的观察性研究(例如婴儿生命最初几年的肠道微生物组变化(博库利奇等人,2018 年)),预期的变化会与基线值进行比较,因此 Δs 可以使用基线作为参考进行计算(费罗西诺等人,2018 年;弗雷等人,2022 年)。然而,一些观察性研究没有有意义的基线值,可能需要将结果变量与相邻时间点或所有时间点之间的预测变量的变化联系起来(福奎尔等人,2021 年;张等人,2021 年)。例如,在我们开展的一项针对患有自闭症谱系障碍(ASD)儿童的观察性纵向研究中(福奎尔等人,2021 年),我们对这些儿童进行了长期评估,以确定 ASD 相关行为与饮食、胃肠道不适以及微生物组之间的关系。由于人际间的肠道微生物组存在很大差异,这项 LMS 揭示了肠道微生物组与 ASD 行为之间的关系,即微生物组变化的程度与不同时间点的 ASD 行为变化之间存在相关性。
代码
https://github.com/JTFouquier/explana
参考
- EXPLANA: a user-friendly workflow for EXPLoratory ANAlysis and feature selection in cross-sectional and longitudinal microbiome studies
- https://github.com/JTFouquier/explana