怎样区分线性和非线性,怎么判断是线性还是非线性

文献速递目前有多种相关分析方法被应用于确定microbe–metabolite关系。今天分享一个能考虑不同组学数据的特点,适用于metabolome(代谢组)和microbiome(微生物组)的分析策

文献速递

目前有多种相关分析方法被应用于确定 microbe–metabolite 关系。今天分享一个能考虑不同组学数据的特点,适用于 metabolome (代谢组)和 microbiome (微生物组)的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。

GRaMM 通过整合多种方法可以处理两类组学数据,消除混杂因子的影响,获得线性和非线性的关系。

GRaMM 包括 4 个步骤:代谢组和微生物组数据的预处理;线性或非线性关系的识别;数据矫正和相关性计算;p 值矫正。

1、看决策边界是否是一个点、一条直线或平面(线性函数)2、看一个权重系数w是否只影响1个特征x,例如神经网络模型是非线性模型,特征x不仅仅受一个权重系数影响,因此,它的解释性较弱 样本线性不可分,也可以选择线性。

在多个模拟和真实数据集中,与其他三种方法比较,评估 GRaMM 的性能:准确性,敏感性,特异性,假阳性率,适用性以及数据预处理和混杂调整步骤步骤的效果。GRaMM 是为代谢组和微生物组的相关性分析设计的策略。Matlab 函数和 R 包免费提供,供学术研究使用。

Keywords: GRaMM,MIC,MECC,preprocessing,confounder adjustment

Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome

DOI: 10.1021/acs.analchem.9b02948

Journal: Analytical Chemistry [IF 6.35]

First Authors: Dandan Liang,Mengci Li

Correspondence: Wei Jia,Tianlu Chen

Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine,Shanghai Jiao Tong University Affiliated Sixth People's Hospital,Shanghai,China.

Published: 2019-10-22

研究背景

在组学研究领域,Pearson,Spearman,LR,SparCC,CCLasso 被用于确定微生物组的相关性。maximum information coefficient (MIC) 可以捕获线性和非线性相关性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被应用于微生物组和代谢组的相关性分析。

代谢组和微生物组数由于获取方式的不同,数据特征不同。代谢组数据是连续谱数据,微生物组是基于序列的“计数”方法。此外,代谢组数据是高度稀疏的,通常用相对丰度表示。因此,怎么判断是线性还是非线性,数预处理(如:归一化,log转换)对下游分析有益。混杂因子(如:年龄,性别,饮食等)可能导致结果偏差。计算相关性时,可以用少量方法(如:LR 和净相关)调整混杂因子。真实数据集中中存在多种类型相关性(线性,非线性和无相关性)。除了MIC,其他现存分析方法都只能捕获线性或单调相关性。

研究思路

GraMM 流程图:(1)预处理:代谢-- log 转换和总强度归一化;微生物-- 总强度归一化,稀释和居中对数比变化。(2)确定相关类型:线性:p<0.05 或 r > 用户设定的值;非线性:不满足上述条件。(3)混杂因子:线性(无)-- LR;线性(有)-- mLR(微生物数据和混淆因子做自变量,代谢数据是因变量);非线性(无)-- MIC;非线性(有)-- MCEE 移除特定混杂因子的影响,不需要额外实验,不丢失样本/变量。

研究结果

1.模拟数据比较四种方法

SDatabase1:240 组线性对和 120 组非线性的微生物-代谢物对

SDatabase2:240 组随机产生的无相关性的微生物-代谢物对

使用 SDatabase1 数据集的 240 对线性相关数据,比较 4 种方法的效果。结果发现:与 spearman LR 相比,GRaMM 的 r 值离散程度小(图 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,准确性评估指标) 低于 MIC (图 1b)。表明:MIC 适用于非线性关系。

使用SDatabase2 数据集,发现:GRaMM 的 FPR (false positive ratio,假阳性率) 高于其余三种方法(图 1c)。因为 GRaMM 综合利用 LR,MIC 以及其他方法,尽可能多的找相关的配对。p 值矫正减少假阳率。

使用 SDatabase1 和 SDatabase2 数据集,ROC 分析计算 4 种方法的 p 值。GRaMM 有最高的AUC值 (0.971),最低的 SE值(0.006)(图 1d)。GRaMM 优于其他的线性分析方法(LR 和 Spearman)。

使用 SDatabase1 中的 120 对非线性的microbe–metabolite。发现:相较于 LR 和 Spearman,MIC 和 GRaMM 可以确定更多的相关对(图 1e)。MIC 和 GRaMM 的 RMSE 值低于 LR 和 Spearman(图 1f)。基于F1函数得到的非线性对,GRaMM 的结果和Spearman 和 LR 更接近,关系更接近线性(图 1g);基于 F2-F6 函数得到的非线性数据对,GRaMM 的结果和 MIC 更接近,关系更接近非线性(图 1h-1l)。

总之:GRaMM 在准确率,敏感性,特异性和识别线性以及非线性关系的能力方面优于其他方法。

图 1. 基于模拟数据集,比较 4 种方法的性能

怎样区分线性和非线性

2.数据预处理的效果

代谢数据做 log 转换;微生物组数据做总丰度归一化 和 log-ratio (CLR) 转换 。

基于 SDatabase1 和 SDatabase2 数据集,比较数据预处理的效果。发现:代谢数据(图2a)和微生物组数据(图 2b)处理后更接近正态分布。此外,还发现:数据预处理之后,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法没有变化(图 2c)。可能是由于 MIC 受数据分布和结构影响较小。

GRaMM 的数据预处理几乎对所有的该方法都是有益的。

区别:1、线性方程组:线性方程组是各个方程关于未知量均为一次的方程组;非线性方程:非线性方程就是因变量与自变量之间的关系不是线性的关系。2、线性方程一般来说容易求解,且可以用一些解的线性组合给出所有解的表示;非。

图 2. 基于模拟数据集,有效的数据预处理

3.Real Dataset 的评估结果

使用的2个真实数据集:

1.两个变量之间的关系是一次函数关系的——图象是直线,这样的两个变量之间的关系就是“线性关系”;如果不是一次函数关系的——图象不是直线,就是“非线性关系”。2.比如说y=kx 就是线形的 而y=x^2就是非线形的 。

RDatabase1:42 只小鼠的 17 个门水平的微生物和 14 个代谢物

基于不同的距离方法(Unweighted Unifrac,weight Unifrac,Hellinger,JSD,Spearman。

使用 RDatabse1 ,评估 GRaMM 的性能和数据预处理的效果。发现:GRaMM 可以确定更多的相关对,数据预处理后,MIC 的相关对减少的较少(图 3a)。GRaMM 联合LR 和MIC 方法,捕获线性和非线性关系。更多的线性关系确定,GRaMM 与 LR 和 Spearman 结果更相近。混杂因子调整之后,GRaMM 和 LR 的相关对数目较少(|r| > 0.5 或 |r| >0.3)(图 3b)。这证明了 GRaMM 可以确定更多的关系对,数据预处理和混杂因子调整对结果重要。

线性与非线性的一个明显区别是叠加性是否有效。在一个系统中,如果两个不同因素的组合作用只是两个因素单独作用的简单叠加,这种关系或特性就是线性的。反之,如果一个系统中一个微小的因素能够导致用它的幅值无法衡量的结果。

图 3. RDataset1(a-b)和 RDataset2(c-k)的结果

4.GRaMM 的适用性

使用的4个真实数据集:

RDatabase2:42只小鼠的 18 种胆汁酸和 Firmicutes 门下的 42 个genus/species

RDatabase3:12只小鼠的 20 种胆汁酸和 Firmicutes 门下的 100 个genus/species

RDatabase4:10 只小鼠的 39 种胆汁酸和 Firmicutes 门下的 65 个 genus/species

首先对代谢组数据做 log 转换,微生物组数据做归一化和 CLR 转换。使用 4 个真实数据集,GRaMM 分析确定最相关的对(图 4)。在所有数据集中,GRaMM 发现了3 个一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已经发现前两个相关对,第三个相关对是新发现的。先前研究中发现:SMB53.spp 在T2D 小鼠中高丰度;高脂饮食小鼠中丰度降低。GDCA 是结合次级胆汁酸,营养吸收和各种细胞信号通路的调控分子,促进多囊性人胆管细胞的增殖,减少法尼醇X受体(FXR)的表达。FXR 是配体激活的核受体,调节肝胆汁酸的合成,转运和分泌。这些证据支持这一关联,但是需要大量实验来验证这种关联以及确定这个关联的调节方向。

图 4. 使用真实数据集,4 种方法确定显著相关对的比率(p<0.05 和 FDR<0.05)

结论与讨论

GRaMM 能比较集成地处理代谢组和微生物组关联分析,能处理 数据预处理,相关模型选择,矫正混杂因子,p 值矫正等,以确保得到可信的结果。但是,GRaMM 的结果仍需要进一步的数据和实验验证。

Liang,D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91,14424-14432 (2019).

撰稿 | Yanni 责编 | NSC

上一篇 2023年02月06 05:11
下一篇 2023年02月03 20:36

相关推荐

  • 怎样考保育员证,考个保育员证要多少钱

    保育员证怎么考1、考生先到当地*授权的培训机构,需要先参加保育培训;2、当保育培训符合要求后,通过培训机构来报名,参加当地*保育考试;1、可以到当地人社局授权培训机构参加培训。2、培训学时符合要求后,

    2023年01月03 223
  • 公证委托书怎么办理,个人委托书去哪里公证

    近些年移民的中国人,比比皆是。这不仅仅是国外的文化风气影响了国民的认知,个人委托书去哪里公证,也是各国对中国国民人才引进的手段。比如澳大利亚(澳洲),完全允许中国人在澳洲结婚并落户。移民入籍后不方便回

    2023年02月06 279
  • 钢铁是怎样炼成的好句赏析,钢铁是怎样炼成的金句

    友情提示:此平台由华语教学出版社旗下一堂作文课创办,钢铁是怎样炼成的金句,每天推送名师专栏、考试政策、学习资料、高分技巧、家长经验,成功关注,即可订阅。《钢铁是怎样炼成的》尼古拉·阿历克塞耶维奇·奥斯

    2022年12月26 263
  • 爱尔兰留学怎么样,为什么不建议去爱尔兰留学

    有同学想了解爱尔兰留学,今天它来了为什么选择爱尔兰留学在爱尔兰留学的学费便宜,就业容易。爱尔兰是除英国外,欧洲唯一一个英语国家,也是世界上国民受教育程度最高的国家之一,其大学毕业证书得到国际认可。爱尔

    2023年01月13 283
  • 安全b证怎么考,二建挂靠坚决不考b证

    建筑施工企业安全生产管理人员证是建筑施工单位办理资质证书、办理安全生产许可证、开展生产经营活动必不可少的证件。分为A、B、C、三类,二建挂靠坚决不考b证,A类是指建筑施工企业主要负责人考取,B类是项目

    2023年01月19 269
  • 稼怎么组词,稼怎么组词

    第一课鹭(白鹭,银鹭)嫌(嫌弃,讨人嫌)喙(置喙,尖喙)黛(眉黛,粉黛)“稼”字组词如下:庄稼、稼穑、耕稼、百稼、农稼、稚稼、美稼、麦稼、晩稼、谷稼、苗稼、稼啬。稼拼音:【jià】部首:禾笔画:15画

    2023年01月12 259
  • 怎样理解知行合一,知行合一最精辟的解释

    知行合一最精辟的解释,合抱之木,生于毫末。九层之台,起于累土。千里之行,始于足下。每天一点点的知识累积,犹如汇百川而成海。让心回归空明,放下私欲,快乐工作幸福生活。所谓知行合一,主要指人的思想意念在实

    2022年12月30 232
  • 下标数字怎么打,下标小数字0~9复制

    时间不言不语,转眼间,2021年已经过去了四分之一,新的月份,新的开始。小伙伴们,大家好吖,阿呆今天和大家分享一个简单实用的小技巧——Excel设置上下标。6、同样在键盘里面找到“ctrl”和“=”两

    2023年01月20 299
  • 信以为真造句,用但是造句简单

    最近微博出现了一条热搜“兔子、钥匙、桥、我造句大赛”,起因是一部电视剧,用到了这个网络热传多年的心理测试。“兔子”表示爱人,“钥匙”表示金钱,“桥”代表人生,“我”就是你自己。四个词随意排列组合,造句

    2022年12月12 235
  • 关于家的诗句,关于家的成语和谚语、古诗

    家的味道是什么?是清晨厨房的热粥的喷香是欢聚时爱喝的小烧是母亲一针一线织出的毛衣如果你问我,我会说:家的味道就是:有老有小,有说有笑柴米油盐,有锅有灶团圆无恙,幸福相伴53、盘飧市远无兼味,樽酒家贫只

    2022年12月09 294
  • 不上学怎么办,小朋友不上学怎么办

    科学家教育儿育己快开学啦,很多家长都会关心孩子的学习问题。本刊特别征集了一些家长在家庭教育中遇到的困惑,邀请上海大学文学院教授、儿童文学作家谭旭东解答。——莫愁大观园1必须要有耐心:孩子成绩差,想立刻

    2023年01月10 287
  • ps怎么让文字有弧度,ps如何文字不变形却有弧度

    今天给大家更新一个有趣的使用文字变形制作立体文字的教程。1、首先我们先打开背景素材文件,单击工具箱中的横排文字工具按钮,ps如何文字不变形却有弧度,调整合适的字体及大小,输入英文“SUPER”,如图:

    2023年02月01 291
  • word目录怎么更新,word内容增加了怎么更新目录

    2020年了,还不会这个word技能吗?献给刚参加工作或即将参加工作的朋友们Word可以说是工作中必不可少的办公软件,它给大家提供了许多便利的编辑功能,可工野在工作中见到许多人编辑的Word文档标题、

    2023年02月04 233
关注微信