p值怎么计算,统计学中怎么求p—value

距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨慎

距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。

距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨慎。但在做出决定之前,我们需要了解距离测量是如何工作的,以及我们可以从哪些测量中进行选择。

本文将简要介绍常用的距离度量方法、它们的工作原理、如何用Python计算它们以及何时使用它们。这样可以加深知识和理解,提高机器学习算法和结果。

在更深入地研究不同的距离测量之前,我们先要有一个关于它们如何工作以及如何选择合适的测量的大致概念。

距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。 然后可以使用该距离来确定特征之间的相似性, 距离越小特征越相似。

当被测假设h1为 p大于p0时;=φ(z0)当被测假设h1为 p小于p0时;其中,φ(z0)要查表得到。z0=(x-n*p0)/(根号下(np0(1-p0)))最后,当p值小于某个显著参数的时候我们就可以否定假设。反之,则不能否定假设。

对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。 特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。

几何距离测量

1、欧氏距离 Euclidean distance

欧氏距离度量两个实值向量之间的最短距离。由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量和许多应用程序的默认距离度量。

欧氏距离也可称为l2范数,其计算方法为:

Python代码如下

from scipy.spatial import distancedistance.euclidean(vector_1,vector_2)

统计学中怎么求p—value,欧氏距离有两个主要缺点。首先,距离测量不适用于比2D或3D空间更高维度的数据。第二,如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜。

2、曼哈顿距离 Manhattan distance

P值即为拒绝域的面积或概率。P值的计算公式是 =2[1-Φ(z0)] 当被测假设H1为 p不等于p0时;=1-Φ(z0) 当被测假设H1为 p大于p0时;=Φ(z0) 当被测假设H1为 p小于p0时;总之,P值越小,表明结果越显著。

曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的。这种距离度量通常用于离散和二元属性,这样可以获得真实的路径。

曼哈顿距离以l1范数为基础,计算公式为:

Python代码如下

from scipy.spatial import distancedistance.cityblock(vector_1,vector_2)

曼哈顿的距离有两个主要的缺点。它不如高维空间中的欧氏距离直观,它也没有显示可能的最短路径。虽然这可能没有问题,但我们应该意识到这并不是最短的距离。

3、切比雪夫距离 Chebyshev distance

切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离。 它通常用于仓库物流中,其中最长的路径决定了从一个点到另一个点所需的时间。

切比雪夫距离由l -无穷范数计算:

Python代码如下

from scipy.spatial import distancedistance.chebyshev(vector_1,vector_2)

切比雪夫距离只有非常特定的用例,因此很少使用。

4、闵可夫斯基距离 Minkowski distance

闵可夫斯基距离是上述距离度量的广义形式。 它可以用于相同的用例,同时提供高灵活性。 我们可以选择 p 值来找到最合适的距离度量。

P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异。P<0.05时,认为差异有统计。

闵可夫斯基距离的计算方法为:

Python代码如下

from scipy.spatial import distancedistance.minkowski(vector_1,vector_2,p)

由于闵可夫斯基距离表示不同的距离度量,它就有与它们相同的主要缺点,例如在高维空间的问题和对特征单位的依赖。此外,p值的灵活性也可能是一个缺点,因为它可能降低计算效率,因为找到正确的p值需要进行多次计算。

5、余弦相似度和距离 Cosine similarity

余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。 余弦相似度通常用于与数据大小无关紧要的高维,例如,推荐系统或文本分析。

余弦相似度可以介于-1(相反方向)和1(相同方向)之间,计算方法为:

余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度,位于0(相似值)和1(不同值)之间。

Python代码如下

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异。

6、半正矢距离 Haversine distance

半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航,其中经度和纬度和曲率对计算都有影响。

半正矢距离的公式如下:

其中r为球面半径,φ和λ为经度和纬度。

Python代码如下

半正矢距离的主要缺点是假设是一个球体,而这种情况很少出现。

计算:为理解P值的计算过程,用Z表示检验的统计量,ZC表示根据样本数据计算得到的检验统计量值。1、左侧检验 P值是当 时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 2、右侧检验 P值。

7、汉明距离

汉明距离衡量两个二进制向量或字符串之间的差异。

对向量按元素进行比较,并对差异的数量进行平均。如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1。

Python代码如下

from scipy.spatial import distancedistance.hamming(vector_1,vector_2)

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量,它不能给出差异的大小。所以当差异的大小很重要时,不建议使用汉明距离。

统计距离测量

统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测。

8、杰卡德指数和距离 Jaccard Index

Jaccard指数用于确定两个样本集之间的相似性。 它反映了与整个数据集相比存在多少一对一匹配。 Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较,或者根据单词的重叠来比较文档中的文本模式。

Jaccard距离的计算方法为:

P值的计算公式:=2[1-Φ(z0)] 当被测假设H1为 p不等于p0时;=1-Φ(z0) 当被测假设H1为 p大于p0时;=Φ(z0) 当被测假设H1为 p小于p0时;其中,Φ(z0)要查表得到。z0=(x-n*p0)/(根号下(np0(1-p0)。

Python代码如下

from scipy.spatial import distancedistance.jaccard(vector_1,vector_2)

Jaccard指数和距离的主要缺点是,它受到数据规模的强烈影响,即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数

Sörensen-Dice指数类似于Jaccard指数,它可以衡量的是样本集的相似性和多样性。该指数更直观,因为它计算重叠的百分比。Sörensen-Dice索引常用于图像分割和文本相似度分析。

计算公式如下:

Python代码如下

from scipy.spatial import distancedistance.dice(vector_1,vector_2)

它的主要缺点也是受数据集大小的影响很大。

10、动态时间规整 Dynamic Time Warping

动态时间规整是测量两个不同长度时间序列之间距离的一种重要方法。可以用于所有时间序列数据的用例,如语音识别或异常检测。

为什么我们需要一个为时间序列进行距离测量的度量呢?如果时间序列长度不同或失真,则上述面说到的其他距离测量无法确定良好的相似性。比如欧几里得距离计算每个时间步长的两个时间序列之间的距离。但是如果两个时间序列的形状相同但在时间上发生了偏移,那么尽管时间序列非常相似,但欧几里得距离会表现出很大的差异。

边界条件:弯曲路径在两个时间序列的起始点和结束点开始和结束

单调性条件:保持点的时间顺序,避免时间倒流

连续条件:路径转换限制在相邻的时间点上,避免时间跳跃

整经窗口条件(可选):允许的点落入给定宽度的整经窗口

坡度条件(可选):限制弯曲路径坡度,避免极端运动

p值怎么计算

我们可以使用 Python 中的 fastdtw 包:

from scipy.spatial.distance import euclideanfrom fastdtw import fastdtwdistance,path = fastdtw(timeseries_1,timeseries_2,dist=euclidean)

p值怎么计算

动态时间规整的一个主要缺点是与其他距离测量方法相比,它的计算工作量相对较高。

总结

在这篇文章中,简要介绍了十种常用的距离测量方法。本文中已经展示了它们是如何工作的,如何在Python中实现它们,以及经常使用它们解决什么问题。如果你认为我错过了一个重要的距离测量,请留言告诉我。

上一篇 2023年02月05 06:49
下一篇 2023年02月08 02:36

相关推荐

  • word怎样做表格,word怎样制作横向表格

    你会在Word文档中制作表格吗?这里有三种方法可以制作:第一种:框选法在word文档做表格的方法如下:1、打开word文档,并将光标定位到需要绘制表格的地方。2、打开word的“插入”选项卡。3、定位

    2022年12月27 213
  • 乘法竖式怎么列,小学二年级的乘法竖式怎么列

    小学二年级的乘法竖式怎么列,对于乘法计算,我们从小便背诵学习九九乘法表并用列竖式计算。而在其他国家,他们并没有强制要求背诵九九乘法表,那么他们是如何计算乘法呢?今天小编介绍一些有趣的乘法计算方法,感兴

    2023年02月06 278
  • 学不进去怎么办,学不进去又很焦虑怎么办

    有家长私信小编问,孩子学不进去怎么办呢?我认为孩子学不进去,主要是缺乏兴趣造成的。从心理学上讲,兴趣是行为的动力,学不进去又很焦虑怎么办,是成功的前提。,孩子学不进去怎么办1、让孩子体会学习的快乐2、

    2023年02月03 260
  • 中考成绩怎么查,如何查到自己当年的中考成绩

    一、通过“随申办”APP查询考生及家长们可以在应用市场下载“随申办”APP,通过“随申办”或“我”频道首页的“中考成绩查询”服务进行查询,只需操作3步即可查询到中考成绩。1、点击“中考成绩查询”服务2

    2023年01月12 259
  • 怎样做一个优秀的团员,如何做好一名优秀的团员

    □团六安市委书记张柱团干部的健康成长,对于党的青年事业具有重要意义。作为在团的岗位上工作了近六年的老团干,我认为优秀团干部的成长必然要“过两关识三路成四善”。团干部的健康成长,对于党的青年事业具有重要

    2023年01月07 218
  • 怎么画平面图,初学者怎么制作平面图

    什么叫建筑平面图建筑平面图,又可简称平面图,是将新建建筑物或构筑物的墙、门窗、楼梯、地面及内部功能布局等建筑情况,以水平投影方法和相应的图例所组成的图纸。建筑平面图作为建筑设计、施工图纸中的重要组成部

    2023年01月15 264
  • 半勾符号怎么打,半勾符号复制

    勾符号是一种比较特殊的符号,这种符号其实不仅仅只是一个,而是有好几个,今天特殊符号大家就带大家来看看勾的符号怎么打2:在手机和电脑上面也可以使用全拼的方法打出勾的符号,只是只能打打出其中的一种,以搜狗

    2023年02月01 268
  • 中子数怎么算,中子数的示意图

    几年前,日本的一个物理学家团队创造出了一个不同寻常且从未曾见过的亚原子粒子。他们在将钙核粒子流在粒子加速器中一次又一次地撞向金属圆盘长达数小时之后,找到了梦寐以求的粒子——钠(Na)。中子数的示意图,

    2023年01月23 252
  • 怎样自学成为一名律师,怎么自学律师入门

    □梁慧星我国许多重点大学中,本科生都是过五关斩六将考进来的,高考考分非常高,进来时都是优秀人才。但到了毕业的时候,由于现在法学院招生很多,老师任务很重,学校办学有很多事务,怎么自学律师入门,对同学都是

    2023年01月05 264
  • 身份证水印怎么加,身份证水印加什么内容

    分享最实在的玩机技巧,洞察最前沿的科技资讯!大家好,这里是手机科技园~~~在我们的生活中,身份证水印加什么内容,会经常用到身份证复印件,每次都要去打印店,显得非常麻烦。其实我们可以将身份证扫描到手机上

    2023年02月06 232
  • 文本文档怎么改格式,文本文档怎么改成文件格式

    电脑上怎么更改文件格式?大家在办公生活中会应用到不同的文件格式,不同的格式也有着不同的优点和限制,在不同的应用场合下,大家需要经常对不同的文件进行转换,文本文档怎么改成文件格式,比如在电脑中编辑用的w

    2023年01月23 224
  • 怎样画金鱼,二年级金鱼怎么画

    在人类文明史上,二年级金鱼怎么画,中国金鱼已陪伴着人类生活了十几个世纪,是世界观赏鱼史上最早的品种。金鱼易于饲养,它身姿奇异,色彩绚丽,一般都是金黄色,形态优美。金鱼能美化环境,很受人们的喜爱,是具有

    2023年01月02 270
  • 报销单怎么填,手写报销单样本图片

    一份正规报销单该怎么填写?发票金额怎么填写?报销单怎么做凭证?会计无小事,像报销这样的事情,在其他同事看来,似乎很简单。只有会计人才知道,这里面有多少的注意事项,手写报销单样本图片,有多少不同的账务处

    2023年01月16 227
关注微信