每个试图进入强大的数据科学世界的人都会遇到正态分布。在这篇文章中,我将以一种非常清晰的方式解释它到底是什么,α=0.05怎么查正态分布表,我们如何解释它,以及为什么它作为一个每个数据科学家都必须意识到的概念具有巨大的重要性。
什么是正态分布?
还有一个跟它相关的,并且非常重要的概念,叫中心极限定理,这将在以后的文章中讨论。
我们周围的很多很多变量都可以用这个正态分布来描述。想想所有同事到达办公室所需要的时间,只有少数人会住在5分钟或2个多小时的距离内(尾部)。大多数人将在20分钟-70分钟的距离(即峰值附近的区域)。当你研究越来越多的正态分布的变量时,你会发现它无处不在。
正态分布的参数
1、首先,要了解标准正态分布的公式(如图);2、看标准正态分布表,主要是看x的值。下面以示例介绍:假设X=1.15,首先在左边一列找到1.1(如图);3、然后在上面一行找到0.05(如图);4、然后找到1.1和0.
正态分布总是以平均值为中心,而曲线的宽度则由标准差(SD)决定。
这是两个正态分布,x轴上的高度单位是英寸,y轴上是特定高度对应的人数。
婴儿的平均身高为20英寸(50cm),标准差为0.6英寸(1.5cm)。
1、首先,要了解标准正态分布的公式(如图);2、看标准正态分布表,主要是看x的值。下面以示例介绍:假设X=1.15,首先在左边一列找到1.1(如图);3、然后在上面一行找到0.05(如图);4、然后找到1.1和0.
成年人的平均分布为70英寸(175cm),标准差为4英寸(10cm)
了解正态分布标准差的意义在于,它遵循一个经验法则,即大约95%的测量值落在均值附近的+/- 2倍个标准差之间。
推论:95%的人口落在平均值+/- 2*SD之间
95%的婴儿身高在20 +/- 1.2英寸之间
95%的成年人身高测量值在70 +/- 8英寸之间
正态分布的第一个参数是均值
均值或平均值是正态分布的集中趋势,它决定了曲线峰值的位置。平均值的变化导致曲线沿x轴水平移动。
正态分布的第二个参数是标准差SD
标准差是正态分布变异性的量度,它决定了曲线的宽度。SD值的变化导致曲线变得更窄或更宽,并对曲线的高度产生反比例的影响。
更紧的曲线(较小的宽度)->更高的高度
4标准正态分布表则是看其分布函数Φ(u)中的u值5比如说u=1.27,则先找到表的最左边的那一竖,找到1.2的那一横;6然后再看最上面那一行,找到0.07的那一竖;7两者相交的那一个数字就是Φ(1.27)的值。标准正。
更宽的曲线(更高的宽度)->更短的高度
现在,你已经了解了正态分布曲线的所有基础知识。让我们继续学习与之相关的其他重要信息。
所有正态分布的共同特征
它们都是对称的。
平均值=中位数
根据经验法则,我们可以确定正态分布曲线离均值标准差范围内的数据百分比。
通过一个示例,这一点将变得更加清楚。
在这篇文章的最后一部分,我们将学习正态分布的一个特例
标准正态分布:正态分布的特例
如前所述,正态分布根据参数值(平均值和标准差)有许多不同的形状。标准正态分布是正态分布的一个特例,均值为0,标准差为1。这个分布也称为Z分布。
1、所谓的正态分布表都是标准正态分布表(n(0,1),通过查找实数x的位置,从而得到p(z<=x)。2、表的纵向代表x的整数部分和小数点后第一位,横向代表x的小数点后第二位,然后就找到了x的位置。比如这个例子,纵向找2。
标准正态分布上的值称为标准分数或Z分数。标准分数表示某一特定观测值高于或低于平均值的SD数。
例如,标准得分为1.5表示观察到的结果比平均值高1.5个标准差。另一方面,负分数表示低于平均值的值。平均值的Z分数为0。