机器学习模型中常会涉及到计算两个样本间的距离,常用的计算距离标准有欧氏距离和马氏距离。
(1) 欧氏距离
局限性:
(a) 如果各变量的单位不全相同,则上述欧氏距离是没有意义的。例如,比如第一个分量表示身高,第二个分量表示体重,…,最后一个分量表示年龄。比如第二个分量单位使用公斤还是克所起作用完全不一样,求出的欧式距离没有实际意义。
(b) 即使单位全相同,但如果各分量的变异性差异很大,则变异性大的分量在欧氏距离的平方和中起着决定性的作用,而变异性小的分量却几乎不起什么作用。
比如下面是各国家和地区男子径赛记录的数据:
一个直观的想法是在计算平方欧氏距离前,先对这8个变量做一下标准化的变换,因为式中平方和中每一项都是随机变量,因而应在平均的意义上来看每一项所起作用大小,即其数据期望,其数据期望等价为方差,因此在平方和中每一项所起的平均作用大小取决于其方差,方差越大其所起的平均作用越大。
如果对各分量都作标准化变换,则各分量方差同为1且均值为0,于是:平方和中各分量所起的平均作用都一样,如果各分量的单位不全相同,则标准化可不受单位不同的影响。标准化过程如下:
注:对于对角矩阵,所有基向量都是特征向量,对角元素就是所属的特征值。
式可得特征值和特征向量如下:
在实际应用中,为了消除单位的影响和均等地对待每一分量,我们常须先对各分量作标准化变换,然后再计算欧氏距离。例如判断图中两个外点哪个更离群?上边点
1、首先计算协方差矩阵Σ=(sij)p×p。2、其次求出Σ的特征值λi及相应的正交化单位特征向量。3、最后即可求出协差阵。协方差矩阵是一个矩阵,其每个元素是各个向量元素之间的协方差。
补充1:协方差矩阵、相关矩阵和标准差矩阵知识
对协方差矩阵进行对角化这个过程可以将相关的随机变量转变为不相关的,而且如果是高斯的情况,还可以将相关的随机变量转换为独立的。
注:两个独立的随机向量必然不相关,但两个不相关的随机向量未必独立。
协方差(i,j)=(第i列的所有元素-第i列的均值)*(第j列的所有元素-第j列的均值)这里只有X,Y两列,所以得到的协方差矩阵是2x2的矩阵,下面分别求出每一个元素:所以,按照定义,给定的4个二维样本的协方差矩阵为。
补充2:线性变换、特征向量和特征值
线性变换的两种理解方式
特征值与特征向量
特征向量:一个向量经过线性变换,仍留在它所张成的空间中
特征值:描述特征向量经过线性变换后的缩放程度
用线性无关的特征向量来完成这件事情的意义在于:最终变换的矩阵必然是对角矩阵,且对角元就是对应的特征值。这是因为它处坐标系的基向量在变换中仅仅进行了缩放。
(2) 马氏距离
欧氏距离经变量的标准化之后能够消除各变量的单位或方差差异的影响,但不能消除变量之间相关性的影响。
[1] 应用多元统计分析王学民著
[2] 实用多元统计分析陆璇和叶俊译
[3] 概率、统计与随机过程罗鹏飞译
[4]Pattern Recognition and Machine Learning(PRML)author:Christopher M. Bishop
利用Sylvester恒等式det(I+XY^T)=det(I+Y^TX)即可,后面那个二阶行列式可以算出来 (2) 记原矩阵为A,再取多项式f(x)=a1+a_2x+。+a_nx^{n-1} 再取一个Vandermonde矩阵W,W由x^n-2=0的n个复根x_1。