皮尔逊相关系数(Pearson Correlation Coefficient)

发布时间 2023-08-22 21:30:51作者: 半度墨水

一、协方差

协方差(Covariance)用于衡量两个随机变量的联合变化程度,方差是协方差的一种特殊情况,即变量和自身的协方差。协方差表示的是两个变量总体的误差,如果两个变量的变化趋势一致,那么两个变量的协方差为正值;如果两个变量的趋势相反,则两个变量之间的协方差为负值。

没听懂,没关系。我们只要知道协方差表达了两类随机变量之间的变化关系

关于为什么方差为什么是协方差的特殊情况下但是表达的意义完全不同

协方差是统计学常用到的术语,在计算时涉及到了概率和相关性分析,公式如下:

公式原理

计算结果:

当Cov(X,Y) > 0,X和Y正相关;

当Cov(X,Y) < 0,X和Y负相关:

当Cov(X,Y) = 0,X和Y不相关。

二、皮尔逊相关系数

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

通过上式计算。使得ρ在(-1,1)之间:

皮尔森相关系数反映了两个变量的线性相关性的强弱程度,r的绝对值越大说明相关性越强。

当ρ>0时,表明两个变量正相关,即一个变量值越大则另一个变量值也会越大;
当ρ<0时,表明两个变量负相关,即一个变量值越大则另一个变量值反而会越小;
当ρ=0时,表明两个变量不是线性相关的(注意只是非线性相关),但是可能存在其他方式的相关性(比如曲线方式);

三、皮尔逊相关系数在机器学习中

在机器学习中常用来计算相似度,在数据标准化之后其实和欧几里得、余弦相似度之间并无明显地区别,可参看:https://www.zhihu.com/question/19734616

 

参考