
协方差和相关系数.docx
12页如何通俗易懂地解释「协方差」与「相关系数」的概念?其背后的原理为何可以达到衡量「相关性」的效果?1 条评论 分享5 个回答傅渥成 ,统计物理 / 复杂系统 / 生物物理184 人赞同看到这个问题,马上想到我那天回答的另一个问题了我们在刻画这个世界之间的各种关系的时候,常常会希望度量“距离”:1. 对于空间中的两个点,我们可以用勾股定理定义平方和作为距离;2. 对于两个二进制序列,或者两段基因序列,我们可以用汉明距离来度量二者之间的差异,作为“距离”;3. 那么假如对于两个复杂的量(描述这两个量可能用很多很多的参数),那么这时候怎样度量二者之间的“相关性”呢?按照真正的逻辑顺序来讲,应该是这样讲的: 把所有的这些复杂的参数排成一列,就拍成了一个向量,很多很多的这样的向量构成了一个向量空间向量空间里面的东西没有“距离 ”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?接下来,又怎样来确定两个向量之间的“距离”呢?对于一个可以定义距离的结构(度量空间),我们需要有一些要求,认为满足这些要求的一个函数就可以认为是距离,例如我们要求:A 到 B 的距离等于 B 到 A 的距离,A 到 A 的距离等于 0,两个点之间的距离非负,三角不等式。
那么对于一个向量空间,怎样可以最自然地给它一个“范数”,使得它有可能推广到一个距离空间(度量空间)呢?最自然的方法就是引入“内积”的概念了,通过内积的运算,得到内积空间,再用内积来定义距离(范数),于是也就有可能得到距离空间 为什么内积空间可以变成一个度量空间呢?这就是我在“学一门课的时候,要注意理解和思考,不要一味的背公式,背习题是什么意思?”这个问题里面,我反复用到了 Cauchy 不等式,目的也正在此Cauchy 不等式为我们提供了判断两个向量是否相关的方案:(a ・ b)/|a||b| 可以作为度量相关性的一个函数,而它的直观意义是什么,请看下面—————————————这是一条分割线——————————————好了,截止到目前,都是我认为一个比较正常,且不算太难的一种解释的方法,如果觉得这样理解起来还有困难,那么接下来就只能用能让中学生听懂的,最直观的方法了,但是我并不喜欢这样直观的讲法,因为这个讲法的逻辑是很混乱的,事先就引入了很多不应该过早引入的概念,不过为了帮助理解,也就这样吧: 有两个向量,我们希望定义它们是不是相关一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。
但是怎样来计算夹角呢?为了让这种计算可行,我们要选一种恰当的三角函数来算 正弦函数的不太好的一个原因是因为加上个 90°,正弦算出来得到的结果一样,而两个向量的夹角是 30°还是 120°这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较” 那么考虑用余弦吧,这个可以很方便地区分 30°和 120°,而且还有一个好处——余弦的计算非常简单,用内积就可以计算了,中学数学中就学过: (x1,y1)・(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差” 但是这个内积的定义很奇怪哎?要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:cos =(a ・ b)/|a||b|; 这样,那么两个量是不是相关,怎么来判断?就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:分子上面的就是一个内积的计算,也就是前面我说的“协方差” ,分子下面是两个勾股定理乘起来,是两个向量的长度如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于 1 或者-1,同向的时候是 1,反向的时候就是-1。
如果两个向量垂直,则夹角的余弦就等于 0,说明二者不相关 再写我都不好意思了,我觉得这样应该很容易就可以懂了……184 编辑于 2013-03-15 37 条评论 感谢 更多• 作者保留权利Ger Young ,EE2CS 摄影/篮球/ 音乐爱好者65 人赞同协方差、相关系数是紧密相关的,二者都是用来描述两个连续变量的线性相关关系本答案先简要阐述相关概念,再具体阐述几何上的理解,最后提出一点个人看法简要阐述如下:一.协方差只表示线性相关的方向,取值正无穷到负无穷也就是说,协方差为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取 0 说明两个变量没有相关关系注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取 0 说明两个变量没有相关关系同时,相关系数的绝对值越接近 1,线性关系越显著通常情况下,当相关系数的绝对值大于 2/sqrt(N),N 为样本点的数量时,我们认为线性关系是存在的。
三.协方差与相关系数的关系协方差的公式为 相关系数的公式为 ,其中 Sx,Sy 分别表示 x 和 y 的标准差由两者的相关关系,可以看出为什么相关系数比协方差多阐述了线性相关的程度:原因在于协方差和大小和 x,y 的取值范围紧密相关,举个例子,x,y 都取值[-1000,1000]或都取值[-0.001,0.001] ,这两者的协方差肯定呈现量级般的差异,但是都除以标准差后,相当于在同样的尺度上衡量问题,所以相关系数是有意义的,反映了线性相关的程度备注:其实也不一定必须得除以标准差,只要除的值等够度量数据的波动范围就可以了,标准差只是一种通俗惯例的选择具体阐述如下:回答协方差(相关系数)的几何意义本质上,它就是数据的点积度量 ,点积的几何意义是一个向量在另一个向量上的投影,或者理解成两个向量的重合程度当向量角为 0 时,重合值最大;当向量角为 90 时,重合值最小同时,考虑点积时,也必须考虑向量 x,y 的长度如果不考虑 x,y 的取值范围,那么点积的意义只是向量的夹角是锐角直角还是钝角,其值并不能反映向量的重合程度(和协方差很像)为了能够确切反映向量的重合程度,我们可以把 x,y 向量都比例化,那么点积不仅反映了夹角,还反映了向量的重合程度(和相关系数类似)。
此外,还有一种更直观的理解,可以参考 variance - How would you explain covariance to someone who understands only the mean?,讲的很棒最后,一些值得注意的地方协方差,相关系数这些只不过是数学工具,对于二值变量的相关关系,最好是先做出散点图,再利用这些数学工具去分析,否则容易得出错误的结果观察图片如下:这四组数据中,x 值的平均数都是 9.0,y 值的平均数都是 7.5;x 值的方差都是10.0,y 值的方差都是 3.75;它们的相关度都是 0.816,线性回归线都是y=3+0.5x单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别对这个问题感兴趣的可以搜索下 Anscombe’s Quartet65 发布于 2015-03-14 3 条评论 感谢 更多• 作者保留权利silva golden ,程序员24 人赞同看看哥的博客就明白了终于明白协方差的意义了协方差代表了两个变量之间的是否同时偏离均值如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。
下面这个图就很直观下面转载自:协方差的意义在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列 3 种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关 ”当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大 Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关 ”当 X, Y 的联合分布像上图那样时,我们可以看出:既不是 X 越大 Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关 ”怎样将这 3 种相关情况,用一个简单的数字表达出来呢?在图中的区域(1 )中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;在图中的区域(2 )中,有 X0 ,所以(X-EX)(Y-EY)0;在图中的区域(4 )中,有 X>EX ,Y-EY0 当 X 与 Y 负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有 (X-EX)(Y-EY)0 时,表明 X 与 Y 正相关;当 cov(X, Y)<0 时,表明 X 与 Y 负相关;当 cov(X, Y)=0 时,表明 X 与 Y 不相关。
这就是协方差的意义24 编辑于 2015-12-03 3 条评论 感谢 更多• 作者保留权利煦超 ,一块儿不知疲倦的橡皮33 人赞同先说协方差两个变量有多大的“可能”朝一个方向改变?协方差就是用来形容这个“可能” 的程度的比如你和我是两个变量,你变大我也变大,你变小我也变小,那么咱俩的协方差就是正数相反,如果你变大我却变小,你变小我却变大,那么咱俩的协方差就是负数这时候再来看一下协方差的公式其中 X,Y 就是两个随机变量,如果我是 X 你是 Y,那么当我变大(即大于均值)时, 的值就为正,这时候你也变大(即大于你的均值),那么 的值也是正的假设现在有十个时刻,分别为在 时刻,我变大你变大, 的值为正在 时刻,我变大你也变大, 的值还是为正如果在这十个时刻里面,每次我变大的时候,你也变大,那么十个的值都是正的,那么这十个值得均值也肯定是正的就说明,咱们俩朝一个方向改变的“可能”的程度,很大这时候再考虑两种情况1.我变大了很多,你变大了一点2.我变大了很多,你也变大了很多这时候,两种情况的协方差都是正值,但是第二种情况的值就要大于第一种情况代入公式也很容易理解吧相反,负值就是我变大你变小,思路是一样的。
33 发布于 2014-11-01 2 条评论 感谢 更多• 作者保留权利呵呵 whatever ,知乎影响我看书我乱改了密码,一段时间…3 人赞同一群人欲研究不同地区的蚂蚁爬行速度和本地极限风速的关系用协方差当然可以做出来协方差的思路是,先给数学期望,即平均值如果该地区的蚂蚁爬速和极限风速都高于或者都低于各自平均值,那么假定它们“正联系” 多一些如果一个越高于平均值,另外一个就越低于平均值,那么假定它们的“负联系” 多一些其它情况就认为两者任何联系都没有因此出现了下面协方差的公式:根据正负数的计算法则,这样构造一个协方差公式,恰好就把这三种情况表示出来了实际上这种表示是否合理还要商榷,它忠实反映现实了吗?为什么“不相关” 是在负相关和正相关之间呢?幸好大多数研究不需要涉及探讨不相关和相关的关系,不然又有很多人草率地用这种数量关系来表述一种现实关系了)后来又来了一帮人,欲研究,蚂蚁爬速和极限风速的关系,和蚂蚁爬速和本地经纬度的关系,哪个更强这个问题那么毛病就来了经纬度的变化幅度显然要比风速大很多,或者在另外一些情况下小很多这样,协方差公式出来的表示两者“共变”的东西,在不同变量计算下就不公平了。
你看,假如在数的层级上,经纬度的变化最多用几十来衡量,风速的变化可能要用几百,几千,上万,怎么不可能,我把单位变成厘米/s、毫米/s 了这样协方差的大小反映的不仅仅是共变的幅度,而且是在事物本身计量方式的基础上的共。












