林边百科 > 生活 > 正文

​协方差计算公式是(方差、协方差与皮尔逊值)

时间:2023-12-25 16:26

来源:林边百科

点击:

协方差计算公式是(方差、协方差与皮尔逊值)

方差的定义

方差在我们的日常生活当中非常常见,它主要是为了提供样本离群程度的描述。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的。我们假设平均每袋当中都有50片薯片好了,即使是机器灌装,也不可能做到每一袋都刚好是50片,或多或少都会有些误差。而均值则无法衡量这种误差。

如果现在有两个薯片品牌,它们的口味都差不多,平均每袋也都是50片。但是其中A品牌的薯片有一半是80片,还有一半是20片。B品牌呢,99%都在45-55之间。你说你会买哪一个牌子呢?(在不考虑通过称重的情况下)。

在现代社会,凡是工厂出厂的产品,基本上都离不开方差这个概念。方差越低,说明工厂的生产能力越强,能够做到每一个产品都很精细,相反如果方差越大,则说明瑕疵很多,不够精细。也就是说,方差衡量的是样本距离均值的期望。

它本来应该写成:E|X – E(X)|。

但是由于式子当中存在绝对值,我们通常会对它平方,从而将绝对值消掉。写成:

这里的E表示期望,这是统计学当中的写法,如果看不明白,我们也可以把式子展开写成:

这里的N表示的是样本数量,X bar 是样本的均值。Var是英文variance的缩写,我们也可以写成D(X)。

由于方差是通过平方计算得到的,我们也可以将它进行开方,得到标准差。根号D(X),也可以写成σ(X)。

方差的性质

关于方差有几个著名的性质,如果X是变量,而C是常数。那么:

也就是对于每一个变量都乘上一个常数,那么整体的方差扩大C的平方倍。这个很好理解,因为样本值扩大了C倍,由于我们在计算方差的时候用到了平方,那么自然就是扩大了C的平方倍。我们利用上面展开的公式代入可以很容易得到证明。

下一个性质是:

也就是全体样本加上一个常数,整体的方差不变。如果我们的样本不是一个值,而是一个向量的话,那么这个公式可以拓展成样本加上一个常数向量,样本的方差保持不变。这个也很好理解,样本加上一个常数向量,相当于整体朝着向量的方向移动了一个距离,对于整体的分布并不会影响

如果某个样本X的方差为0,那么说明样本内只有一个值。

下面一个性质稍微复杂一点:

也就是说方差等于样本平方的期望减去样本期望的平方,我们光从定义上很难得出这个结论,需要通过严谨的推导:

在有些时候,我们直接求解样本的方差不太方便,而求解平方的期望很容易,这个时候我们可以考虑使用这个公式进行代换。

方差与协方差

方差我们一般不直接在机器学习当中进行使用,更多的时候是用在特征分析当中,查看特征的方差来感知它的离散情况,决定要不要对特征进行一些处理。因为对于一些模型来说,如果特征的方差过大,那么模型可能很难收敛,或者是收敛的效果可能会受到影响。这个时候往往需要考虑使用一些方法对特征值进行标准化处理。

除了方差之外,还有一个类似的概念也经常被用到,就是用来衡量两个变量之间相关性的协方差。

协方差的公式其实和方差也有脱不开的关系,我们先来简单推导一下。

首先,我们来看一下D(X+Y),这里X和Y是两个变量,D(X+Y)就表示X+Y的方差,我们来看下D(X+Y)和D(X)和D(Y)之间的关系。

我们可以来推导一下,根据方差的定义:

这里的N是一个常量,我们可以忽略,只用来看分子即可。我们把式子展开:

我们看下上面化简之后的结果:

在这个式子当中D(X), D(Y)都是固定的,并不会随XY是否相关而发生变化。但是后面一项不是,它和XY的相关性有关。

我们可以用这一项来反应X和Y之间的相关性,这就是协方差的公式:

所以协方差反应的不是变量的离散和分布情况,而是两个变量之间的相关性。到这里,我们可能还不太看得清楚,没有关系,我们再对它做一个简单的变形,将它除以两者的标准差:

这个形式已经非常像是两个向量夹角的余弦值,它就是大名鼎鼎的皮尔逊值。皮尔逊值和余弦值类似,可以反映两个分布之间的相关性,如果p值大于0,说明两组变量成正相关,否则则成负相关。我们可以通过计算证明p值是一个位于-1到1之间的数。

如果p值等于0,说明X和Y完全独立,没有任何相关性。如果p值等于1,说明可以找到相应的系数W和b使得Y = WX+b。

结尾

在机器学习领域当中,计算两组变量之间的相关性非常重要。因为本质上来机器学习的模型做的就是通过挖掘特征和预测值之间的相关性来完成预测,如果某一组特征和预测值之间是完全独立的,那么它对于模型来说就是无用的,无论我们选择什么样的模型都是如此。

所以,我们经常会通过分析特征和label之间的皮尔逊值来衡量特征的重要程度,从而对特征进行取舍和再加工。如果单纯只看皮尔逊值和它的公式,很难完全理解和记住,而我们从方差入手,将整个链路梳理了一遍,则要容易得多,即使以后忘记了,也可以根据它们之间的关系重新推导。

相关标签:

相关推荐

​夏天空调开多少度(夏天,空调到底开到多少度才合适)

夏天空调开多少度(夏天,空调到底开到多少度才合适) 世界气象组织日前发表声明称,仍在不断上升的全球温室气体浓度,导致气温升高和海洋酸化, 2015年至2019年很有可能成为有气...

2023-12-25 16:24:19

​家常红烧鱼的做法 最正宗的做法 ,简单易学,赶紧收好!

​家常红烧鱼的做法 最正宗的做法 ,简单易学,赶紧收好!

家常红烧鱼的做法 最正宗的做法 ,简单易学,赶紧收好! 红烧鱼做法红烧鱼的做法一 材料:鱼一只 调料:姜末、蒜末、葱花、香菜、老抽、醋、料酒、糖、盐 做法: 1、将鱼去内脏...

2023-12-25 16:22:04

​电镀污水处理方法及常见问题

​电镀污水处理方法及常见问题

电镀污水处理方法及常见问题 北极星水处理网讯:传统电镀废水处理方式主要包含生物法、物理法以及化学法等,其中,化学处理方式容易引发新污染源,而生物法难以处理一些高浓度...

2023-12-25 16:19:49

​腰花怎么炒好吃又嫩?教你正确做法,鲜嫩脆爽,没有腥臊味

​腰花怎么炒好吃又嫩?教你正确做法,鲜嫩脆爽,没有腥臊味

腰花怎么炒好吃又嫩?教你正确做法,鲜嫩脆爽,没有腥臊味 俗话说吃啥补啥,如果血不足,可以来点腰子补补身体。中医讲究脏补脏的说法,每个星期吃一次动物肾脏有养肾气、益精...

2023-12-25 16:17:34

​历史上古巴比伦为什么消失了  他们去了哪里

​历史上古巴比伦为什么消失了 他们去了哪里

历史上古巴比伦为什么消失了 他们去了哪里 在历史课本中,我们都会提到四大文明古国,分别是古巴比伦、古埃及、古印度和中国。如今,埃及、印度、中国都是一个国家,而巴比伦...

2023-12-25 04:27:34

​国产奶粉有哪些(9款知名国产奶粉深度评测)

​国产奶粉有哪些(9款知名国产奶粉深度评测)

国产奶粉有哪些(9款知名国产奶粉深度评测) 奶粉智库致力于为1亿宝妈及从业者解读每一款奶粉,欢迎查看奶粉智库评测系列文章!今天我们选择了9款国产奶粉,多维度为您解读不同...

2023-12-25 04:25:19

​新加坡娘惹是啥意思?怎么和美食挂上钩了

​新加坡娘惹是啥意思?怎么和美食挂上钩了

新加坡娘惹是啥意思?怎么和美食挂上钩了 来到新加坡,“娘惹”一词的隆重登场率大大提升。那么娘惹到底是什么? 所谓娘惹,就是对土生华人女性的一种称呼。她们就是最早定居...

2023-12-25 04:23:05

​鼓浪屿攻略最详细(厦门最有名的景点鼓浪屿,先了解这些事,别再做走马观花的

​鼓浪屿攻略最详细(厦门最有名的景点鼓浪屿,先了解这些事,别再做走马观花的

鼓浪屿攻略最详细(厦门最有名的景点鼓浪屿,先了解这些事,别再做走马观花的 过客) 每个城市都有一个景点,就像名片一样,一提起就会想到它。就好比说起杭州想到西湖,谈起...

2023-12-25 04:20:49

​1碗面粉,1个鸡蛋,油条最好配方,金黄酥脆个个空心,凉了也不硬

​1碗面粉,1个鸡蛋,油条最好配方,金黄酥脆个个空心,凉了也不硬

1碗面粉,1个鸡蛋,油条最好配方,金黄酥脆个个空心,凉了也不硬 下面就将具体制作方法同大家一起来分享一下,喜欢的各位小伙伴们不妨一起动手为家人做起来吧,自己做的食品吃...

2023-12-25 04:18:34

​注意力不能集中 4招教你快速集中注意力,提高工作效率

​注意力不能集中 4招教你快速集中注意力,提高工作效率

注意力不能集中 4招教你快速集中注意力,提高工作效率 你是不是也有这样的经历? 马上要进行职称考试了,可就是不能集中注意力看书。或者是拿起书来,还没看几页,不是摆弄会儿...

2023-12-25 04:16:20

​三伏天是什么意思是指哪个季节(三伏天是怎么确定的?)

​三伏天是什么意思是指哪个季节(三伏天是怎么确定的?)

三伏天是什么意思是指哪个季节(三伏天是怎么确定的?) 俗话说:“小暑不算热,大暑三伏天”,随着大暑节气的到来,我们迎来了一年中最热的时间——三伏天。我们都说三伏天,...

2023-12-25 04:14:05

​霍金的十大预言分别有什么(4项已经证实,6项仍有待研究)

​霍金的十大预言分别有什么(4项已经证实,6项仍有待研究)

霍金的十大预言分别有什么(4项已经证实,6项仍有待研究) 毫无疑问,在物理学史上,霍金是最伟大的科学家之一。虽然只有几根手指能动,但是他却提出了许多高深的理论,为天体...

2023-12-25 04:11:50

​古浪县哪个镇最好 、古浪19镇对比:人口、土地、工业…最新统计

​古浪县哪个镇最好 、古浪19镇对比:人口、土地、工业…最新统计

古浪县哪个镇最好 、古浪19镇对比:人口、土地、工业…最新统计 一、各乡镇人口与土地 武威市天祝县1华藏寺镇65391人武威市古浪县1西靖镇47183人武威市古浪县2 大靖镇41710人武威市古...

2023-12-25 04:09:35

​nfc是什么功能? 手机NFC的4大应用 除了刷公交还收割羡慕眼神

​nfc是什么功能? 手机NFC的4大应用 除了刷公交还收割羡慕眼神

nfc是什么功能? 手机NFC的4大应用 除了刷公交还收割羡慕眼神 如今中高档手机都在力推NFC功能,根据厂商在发布会上的宣传,NFC能够让大家的生活更为便捷。那么大家对于NFC这项技术有...

2023-12-25 04:07:20

​五条腿的动物是啥(它是罕见五条腿动物,其巨大形象被大都会等著名博物馆争相

​五条腿的动物是啥(它是罕见五条腿动物,其巨大形象被大都会等著名博物馆争相

五条腿的动物是啥(它是罕见五条腿动物,其巨大形象被大都会等著名博物馆争相 收藏) #伊朗篇-20# 亲爱的小伙伴们,感谢您一路支持、跟随“走遍世界博物馆”从 文明古国系列 的埃...

2023-12-25 00:55:39

​分居多久可以自动解除婚姻关系(夫妻分居两年可自动离婚?不满足这些条件,离

​分居多久可以自动解除婚姻关系(夫妻分居两年可自动离婚?不满足这些条件,离

分居多久可以自动解除婚姻关系(夫妻分居两年可自动离婚?不满足这些条件,离 不了) 相信每个步入婚姻殿堂的人, 最初对爱情和婚姻都怀着无比美好的憧憬, 并为此付出了很多的...

2023-12-25 00:53:34

​怎样分解质因数(分解质因数,你学会了吗?教你几招,轻轻松松掌握)

怎样分解质因数(分解质因数,你学会了吗?教你几招,轻轻松松掌握) 最近,五年级正在学习因数与倍数知识,许多同学反映分解质因数对于他们来说有点难,能不能给他们总结归纳...

2023-12-25 00:51:29

​孕妇可以吃火龙果嘛 孕妇可以吃火龙果吗?有一种孕妈千万要注意

​孕妇可以吃火龙果嘛 孕妇可以吃火龙果吗?有一种孕妈千万要注意

孕妇可以吃火龙果嘛 孕妇可以吃火龙果吗?有一种孕妈千万要注意 当下正是火龙果当季的时候,走在大街上随处可以听到叫卖火龙果的声音,在这个炎热的季节里,来一个冰镇过的火...

2023-12-25 00:49:24

​盘他是什么意思网络用语(“盘他!”,到底是个什么梗?)

​盘他是什么意思网络用语(“盘他!”,到底是个什么梗?)

盘他是什么意思网络用语(“盘他!”,到底是个什么梗?) 每一个不曾盘他的日子,都是对生命的辜负。——尼猜 盘,一个诞生于北京人消磨时光的手部行为艺术,本意是指的是通...

2023-12-25 00:47:19

​冬季里最耐寒的15种花卉,个个都是神仙颜值,花期长又好养

​冬季里最耐寒的15种花卉,个个都是神仙颜值,花期长又好养

冬季里最耐寒的15种花卉,个个都是神仙颜值,花期长又好养 每到秋冬季节,总给人一种萧条之感,那么在秋冬季该养些什么花卉,来妆点我们的居室环境呢?为您盘点了以下15种,适...

2023-12-25 00:45:15