1.概述

首先从随机变量的方差的性质讲起。
XY是两个随机变量,E(X)E(Y)D(X)D(Y)分别为各自的期望和方差,则有:

D(X+Y)=D(X)+D(Y)+2E(XE(X))(YE(Y)). (1)

特别的,当XY相互独立时,有:
D(X+Y)=D(X)+D(Y). (2)

对比(1)式和(2)式知,XY相互独立时还应该有:
E(XE(X))(YE(Y))=0. (3)

这意味着当E(XE(X))(YE(Y))0时,X与Y不相互独立,而是存在一定关系的。

2.相关系数和协方差

我们把E(XE(X))(YE(Y))拿出来,单独定义一个概念,即协方差,记为Cov(X,Y),即:

Cov(X,Y)=E(XE(X))(YE(Y)). (4)


ρXY=Cov(X,Y)DXDY. (5)

称为随机变量XY相关系数
Cov(X,Y)的定义式展开,易得:
Cov(X,Y)=E(XY)E(X)E(Y). (6)

我们常常用这一式子计算协方差

协方差的性质:
i) Cov(aX,bY)=abCov(X,Y),a,b是常数;
ii) Cov(X1+X2Y)=Cov(X1,Y)+Cov(X2,Y).

相关系数的性质:
i) ρXY∣≤1
ii) ρXY∣=1的充要条件是,存在常数a,b使得PY=a+bX=1

3.协方差矩阵和相关系数矩阵

上面的定义都是针对二维随机变量的,那么对于n维随机变量,相应的有协方差矩阵和相关系数矩阵的定义。

设n维随机变量(X1,X2,,Xn)的二阶混合中心距

cij=Cov(Xi,Xj)=E[XiE(Xi)][XjE(Xj)],i,j=1,2,,n. (7)

都存在,则称矩阵
C=[cij].
为该n维随机变量的协方差矩阵。相应的有相关系数矩阵的定义=[ρij]

设有m个样本,则可构成m×n的样本矩阵X,对X进行标准化变换后得到矩阵Z,那么由相关系数矩阵的定义有

=ZTZ

其中ZTZ的转置。

4.协方差矩阵和相关系数矩阵的关系

由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。

参考文献

《概率论与数理统计》浙大第4版

Original Link: http://ibillxia.github.io/blog/2012/07/17/covariance-matrix-and-correlation-matrix/
Attribution - NON-Commercial - ShareAlike - Copyright © Bill Xia