1.概述

首先从随机变量的方差的性质讲起。
设$X$,$Y$是两个随机变量,$E(X)$,$E(Y)$,$D(X)$,$D(Y)$分别为各自的期望和方差,则有:

$D(X+Y)=D(X)+D(Y)+2E{(X-E(X))(Y-E(Y))} $. (1)

特别的,当$X$,$Y$相互独立时,有:
$D(X+Y)=D(X)+D(Y) $. (2)

对比(1)式和(2)式知,$X$,$Y$相互独立时还应该有:
$E{(X-E(X))(Y-E(Y))} =0 $. (3)

这意味着当$E{(X-E(X))(Y-E(Y))}\neq 0$时,X与Y不相互独立,而是存在一定关系的。

2.相关系数和协方差

我们把$E{(X-E(X))(Y-E(Y))}$拿出来,单独定义一个概念,即协方差,记为$Cov(X,Y)$,即:

$Cov(X,Y)=E{(X-E(X))(Y-E(Y))} $. (4)


$\rho _{XY} = \frac{Cov(X,Y)}{\sqrt{DX}\sqrt{DY}}$. (5)

称为随机变量$X$,$Y$的相关系数
将$Cov(X,Y)$的定义式展开,易得:
$Cov(X,Y)=E(XY)-E(X)E(Y)$. (6)

我们常常用这一式子计算协方差

协方差的性质:
i) $Cov(aX,bY)=abCov(X,Y)$,a,b是常数;
ii) $Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)$.

相关系数的性质:
i) $\mid \rho _{XY} \mid \leq 1$;
ii) $\mid \rho _{XY} \mid=1$的充要条件是,存在常数a,b使得$P{Y=a+bX}=1$。

3.协方差矩阵和相关系数矩阵

上面的定义都是针对二维随机变量的,那么对于n维随机变量,相应的有协方差矩阵和相关系数矩阵的定义。

设n维随机变量$(X1,X2,…,Xn)$的二阶混合中心距

$c _{ij} = Cov(X_{i},X_{j})=E{[X_{i}-E(X_{i})][X_{j}-E(X_{j})]},i,j=1,2,…,n$. (7)

都存在,则称矩阵
$C=[c_{ij}]$.
为该$n$维随机变量的协方差矩阵。相应的有相关系数矩阵的定义$\sum=[\rho _{ij}]$。

设有m个样本,则可构成m×n的样本矩阵X,对X进行标准化变换后得到矩阵Z,那么由相关系数矩阵的定义有

$\sum = Z^{T}*Z$

其中$Z^{T}$为$Z$的转置。

4.协方差矩阵和相关系数矩阵的关系

由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。

参考文献

《概率论与数理统计》浙大第4版

Original Link: http://ibillxia.github.io/blog/2012/07/17/covariance-matrix-and-correlation-matrix/
Attribution - NON-Commercial - ShareAlike - Copyright © Bill Xia