1.概述
首先从随机变量的方差的性质讲起。 设$X$,$Y$是两个随机变量,$E(X)$,$E(Y)$,$D(X)$,$D(Y)$分别为各自的期望和方差,则有:
2.相关系数和协方差
我们把$E{(X-E(X))(Y-E(Y))}$拿出来,单独定义一个概念,即协方差,记为$Cov(X,Y)$,即:
协方差的性质: i) $Cov(aX,bY)=abCov(X,Y)$,a,b是常数; ii) $Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)$.
相关系数的性质: i) $\mid \rho _{XY} \mid \leq 1$; ii) $\mid \rho _{XY} \mid=1$的充要条件是,存在常数a,b使得$P{Y=a+bX}=1$。
3.协方差矩阵和相关系数矩阵
上面的定义都是针对二维随机变量的,那么对于n维随机变量,相应的有协方差矩阵和相关系数矩阵的定义。
设n维随机变量$(X1,X2,…,Xn)$的二阶混合中心距
设有m个样本,则可构成m×n的样本矩阵X,对X进行标准化变换后得到矩阵Z,那么由相关系数矩阵的定义有
4.协方差矩阵和相关系数矩阵的关系
由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。
参考文献
《概率论与数理统计》浙大第4版