1.概述
首先从随机变量的方差的性质讲起。
设X,Y是两个随机变量,E(X),E(Y),D(X),D(Y)分别为各自的期望和方差,则有:
特别的,当X,Y相互独立时,有:
对比(1)式和(2)式知,X,Y相互独立时还应该有:
这意味着当E(X−E(X))(Y−E(Y))≠0时,X与Y不相互独立,而是存在一定关系的。
2.相关系数和协方差
我们把E(X−E(X))(Y−E(Y))拿出来,单独定义一个概念,即协方差,记为Cov(X,Y),即:
而
称为随机变量X,Y的相关系数。
将Cov(X,Y)的定义式展开,易得:
我们常常用这一式子计算协方差。
协方差的性质:
i) Cov(aX,bY)=abCov(X,Y),a,b是常数;
ii) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y).
相关系数的性质:
i) ∣ρXY∣≤1;
ii) ∣ρXY∣=1的充要条件是,存在常数a,b使得PY=a+bX=1。
3.协方差矩阵和相关系数矩阵
上面的定义都是针对二维随机变量的,那么对于n维随机变量,相应的有协方差矩阵和相关系数矩阵的定义。
设n维随机变量(X1,X2,…,Xn)的二阶混合中心距
都存在,则称矩阵
设有m个样本,则可构成m×n的样本矩阵X,对X进行标准化变换后得到矩阵Z,那么由相关系数矩阵的定义有
其中ZT为Z的转置。
4.协方差矩阵和相关系数矩阵的关系
由二者的定义公式可知,经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化,即将原始数据处理成均值为0,方差为1的标准数据。
参考文献
《概率论与数理统计》浙大第4版