8.3.2 数学模型
根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原数据矩阵的行或者列,这组原数据向量的线性组合即为主成分。
设有n个样品,每个样品观测p个指标,这p个指标构成的p维向量分别为X1,X2,…,Xp,得到原始数据资料阵:
式中,。
设数据矩阵X的均值为μ,协方差矩阵为Σ。将X的p个指标X1,X2,…,Xp作线性组合,形成新的综合指标,即
简写成:
Fi=a1iXi+a2iX2+…+apiXp,i=1,2,…,p(8-21)
若线性变换满足以下约束:
1)ai′ai=1,即a21i+a22i+…+ap2i=1,其中i=1,2,…,p。
2)Fi与Fj(i≠j,j=1,2,…,p)互不相关。
3)F1是X1,X2,…,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2是与F1不相关的X1,X2,…,Xp一切线性组合中方差最大的,…,Fp是与F1,F2,…,Fp-1都不相关的X1,X2,…,Xp一切线性组合中方差最大的。
那么,称式(8-20)为指标X1,X2,…,Xp的主成分分析模型,并将式(8-20)确定的综合指标F1,F2,…,Fp分别称为原始指标的第一,第二,…,第p个主成分。
主成分,从代数学的观点看就是p个随机变量X1,X2,…,Xp的一些特殊的线性组合,而在几何上这些线性组合代表以X1,X2,…,Xp构成的坐标系经过平移、尺度伸缩和坐标旋转产生的一个新坐标系,新坐标轴为样品偏差最大的方向(或者说具有最大的样品方差)。为了能够更直观地理解主成分分析的基本思想,下面以最简单的二元正态变量来讨论主成分分析的几何意义,所得结论可以很容易地扩展到多维的情况。
设有n个样品,每个样品有p个观察变量,记为X1,X2,…,Xp,它们的综合变量记为F1,F2,…,Fp。当p=2时,由变量是X1,X2组成的坐标空间中,n个样品散布的情况如图8-2所示。
图8-2 主成分的意义
由图可以看出,n个分散的点大致形成一个椭圆。若在椭圆长轴方向取坐标轴F1,在短轴方向取F2,这相当于将坐标轴按逆时针方向旋转θ角度,根据旋转轴变换公式,新老坐标之间有如下关系:
其矩阵形式为
式中,U为旋转变换矩阵,由式(8-23)可知U为正交阵,即满足UT=U-1,UTU=I。
从图8-2可看出,经过旋转后的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动较小。当图8-2椭圆相当扁平的时候,那么我们可以只考虑F1方向上的波动,而忽略F2方向的波动。这样,二维就可以降为一维,只取第一个综合变量F1即可,即椭圆的长轴。一般情况下,p个变量组成p维空间,n个样品就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就相当于找p维空间中椭球体的主轴问题。