8.3.3  主成分的推导

8.3.3 主成分的推导

在下面推导主成分的过程中,需要用到线性代数中的两个定理:

定理一:若Ap×p阶是对称阵,则一定可以找到正交阵U,使

978-7-111-59317-1-Chapter08-22.jpg

式中,λ1λ2,…,λpA的特征根。

定理二:若上述矩阵A的特征根所对应的单位特征向量为u1u2,…,up,令

978-7-111-59317-1-Chapter08-23.jpg

则实对称A属于不同特征根所对应的特征向量是正交的,即

uiu2=0⇒UU′=U′U=I

主成分的推导过程如下:

F=a1X1+a2X2+…+apXp=a′X,其中a=(a1a2,…,apX=(X1X2,…,Xp,由主成分的定义可知,求取主成分也就是寻找X的线性函数a′X使相应的方差尽可能的大,即使

Var(a′X)=Ea′X-Ea′X))(a′X-Ea′X))

=a′EX-EX)(X-EX)′a

=a′Σa达到最大值,且a′a=1。

设协方差矩阵Σ的特征根为λ1λ2≥…≥λp>0,其对应的单位特征向量为u1u2,…,up。令

978-7-111-59317-1-Chapter08-24.jpg

由前面的线性代数定理可知,UU′=U′U=I,且

978-7-111-59317-1-Chapter08-25.jpg

因此

978-7-111-59317-1-Chapter08-26.jpg

所以

978-7-111-59317-1-Chapter08-27.jpg

而且,当a=u1时,有

978-7-111-59317-1-Chapter08-28.jpg

因此,a=u1使Var(a′X)=a′Σa达到最大值,且

Var(u1′X)=u1′Σu1=λ1(8-27)同理

Var(ui′X)=λi(8-28)而且

978-7-111-59317-1-Chapter08-29.jpg

上述推导过程表明,以Σ的特征向量为系数的线性组合就是X1X2,…,Xp的主成分,它们彼此互不相关,其方差为Σ的特征根。

由于Σ的特征根λ1λ2≥…≥λp>0,所以有Var(F1)≥Var(F2)≥…≥Var(Fp)>0。这就是主成分的次序按照特征根取值大小顺序排列的原因。

在解决实际问题时,一般不是取全部的p个主成分,确定新变量的个数k是一个关键问题。k越小,越能降低数据维数,便于分析,同时也能降低噪声。但是如果k过小,会导致一些有用的信息丢失,累计贡献率的大小反映了前k个主成分代替原始变量时的可靠性。贡献率越大,可靠性越大;反之,则可靠性越小。因此,根据累计贡献率的大小取前k个主成分。称第一主成分的贡献率为978-7-111-59317-1-Chapter08-30.jpg,由于Var(F1)=λi,所以978-7-111-59317-1-Chapter08-31.jpg。因此第一主成分的贡献率就是第一主成分的方差占全部方差978-7-111-59317-1-Chapter08-32.jpg的比例。这个值越大,表明第一主成分综合X1X2,…,Xp信息的能力越强。

前两个主成分的累计贡献率定义为978-7-111-59317-1-Chapter08-33.jpg,以此类推,前k个主成分的累计贡献率为978-7-111-59317-1-Chapter08-34.jpg。如果前k个主成分的贡献率达到85%,就表明前k个主成分中所包含的信息和那p个主成分所包含的几乎一样多。取这k个主成分就可以取代原始的那p个主成分,于是对p个主成分的n次测量值所组成的原始数据集,就压缩为对k个主成分的n次测量值所组成的数据集,这样既减少了变量的个数,又便于对实际问题的分析和研究。

值得指出的是,当协方差矩阵Σ未知时,可用其估计值S,即样本协方差矩阵来代替。

设原始数据资料阵为

978-7-111-59317-1-Chapter08-35.jpg

S=(sij),其中978-7-111-59317-1-Chapter08-36.jpg。而相关系数矩阵为

R=(γij

式中,978-7-111-59317-1-Chapter08-37.jpg。当原始变量X1X2,…,Xp标准化后,则

978-7-111-59317-1-Chapter08-38.jpg

在实际应用时,指标的量纲往往不同,因此在计算之前应先消除量纲的影响,即将原始的数据标准化。这样一来SR相同。所以一般求R的特征值和特征向量,就不妨取R=X′X,因为这时的R978-7-111-59317-1-Chapter08-39.jpg只相差一个系数。虽然X′X978-7-111-59317-1-Chapter08-40.jpg的特征根相差n倍,但是它们的特征向量不变,并不影响主成分的求取。

由主成分分析的定义和基本原理的讨论大体已经可以看出进行主成分分析的步骤,在此概括如下:

1)将原始观察数据组成样本矩阵X,每一行代表一维数据,每一列为一个观察样本。

2)将样本矩阵X进行标准化处理,计算其协方差矩阵Σ

Σ=EXX′)=EX-EX)(X-EX

3)计算协方差矩阵Σ的特征值λi及相应的特征向量uii=1,2,…,p

4)计算各主成分的贡献率ak和累计贡献率ak)。

5)确定主成分的个数,构成特征空间。

通常情况下,ak)取0.9~1之间的数值。将特征值按贡献率由大到小的顺序排列,选取前k个较大特征值对应的特征向量,构成变换矩阵U=(u1u2,…,uk),即为特征空间。

将样本矩阵投影到这个特征空间,求出其系数向量,这就是样本矩阵X的主成分,求出融合后的特征,即Fi=UTXii=1,2,…,p