11.2.2 典型相关的定义及导出
设有两组相互关联的随机向量X′=[X1,X2,…,Xp]和Y′=[Y1,Y2,…,Yq],Ui、Vi分别为在两组变量内选取的几个具有代表性的综合变量,每个综合变量都是原变量的一个线性组合,如下所示:
Ui=ai1X1+ai2X2+…+aipXp=a′X(11-4)
Vi=bi1Y1+bi2Y2+…+biqYq=b′Y(11-5)
CCA要做的工作就是要找到一对投影方向a、b,使得投影Ui=a′X和Vi=b′Y之间具有最大的相关性,这种相关被称为典型相关。U1=a′1X,V1=b′1Y为X、Y的第一对典型相关变量,类似地可以求出第2对(U2,V2),第3对(U3,V3),…,第i对(Ui,Vi),而且每对典型相关变量之间互不相关。利用这些典型相关变量就可以反映出X与Y之间的线性相关情况。
一般地,投影方向a与b通过最大化U与V之间的相关系数ρ获得。
由于随机变量U、V与任意常数相乘并不改变它们之间的相关系数,所以为防止结果重复,令
所以
ρ=cov(a′X,b′Y)=a′cov(X,Y)b=a′Σ12b(11-7)
于是求解问题即为在式(11-6)约束下,求出a∈Rp,b∈Rq使得式(11-7)达到最大。
根据拉格朗日定理可将问题转化为求
的极大值,其中λ、v是拉格朗日乘数。
根据求极值的必要条件,得
将式(11-9)的两式分别左乘a′与b′,则得
即有
因为(b′Σ21a)=a′Σ12b,所以λ=v=a′Σ12b,可知λ为线性组合U、V的相关系数。用λ代替式中的v,则式(11-11)写为
假定各随机变量协方差矩阵都有逆矩阵,则由式(11-12)中的第二式可得
将式(11-13)代入式(11-12)的第一式,得
即有
Σ12Σ2-21Σ21a-λ2Σ11a=0(11-15)同理,由式(11-12)可得
Σ21Σ1-11Σ12b-λ2Σ22b=0(11-16)用Σ1-11和Σ2-21分别左乘式(11-15)和式(11-16),得
即
由上述分析可知,Σ1-11Σ12Σ2-21Σ21和Σ2-21Σ21Σ1-11Σ12具有相同的特征根λ2,a、b是其特征根对应的特征向量。特征根λ即为我们要求的典型相关系数,a、b为典型相关向量。
由于我们所求的是最大特征根及其对应的特征向量,因此,最大特征根λ21对应的特征向量a1=(a11,a12,…,a1p)′和b1=(b11,b12,…,b1q)′就是所求的典型变量的系数向量,即可得
U1=a′1X=a11X1+a12X2+…+a1pXp(11-19)
V1=b′1Y=b11Y1+b12Y2+…+b1qYq(11-20)式中,U1、V1被称为第一对典型变量,最大特征根的平方根λ1为两典型变量的相关系数,称为第一典型相关系数。
第二对典型变量U2=a2′X和V2=b2′Y需要满足如下约束条件:
D(U2)=a2′Σ11a2=1
D(V2)=b2′Σ22b2=1(11-21)
另外,为了有效测量两组变量之间的相关信息,第二对典型变量应不再包含第一对典型变量中已有的信息,因此,需要增加约束条件:
cov(U1,U2)=cov(a′1,X,a2′X)=a′1Σ11a2=0
cov(V1,V2)=cov(b′1Y,b2′Y)=b′1Σ22b2=0(11-22)
λ2为第二典型相关系数。
如此下去,依次可求出第r对典型变量:Ur=ar′X和Vr=br′Y,其系数向量ar和br分别为矩阵Σ1-11Σ12Σ2-21Σ21和Σ2-21Σ21Σ1-11Σ12的第r特征根λ2r对应的特征向量,λr即为第r典型相关系数。
综上所述,计算典型相关变量和典型相关系数就是要求解矩阵A和B的特征根及相应的特征向量。若矩阵Σ1-11Σ12Σ2-21Σ21和Σ2-21Σ21Σ1-11Σ12的秩为r,则共有r对典型相关变量,r个典型相关系数。