11.2.2  典型相关的定义及导出

11.2.2 典型相关的定义及导出

设有两组相互关联的随机向量X′=[X1,X2,…,Xp]和Y′=[Y1,Y2,…,Yq],Ui、Vi分别为在两组变量内选取的几个具有代表性的综合变量,每个综合变量都是原变量的一个线性组合,如下所示:

Ui=ai1X1+ai2X2+…+aipXp=a′X(11-4)

Vi=bi1Y1+bi2Y2+…+biqYq=b′Y(11-5)

CCA要做的工作就是要找到一对投影方向a、b,使得投影Ui=a′X和Vi=b′Y之间具有最大的相关性,这种相关被称为典型相关。U1=a′1X,V1=b′1Y为X、Y的第一对典型相关变量,类似地可以求出第2对(U2,V2),第3对(U3,V3),…,第i对(Ui,Vi),而且每对典型相关变量之间互不相关。利用这些典型相关变量就可以反映出X与Y之间的线性相关情况。

一般地,投影方向a与b通过最大化U与V之间的相关系数ρ获得。

由于随机变量U、V与任意常数相乘并不改变它们之间的相关系数,所以为防止结果重复,令

978-7-111-59317-1-Chapter11-5.jpg

所以

ρ=cov(a′X,b′Y)=a′cov(X,Y)b=a′Σ12b(11-7)

于是求解问题即为在式(11-6)约束下,求出a∈Rp,b∈Rq使得式(11-7)达到最大。

根据拉格朗日定理可将问题转化为求

978-7-111-59317-1-Chapter11-6.jpg

的极大值,其中λv是拉格朗日乘数。

根据求极值的必要条件,得

978-7-111-59317-1-Chapter11-7.jpg

将式(11-9)的两式分别左乘a′与b′,则得

978-7-111-59317-1-Chapter11-8.jpg

即有

978-7-111-59317-1-Chapter11-9.jpg

因为(b′Σ21a)=a′Σ12b,所以λ=v=a′Σ12b,可知λ为线性组合U、V的相关系数。用λ代替式中的v,则式(11-11)写为

978-7-111-59317-1-Chapter11-10.jpg

假定各随机变量协方差矩阵都有逆矩阵,则由式(11-12)中的第二式可得

978-7-111-59317-1-Chapter11-11.jpg

将式(11-13)代入式(11-12)的第一式,得

978-7-111-59317-1-Chapter11-12.jpg

即有

Σ12Σ2-21Σ21a-λ2Σ11a=0(11-15)同理,由式(11-12)可得

Σ21Σ1-11Σ12b-λ2Σ22b=0(11-16)用Σ1-11和Σ2-21分别左乘式(11-15)和式(11-16),得

978-7-111-59317-1-Chapter11-13.jpg

978-7-111-59317-1-Chapter11-14.jpg

由上述分析可知,Σ1-11Σ12Σ2-21Σ21Σ2-21Σ21Σ1-11Σ12具有相同的特征根λ2,a、b是其特征根对应的特征向量。特征根λ即为我们要求的典型相关系数,a、b为典型相关向量。

由于我们所求的是最大特征根及其对应的特征向量,因此,最大特征根λ21对应的特征向量a1=(a11a12,…,a1p和b1=(b11b12,…,b1q就是所求的典型变量的系数向量,即可得

U1=a1X=a11X1+a12X2+…+a1pXp(11-19)

V1=b1Y=b11Y1+b12Y2+…+b1qYq(11-20)式中,U1、V1被称为第一对典型变量,最大特征根的平方根λ1为两典型变量的相关系数,称为第一典型相关系数。

第二对典型变量U2=a2′X和V2=b2′Y需要满足如下约束条件:

D(U2)=a2Σ11a2=1

D(V2)=b2Σ22b2=1(11-21)

另外,为了有效测量两组变量之间的相关信息,第二对典型变量应不再包含第一对典型变量中已有的信息,因此,需要增加约束条件:

cov(U1,U2)=cov(a′1,X,a2′X)=a′1Σ11a2=0

cov(V1,V2)=cov(b′1Y,b2′Y)=b′1Σ22b2=0(11-22)

λ2为第二典型相关系数。

如此下去,依次可求出第r对典型变量:Ur=arX和Vr=brY,其系数向量ar和br分别为矩阵Σ1-11Σ12Σ2-21Σ21Σ2-21Σ21Σ1-11Σ12的第r特征根λ2r对应的特征向量,λr即为第r典型相关系数。

综上所述,计算典型相关变量和典型相关系数就是要求解矩阵A和B的特征根及相应的特征向量。若矩阵Σ1-11Σ12Σ2-21Σ21Σ2-21Σ21Σ1-11Σ12的秩为r,则共有r对典型相关变量,r个典型相关系数。