多元线性回归分析

三、多元线性回归分析

多元线性回归分析的理论与一元线性回归分析的理论是相似的,只不过自变量由一元扩展到了多元,因此在计算上要相对复杂一些.下面将多元线性回归分析简要地做一个介绍.

1.数学模型的建立

假设变量y与变量x1,x2,…,xm之间有如下关系

img

其中y为随机变量,x1,x2,…,xm为非随机变量,β1,β2,…,βm称为回归系数.ε为随机变量,称为随机误差,它可以理解为y中无法用x1,x2,…,xm表示的其他各种随机因素造成的误差.我们的问题是要用β01x12x2+…+βmxm来估计y的均值E(y),即

img

且假定εN(0,σ2),y N(β01x12x2+…+βmxm,σ2),β0,β1,…,βm,σ2是与x1,x2,…,xm无关的待定常数.

为了估计βi(i=0,1,2,…,m),对变量(x1,x2,…,xm,y)进行n次独立试验(或观测),得到的n组独立观测数据为

img

而变量(x1,x2,…,xm,y)的n组独立观测数据(xi1,xi2,…,xim,yi)(i=1,2,…,n)应满足

img

其中β0,β1,…,βm为待估参数,ε1,ε2,…,εn为n个相互独立且服从同一正态分布N(0,σ2)的随机变量,公式(7.40)称为多元线性回归的数学模型.

img

则公式(7.40)的矩阵形式为

img

2.参数的最小二乘估计

img
img

3.回归方程的显著性检验

(1)总离差平方和的分解

img

则U称为回归平方和,它反映了自变量x1,x2,…,xm的变化所引起的yk(k=1,2,…,n)的波动,其自由度为m(因为自变量的个数为m);而Q称为剩余平方和(或残差平方和),它反映了其他一切随机因素(包括试验误差)对yk(k=1,2,…,n)波动的影响,其自由度为Lyy的自由度减去m,即(n-1)-m=n-m-1.

(2)显著性检验

对回归方程的显著性检验是指检验假设

img

有了检验统计量F,在给定的显著性水平α下,假设H0的拒绝域为

img

若假设H0没有被拒绝,则回归方程(7.45)的回归效果是不显著的,这说明变量y与变量x1,x2,…,xm之间不存在显著的线性统计关系,回归方程(7.45)没有任何实际意义;若假设H0被拒绝,则回归方程(7.45)的回归效果是显著的,这说明变量y与变量x1,x2,…,xm之间存在显著的线性统计关系.

4.回归系数的显著性检验

前面对回归方程的显著性检验,是对回归方程中全部自变量的总体回归效果进行检验.但总体回归效果显著并不说明每个自变量x1,x2,…,xm对因变量y的影响都是显著的,即可能有某个自变量xi对y的影响并不显著,或者能被其他的自变量的作用所代替.因此,对这种自变量我们希望能从回归方程中剔除,从而建立更简单的回归方程.

显然若自变量xi对因变量y的影响不显著,则它的回归系数βi就应取值为零.因此,检验每个自变量xi是否对y影响显著,就是检验假设

img

其中cii为公式(7.47)中矩阵C=(cijm×m=S-1的主对角线上第i个元素.

有了检验统计量Fi(i=1,2,…,m),在给定的显著性水平α下,假设H0的拒绝域为

img

若假设H0被拒绝,则xi对y有显著影响;否则xi对y没有显著影响,xi应在回归方程中被剔除,并且需要对变量y与变量x1,x2,…,xi-1,xi+1,…,xm之间的线性统计关系重新进行线性回归分析,再建立新的回归方程.这个过程只有到了回归方程中所有的自变量对y的影响都显著时才能停止.

例3 某养猪场估计猪的毛重,测得14头猪的体长x1(c m)、胸围x2(c m)与体重y(kg)的数据如表7-16所示.试建立y与x1,x2的回归方程.

表7-16

img
img

对回归方程进行显著性检验,经计算得U=3739.7,Q=33.7,n=14,m=2.故

img

查表知F0.01(2,11)=7.21,因此,回归方程(7.52)的回归效果极显著.

对回归系数进行显著性检验,经计算得

img

查表知F0.01(1,11)=9.65,因此,x1和x2对y的影响都显著,x1和x2都应保留在回归方程(7.52)中.