一元线性回归分析

二、一元线性回归分析

一元线性回归分析是指获得一元线性回归方程的方法.

1.数学模型的建立

设变量y与x之间存在统计关系,通过观测得到关于(x,y)的n对独立观测数据

img

在平面直角坐标系中,描出每对观测数据(xi,yi)(i=1,2,…,n)所对应的点,得到的图称为散点图.若散点图呈直线状,则可以假定变量y与x之间有如下关系:

img

其中y为随机变量,x为非随机变量,β1称为回归系数.ε为随机变量,称为随机误差,它可以理解为y中无法用x表示的其他各种随机因素造成的误差.我们的问题是要用β01x来估计y的均值E(y),即

img

且假定εN(0,σ2),y N(β01x,σ2),β0,β1,σ2是与x无关的待定常数.因此,变量(x,y)的n对独立观测数据(xi,yi)(i=1,2,…,n)应满足

img

其中β0,β1为待估参数,ε1,ε2,…,εn为n个相互独立的且服从同一正态分布N(0,σ2)的随机变量.公式(7.25)称为一元线性回归的数学模型.

2.参数的最小二乘估计

img

这种以误差平方和达最小为原则的参数估计方法称为最小二乘估计.

例1 考察硫酸铜(CuSO4)在100克水中的溶解量(y)与温度(x)间的关系时,作了9组独立试验,结果如表7-15所示.试寻找隐藏在变量y与x之间的统计关系.

表7-15

img
img

图7-5

解 以变量(x,y)的9组独立观测数据(xi,yi)(i=1,2,…,9)为点的坐标,在平面直角坐标系中作散点图,如图7-5所示.由图7-5可见,变量y与x之间大致呈线性关系,因此我们设

img

其中β0和β1为待估参数,ε为随机误差,且设εN(0,σ2).利用公式(7.31)对参数β0和β1进行估计,计算结果如下

img

所求回归方程为

img

至于回归方程(7.34)是否真实地反映了变量y与x之间的统计关系,还需对其进行显著性检验.

3.回归方程的显著性检验

由前面的讨论可知,变量y与x之间存在线性统计关系是依据散点图做出的假设.这只是一种直观判断,并不可靠.一旦变量y与x之间不存在线性统计关系,我们所确定的回归方程将毫无意义.因此,在建立了回归方程后,我们必须对变量y与x之间是否真正存在线性统计关系进行检验,这就是所谓的回归方程显著性检验.

对回归方程(13)进行显著性检验,就是要检验假设

img

当H0为真时,模型(6)不成立,即y与x之间不存在线性统计关系;当H0不真时,模型(6)成立,即y与x之间存在线性统计关系.

为了检验假设H0,需要建立检验统计量.在建立检验统计量之前,首先对引起数据y1,y2,…,yn波动的主要因素进行分析.归纳起来引起数据y1,y2,…,yn波动的主要因素有两个:

(1)由自变量x取值的不同引起E(y)=β01x的变化,称为回归因素.

(2)其他一切随机因素(包括试验误差)的影响,称为误差因素.

为了检验两方面的影响哪一个是主要的,需要把它们从y的总离差中分解出来,这就是所谓的总离差平方和的分解.

img

有了检验统计量F,在给定的显著性水平α下,假设H0的拒绝域为

img

若假设H0被拒绝,则回归方程(7.32)的回归效果是显著的,这说明变量y与x之间存在显著的线性统计关系;否则回归方程(7.32)的回归效果是不显著的,这说明变量y与x之间不存在显著的线性统计关系.

回归平方和U与剩余平方和Q也可采用下述简便公式计算

img

例2 对例1中的回归方程(7.34)进行显著性检验.

解 假设H0:β1=0.我们有n=9,Lyy=1533.38,且

img
img

查表知F0.01(1,7)=12.25.因此,回归方程(7.34)的回归效果是极显著的,即例1中变量y与x之间存在着极显著的线性统计关系.

4.应用回归方程进行预报

当所建立的回归方程通过了显著性检验后,可应用该回归方程进行预报.如在例1中,我们可以应用回归方程(7.34)预报水温为25℃时,硫酸铜的溶解量.因为

img

所以当水温为25℃时,硫酸铜的溶解量为24.1克.