一元线性回归分析
(一)基本公式
如果预测对象(因变量y)与主要影响因素(自变量x)之间存在线性关系,则它们之间的关系可以用一元线性回归模型表示为如下形式
y=a+bx+e
其中,a和b是揭示x和y之间关系的系数,a为回归常数,b为回归系数,e是误差项或称回归余项。
在实际预测中,e是无法预测的,回归预测是借助a+bx得到预测对象的估计值y。通过确定a和b,从而揭示变量y与x之间的关系,因此可以表示为
y=a+bx
y=a+bx是y=a+bx+e的拟合曲线。可以利用普通最小二乘法原理(OLS)[1]求出回归系数。由此求得的回归系数为
式中 xi、yi——自变量x和因变量y的观察值;
x、——x和y的平均值。
式中 n——样本数量。
对于每一个自变量x的数值,都有拟合值:yi′=a+bxi;yi′与实际观察值的差,便是残差项:ei=yi-yi′。
(二)一元线性回归预测步骤
(1)利用历史数据计算回归参数a、b,建立回归模型。
(2)进行回归检验 将历史数据代入模型对回归系数、回归方程进行检验,以判定预测模型的合理性和适用性。检验方法有方差分析、相关系数检验、t检验等。对于一元线性回归,这些检验效果是相同的,选择其中一项检验即可。
1)方差分析
①推导得出
其中,,称为偏差平方和,反映了n个y值的分散程度;
,称为回归平方和,反映了x对y线性影响的大小;
∑(yi-yi′)2=ESS,称为残差平方和,它反映了除x对y的线性影响之外的一切使y变化的因素,其中包括x对y的非线性影响及观察误差。即:
TSS=RSS+ESS
在进行检验时,通常先进行方差分析,一方面可以检验在计算上有无错误;另一方面,也可以提供其他检验所需要的基本数据。
②定义可决系数R2,是评价两个变量之间线性关系强弱的一个指标,它的大小表明了y的变化中可以用x来解释的百分比,由前式可导出
显然,可决系数R2≤1。R2越靠近1,说明x对y的线性影响越强,拟合模型的误差也较小。
2)相关系数检验。相关系数是描述两个变量之间的线性相关关系的密切程度的数量指标,除上面公式以外,R还可用以下公式表示:
因 故,
R在-1和1之间,当R=1时,变量x和y完全正相关;当R=-1时,为完全负相关;当0<R<1时,为正相关;当-1<R<0时,为负相关;当R=0时,变量x和y没有线性关系。只有当R的绝对值大到一定程度时,才能采用线性回归模型进行预测。在计算出R值后,可以查相关系数检验表。在自由度(n-2)和显著性水平α(一般取α=0.05)下,若R大于临界值,则变量x和y之间的线性关系成立;否则,两个变量不存在线性关系。
3)t检验。即回归系数的显著性检验,以判定预测模型变量x和y之间线性假设是否合理。校验回归常数a是否为0的意义不大,通常只检验参数b。
式中 Sb——参数b的标准差,,
n——样本个数。
Sy为回归标准差,S2y=∑(yi-yi′)2/(n-2),
也可以表达为:。
tb服从t分布,可以通过t分布表查得显著性水平为α,自由度为n-2的数值t(α/2,n-2)。若tb的绝对值大于t,表明回归系数显著性不为0,参数的t检验通过,说明变量x和y之间线性假设合理;若tb的绝对值小于或等于t,表明回归系数为0的可能性较大,参数的t检验未通过,回归系数不显著,说明变量x和y之间线性假设不合理。
(3)进行点预测和区间预测 点预测是在给定了自变量的未来值x0后,利用回归模型求出因变量的回归估计值y0′,也称为点估计
y0′=a+bx0
点估计的意义不大,通常还要得出可能偏离的范围。以一定的概率1-α预测的y在y0′附近变动的范围,称为区间预测。
数理统计分析表明,对于预测值y0′而言,在小样本统计下(样本数据组n小于30时),置信水平为100(1-α)%的预测区间为
y0′±t(α/2,n-2)So
其中,t(α/2,n-2)可以查t检验表得出。通常取显著性水平α=0.05。
此外,根据概率论中的3α原则,可以采取简便的预测区间近似解法,当样本n很大时,在置信度为68.2%、95.4%、99.7%的条件下,预测区间分别为:(y0′-Sy,y0′+Sy)、(y0′-2Sy,y0′+2Sy)、(y0′-3Sy,y0′+3Sy)。
(4)预测结果分析 如果预测得出的结果与实际情况存在明显不符,就要进行原因分析,重新查看数据处理或具体计算上是否存在问题,如果数据处理和计算没有问题,说明预测方法不适用,应选择其他方法。
【例1-1】 某市2002~2009年第二产业电力消耗及同年第二产业产值见表1-4,假设该市未来三年第二产业产值的平均增长速度为15%,请用一元线性回归法预测2012年该市第二产业的耗电量。
表1-4 某市第二产业产值与第二产业电力消耗
【解答】
(1)建立回归模型
设:第二产业产值为自变量x,第二产业电力消耗量为因变量y,建立一元线性回归模型为:y=a+bx
(2)采用最小二乘法计算参数:
n=8,∑xi=38.9,∑yi=1822.91
千亿元,
亿kW·h
∑xiyi=9758.17 ∑x2i=219.13
故:y=82.59+29.89x
(3)相关系数检验
计算中用到的数据见表1-5。
表1-5 相关计算数据
(用另外一个公式计算结果一致)
在α=0.05时,自由度8-2=6,查相关系数检验表,得R0.05=0.707
因R=0.987>R0.05,故在α=0.05的显著性检验水平上,检验通过,说明第二产业耗电量与第二产业产值之间的线性关系成立。
(4)t检验
在α=0.05时,自由度n-2=6,查t检验表,得t(α/2,n-2)=t(0.025,6)=2.4469。
因tb=15.11>t(0.025,6),故在α=0.05的显著性检验水平上,t检验通过,说明第二产业耗电量与第二产业产值之间的线性关系成立。
(5)需求预测
2012年第二产业产值:x2012=x2009(1+15%)3=12.55千亿元
2012年第二产业耗电量的点预测为
y2012=a+bx2012=82.59+29.89×12.55=457.71亿kW·h
2012年第二产业耗电量的区间预测为
在α=0.05的显著性检验水平上,2012年第二产业耗电量的置信区间为
y0′±t(α/2,n-2)S0=457.71±2.4469×19.06=457.71±46.64
即2012年耗电量有95%的可能性在(411.07,504.35)的区间内。