附录4.B 测量偏误性质的推导与证明
本附录旨在证明正文中第二部分①—⑥情况下的结论,即(4-5)—(4-9)式。
在具体开始之前,我们首先证明一个基本公式。对任意回归方程:
![]()
设βOLS是真实回归系数β的OLS估计值。则根据OLS系数的定义式可得到,

即OLS回归系数的概率极限等于真实回归系数与一个数字之和,后者是自变量与误差项的协方差与误差项方差之间的比例。我们将在下面的证明中反复用到这个结论。
IIE的真实值仍基于下述的基本回归方程[正文中(4-1)式]11:
![]()
y1和y0分别表示子代和父代的一生收入,且假设该方程满足Guass-Markov的经典假设。但现实中所用收入都基于两代人的单年收入y1,t和y0,t。故对单年收入与一生收入之间关系的不同假设,带来了不同的可信度系数和估计偏误程度。下面分别就暂时收入偏误和生命周期偏误进行证明。
1.暂时收入偏误
倘若不存在生命周期偏误,则,

1.1 子代的暂时收入
将(4-B4)代入(4-B3)可得,
![]()
可以看出,只要ν1与y0无关,那么子代收入的测量误差就不会影响β的无偏性和有效性,只是会导致误差项的方差变大。也正是基于此,简单OLS回归被认为是较相关系数和流动表等更好的测量代际收入流动性的方法,因为关于子代一生收入的数据在现实中更难获得。
1.2 父代的暂时收入
将(4-B5)代入(4-B3)可得,
![]()
当ν0,t与y0,t无关时,父代的测量误差也不会影响β的无偏性和有效性,只是会导致误差项的方差变大。从而证得正文中第①种情况下的结论。
然而,经典的计量经济理论(CEV)并不满足上述假设,而是认为,
![]()
即暂时收入与一生收入无关,那么由(4-B3)式可得,

把(4-B2)的结论应用到(4-B7)方程中,并结合(4-B5)式可得,

当父代的暂时收入ν0,t满足独立同分布时,var(ν0,t)=
,即

从而证得正文中第②中情况中的(4-5)式。
当用父代T年收入均值y0,T代替单年收入观测值时,

同理,把(4-B2)的结论应用到(4-B14)方程中可得,

倘若暂时收入ν0,t仍满足独立同分布,则有var(ν0,t)=
,那么,

从而证得正文中第③中情况中的(4 6)式。
倘若暂时收入ν0,t为AR(1)过程,即,
![]()
其中,
为白噪声,另假设在第一期之前,ν0,t满足独立同分布。那么就有var(ξt)=var(ξ),且t≤1时var(ν0,t)=
,则根据(4 B17)式可得,
![]()
由此可得,


将此结果代入(4-B15)即,

从而证得正文中第④中情况中的(4-7)式。
2.生命周期偏误
倘若存在生命周期偏误(为简洁起见,假设此时的暂时收入满足经典的CEV假设),则有(同正文中的(4-3)、(4-4)两式),

2.1 子代的生命周期偏误
将(4-B21)代入(4-B3)可得,
![]()
可以看出,即使暂时收入与y0无关,子代收入的测量误差在这一情况下也会导致IIE估计值的偏误,且有
![]()
从而证得正文中第⑤中情况中的(4-8)式。
2.2 父代的生命周期偏误
将(4-B22)式代入(4-B3)式可得,

此时,参照(4-B2)式的求解过程可得,

根据OLS系数的定义式,![]()
即父代一生收入yo对单年
收入yo,t的回归系数θ0,t,从而证得正文中第⑥中情况中的(4-9)式。
注 释:
1 νi,t和ν0,t中也可能包含了部分纯粹的测量误差。另外,本部分所有结论的证明请参见附录4.B。
2 简洁起见,一般假设暂时收入满足独立同分布,且用父代的单年收入做解释变量。另外,父代暂时收入的方差在不同年龄阶段的表现不同,也可能会导致估计偏误与年龄相关,但这并非生命周期偏误所指代的内容。
3 考虑到收入的生命周期分布,我们在具体回归中还控制了父子两代人的年龄及其平方,以及子代的性别。同时,由上述分析知子代的测量误差大部分情况下不会导致IIE估值的偏误,且样本中子代的平均年龄偏低,故除子代生命周期偏误的部分外,子代都选取最近年份(1995年和2002年)的单年收入观测值。
4 一生收入与暂时收入方差的分解(covariance structure analysis)有三种方法:一是通过广义矩分析(GMM)的最优距离法(optimal minimum distance)实现(Becker and Solon,2003);二是运用Joreskog and Sorbom提出的线性结构方程模型软件(LISREL)实现(Lillard and Weiss,1979);三是通过矩方法进行估计(Solon等1991)。本书汇报了较为简洁的最后一种方法的结果。
5 估计一生收入的方法主要有两种:第一是求取多年收入的均值;第二是Bhalla(1980)中提出的经典方法,即
。式中:yp为一生收入;yt单年收入观测值;τ为折现率;a为收入增长率,本书主要采用了收入均值法,同时用折现率分别为0.1和0.9时的情况做了稳健性检验。
6 采用单年收入会导致代际收入弹性的测量误差,但是由于数据限制(具有能够对测量误差进行准确估计详细信息的只有CHIPS(1995年、2002年)的城镇数据),我们在本书的其他章节中仍然运用了带有误差的单年估计值,但由于这些章节基本都是在相对意义上运用IIE,例如时间比较、群体比较、和经济增长的比较等,故基于统一标准得出的IIE估值不妨碍进行这些比较的主旨。
7 这与西方的已有研究有一定区别,后者大都表明西方的IIE估计值在父代45岁之后就开始下降(Nilsen等2008)。
8 要注意的是,由于这是同一个样本的父子代,不同的单年反映了同一批人随其父代年龄变化而产生的变化,不能作为中国整体流动性的时间趋势来解读。
9 正文中采用了简单平均一生收入下的具体值,加权平均算法下的结果基本一致。
10 对此的更详细分析请参见本书第7章第一节对信贷约束和公共教育内容的更详细分析。
11 为使证明过程更简洁,在这一部分假设收入都已减去均值,从而省略了常数项。