2.数据来源

2025年10月25日

版权

2.数据来源

在微观数据方面，本书的数据来源以中国家庭收入调查项目系列（CHIPS）为主，同时用2006年中国社会综合调查（CGSS）作补充；而有关各国和我国各省的经济增长、收入公平、公共教育、财政支出等宏观数据方面的数据，则主要来自《中国统计年鉴》、国泰安数据库、世界银行数据库和美国中央情报局网站数据库。

2．1　中国家庭收入调查项目系列

本书最主要的数据来源是中国家庭收入调查项目系列（CHIPS）。CHIPS是国家统计局农调总队和中国社会科学院经济研究所共同组织的调查项目，以测量和估计中国城乡地区的收入分配状况为目标，基于国家统计局城调队和农调队的调查大样本中进行二次抽样选取样本。被认为是目前关于中国微观收入的最全面和严格的公开数据库。CHIPS目前的公开数据涵盖1988年、1995年和2002年，每年都分别包括城镇和农村两份问卷，故共有6个子样本。

从各个子样本的总样本量和地域分布上看，1988年城镇样本由来自9 009个家庭的31 827个个体组成，主要涵盖了北京、山西、辽宁、江苏、安徽、河南、湖北、广东、云南和甘肃10个省（市）；1988年的农村样本由来自10 258个家庭的51 352个个体组成，涵盖了除新疆之外的中国大陆所有省份。1995年的城镇样本则由来自6 931个家庭的21 698个个体组成，在1988年城镇样本的基础上增加了四川省；1995年的农村样本由来自7 998个家庭的34 739个个体组成，包括18个省（市），在1995年城镇样本的基础上增加了河北、吉林、浙江、江西、山东、湖南和陕西。2002年的城镇样本由来自6 835个家庭的27 803个个体组成，在1995年城镇样本的基础上增加了新设为直辖市的重庆市，2002年的农村样本由来自9 200个家庭的37 969个个体组成，在1995年农村样本的基础上新增了重庆和广西。

下文根据每部分的研究需要和数据的质量信息情况，从这6个子样本中抽取满足条件的部分进行组合和筛选而形成有效样本。其中，在第3章的基本情况分析部分包括了所有子样本，在第4章的估计误差部分则包括了1995年和2002年的城镇样本，在第5章的内在机制分解部分则包括了所有的农村样本和1995年、2002年的城镇样本，在效率、公平和政策分析部分，则主要根据1995年和2002年的城乡混合样本，分省计算得出各省的代际收入弹性，再和其他指标进行统计计量分析。

需要说明的是，在城乡划分的具体含义方面，住户本身的选取基于城调队和农调队的基本数据库。2002年农村部分明确说明要由所在家庭的户主汇报所有家庭成员的情况，包括常住人口和非常住人口；2002年城镇部分则说明要常住人口；其他样本则没有具体说明，所以其城乡划分的依据比较复杂，具有调查地、户口和户籍来源三者的混合性质；而在是否共同居住方面，也具有一定的混合性。

2．2　2006年中国社会综合调查

由于CHIPS的最新公布数据只到2002年，故本书在需要和条件允许的时候，采用了2006年中国社会综合调查（CGSS）数据作为补充，以对近期的中国代际收入流动性情况有所了解。

CGSS由中国人民大学社会学系与香港科技大学社会科学部组织，采用分层的四阶段不等概率抽样，其中的区、街道、居委会三级依据2000年第五次全国人口普查资料进行，居民户则通过随机抽样选取。该调查目前的公开数据涵盖2003年、2005年和2006年三年。其核心关注点虽然不在收入，但是其中2006年子样本中包含了父子两代人的收入数据，这在现有的中国公开微观数据中较为难得，故本书用其做微观数据的补充［需要说明的是，CGSS（2006）中的父子收入都是针对2005年的］。

2．3　中国省级和国际宏观数据

中国省级数据主要来自对历年中国统计年鉴相关内容的整理；世界各国的人均GDP和经济增长率数据来自对国泰安数据库相关内容的整理，各国教育财政方面的数据来自世界银行数据库，基尼系数来自美国中央情报局网站的统计数据库。