数据、变量与识别策略

2026年01月15日

版权

一、数据、变量与识别策略

（一）数据

为了验证“均等化”政策是否对部属高校的招生以及生源质量带来积极的影响，本部分采用2005—2015年中国1189所高等院校的面板数据来进行分析。所有的原始数据来自“新浪教育—高考网”^[9]，该网站根据教育部高考招生录取的权威来源，整理了历年中国各类院校在各个省区各个科目的招生人数和录取分数等信息。但是，由于各类院校在2005年之前的大部分年份的招生信息严重缺失，因此，本部分采用2005年以来的数据进行分析。由于中国的高等院校在每一个省份的每一个年度都招收文科和理科两种类型^[10]，因此，本部分根据这一数据结构，构建了“高校—省份—科目—年份”的面板数据。^[11]

（二）变量

1.被解释变量。就高等院校的招生质量而言，学界最为公认的一个度量方式是招生分数（Bishop，1987，1997；Bai et al.，2013）。鉴于中国的高考是目前中国考试中最为严格和公平的，所以高考分数能够较好地反映学生的整体素质。而且，高考分数的高低会直接影响学生进入高校之后的学业表现（Bai et al.，2013）。因此，本部分拟采用高考分数来度量高校的招生质量。但是，如果简单地以高考分数作为代理变量则存在一定的缺陷。一方面，每年的高考试题难易程度存在着差异，从而会直接影响分数的均值和方差；另一方面，由于考生之间不知道互相之间的报考策略，因而，很容易引发高校招生中的“大小年”现象^[12]，因此，简单地拿录取的平均分或者最高分来衡量考生质量存在着较大的误差。为了得到更为科学的评判指标，本部分参考Shi et al.（2020）的做法，采用“录取分数线差比例”作为招生质量的度量。这一指标通过计算“录取分数线差”并利用高校招生的平均分数作为分母实现标准化，能够更准确地度量招生质量，用公式表示即为：

其中，RScoreijkt 代表第t年大学i在省份j科目k招生的录取分数线差比例，MeanScoreijkt是第t年大学i在省份j科目k招生的平均录取分数，TierMinijkt与学校的等级所对应，代表第t年大学i在省份j科目k招生上的最低录取分数线，例如，该校是一类本科，则这一数值对应于这一年该省份一类本科的最低录取分数线。RScoreijkt衡量了该校录取的平均分数超过该省最低录取分数的比例，本部分将之称为“录取分数线差比例”。

这一变量很好地回避了其他度量方式的潜在弊端，能够更加严谨地度量院校的招生质量。第一，“录取分数线差”是指某一年高等院校当年平均录取分数与其在所在省份招生批次录取控制分数线的差值。一般而言，某一省份某一批次的招生名额在事前已经确定，因而该省份该批次的最低录取分数线随着考试难度的大小而变化，通过“录取分数线差”可以很好地排除掉当年高考题目难易程度的影响。第二，由于考生之间报考的信息不对称和报考策略的不同，往往会引发上一年扎堆报考而下一年又无人敢报的“大小年”现象，这在早年考生“猜分报志愿”的方式下尤其明显，因而，本部分通过高校招生的平均分数进行“标准化”。这种构造可以更为准确地捕捉到考生的生源质量，因此，本部分采用各个高校在各个省份不同科目上的“录取分数线差比例”作为被解释变量。

核心解释变量。在本部分中，所有的部属高校在2008年以后经历了“均等化”政策，构成了文章的实验组。因而，本部分生成了两个变量，第一个是“是否教育部属高校”的虚拟变量（Ministry），如果为部属高校则赋值为1，否则赋值为0。第二个是“是否2008年均等化改革以后”的虚拟变量（08Dummy），如果为2008年及以后年份，则赋值为1，否则赋值为0。根据本部分的研究目的，核心变量“均等化”改革即为上述两个变量的交互项（Ministry08），对于2008年之后的部属高校，该变量赋值为1，否则赋值为0。(https://www.daowen.com)

控制变量。由于高校录取分数会受到许多其他方面的影响，因此，本部分还控制了可能的变量。（1）高校在某一个省份某一个科目上的招生人数直接影响其录取分数，因此，本部分控制了高校在该省份该科目所对应的招生名额（stunum）。（2）现实中，一个学校的最高招生分数往往具有偶然性，因而，这可能会导致招生质量被高估，为此，本部分用该学校在该省份该科目上招录的最高分数比例线差来控制此类情形带来的可能影响（hrscore）。（3）在中国，985工程作为影响中国高等教育最为重要的一项计划，直接影响着高校的办学质量，能够入选985高校的，往往被外界认为是进入国家重点扶持计划的信号，因而有可能引发更多的优质学生报考。尽管在本部分的样本区间内，绝大部分的985高校名单已经确定，但是，依然有一部分高校入选了985工程平台^[13]，因而，为了排除由此而引发的生源质量提升效应，本部分还控制了是否入选985平台的虚拟变量（d985plus）。（4）录取学校的办学层次也是中国高校运行过程中的一个重要标准。在中国，各个学校之间具有鲜明的等级，例如，在高考本科招生的过程中，第1批本科招生、第2批本科招生和第3批本科招生具有鲜明的等级性。一般而言，只有在保证了第1批本科招生权的学校招录完毕后，第2批本科招生才开始启动，第2批本科招生结束后，第3批本科招生才开始启动。因此，本部分还控制了高校的招生批次（dgradel、dgrade2、dgrade3）。（5）在中国的高考划分体系中，考生可以选择文科、理科的科目进行考试，因而，为了区分科目，本部分形成了文科、理科的虚拟变量，予以控制不同科目的异质性（dmajorl、dmajor2）。表18为主要变量的描述性统计结果。

表18　描述性统计

注：所有变量保留小数点后三位。

（三）识别策略

从本部分的样本来看，截至2015年，在1189所高等院校中，有75家高校属于“部属高校”，这75家高校就构成了本部分研究中的“实验组”，而其他高校自然就成为“对照组”。因此，本部分采用双重差分方法（Difference in Differences）进行识别，通过构造以下计量模型来检验“均等化”改革对高校招生质量的影响：

其中，Yijkt为被解释变量，下标i，j，k和t分别表示第i学校第j个省份的科目k和第t年，γt代表时间固定效应，用以捕捉对于所有高校影响相同的年度效应；μi代学校个体固定效应，用来捕捉高校不随时间变化的特征。Ministry08为核心解释变量“部属高校的均等化改革”，X为其他控制变量。由于各个省份教育会出台一些教育政策，对高考招生制度进行改革，且每个省份每个年份均不尽相同，而这些因素都会影响各省高校的发展及其招生质量。例如，在本部分的样本区间内，还经历了“3+1，即语数英+政/史/地/物/化/生”改革、“3+文科综合/理科综合+自选模块”、“新课改”、“自主命题”、“知分填志愿”、“平行志愿”等一系列重要的高考改革，这些高考改革也直接影响到高校的招生质量。为了控制省份随时间变化的特征，本部分在回归中加入了省份—时间联合固定效应δprov×γt，从而识别出更为准确的计量结果。在上述模型中，本部分着重关心β的系数，其代表了教育部“均等化”招生改革对于生源质量的净影响。