7.4.2　效度

2026年01月15日

版权

7.4.2　效度

所谓效度（validity）就是测量的准确性或有效性，也就是说在社会测量中采用的测量方法和指标或“量器”能否准确地测量出概念或变量的特征和内涵。显然，测量的准确性和测量目标、测量标准以及对理论概念的认知有着密切的关系。一个准确的测量意味着它的效度较高，反之，测量的效度较低，并且没有效度的测量是无效的，也就意味着测量的失败。测量效度有以下四种类型：

7.4.2.1　表面效度和内容效度

即指测量指标或内容是否与测量的目标相一致，也就是说研究者设计的测量指标是否符合概念或变量的内涵或定义。例如，当采用职业声望、收入水平、教育程度、性别、婚姻状况去测量人们的社会地位时，从理论上可以发现婚姻状况与社会地位是无关的，从经验上可以观察到已婚者和未婚者的社会地位没有明显差异；虽然可以发现，男性的社会地位要高于女性，但是，性别与社会地位的关系只能说明社会地位在性别上的不平等，性别与社会地位这一概念的界定是没有关系的，而职业声望、收入水平、教育程度等指标是与社会地位直接有关的。社会地位在性别上的不平等是因为男性的职业声望、收入水平和教育程度要高于女性。同理，如果测量大学生的消费水平，可以采用消费支出、消费结构等指标，但是如果采用消费观念去测量消费水平，只能说明大学生的消费水平受其消费观念的影响。

表面效度和内容效度是有区别的。表面效度是从外表或“表面”判断一种测量工具对测量对象的有效性，它主要依据研究者的主观判断，确定一个抽象概念与指标在理论和经验上的逻辑一致性，以及测量结果和概念共识之间的关系。内容效度更为客观一些，它是指在一个特定主题内容范围内，对从中抽取的内容代表主题的充分程度的评价。例如，对一份期终考试试卷的内容效度评价就是看这份试卷是否覆盖了教材的知识点或主要知识点。

7.4.2.2　效标效度

又称为准则效度，是指测量结果和效标（validity criterion ）之间的相关程度。所谓效标即效度标准，通常采用经过多次测量的有效的原有指标或者经过追踪调查的预测结果作为效标，如果新的测量或者预测是有效的，那么新的测量指标就具有效标效度。效标效度的具体形式有两种：即共变效度和预测效度。

共变效度也称为同时效度，它是指在既定测量有效的情况下，新的测量同时有效，新的测量指标就具有效标效度。因此，共变效度是采用一种新的测量代替原来的有效的测量指标，如果测量结果是一致的，那么新的测量是有效度的。例如，职业声望的评价通常与收入水平、教育程度有关。当人们在评价职业声望时，认为地位高的职业它们的收入水平也很高，从事声望高的职业需要较高的教育程度，并且职业声望和收入水平、教育程度之间的关系已经被多次测量证明是有效的。假设引入一个新的测量指标——工作时间的灵活性，代替其中的一个指标，如果得出一个结果：声望高的职业，工作时间的灵活性也高，声望低的职业，工作时间的灵活性也低，那么工作时间的灵活性对于测量职业声望是有效度的，可以成为新的测量标准。又如，如果编写了一本新的社会研究方法教材，需要知道新编教材的效度，首先要收集使用原来教材情况下学生的考试成绩和教师的评价，并以此为标准（效标）。如果新的教材的使用后，学生的考试成绩以及教师的评价与原来的差不多甚至更好，就可以认为新的教材是有效的。共变效度的意义在于随着社会现象的变化可以发展新的测量指标，使得测量指标更丰富；或者原来的测量不方便或者难度较大，希望尝试使用一种更为简单、方便的测量时，用来检验测量的效度。(https://www.daowen.com)

预测效度是指测量结果能够准确预测被测试者未来发展的情况，如果被测试者的未来发展与原来测量的情况具有相关性，那么这样的测量就具有预测效度。因此，预测效度是比较测量结果与未来实际发生的情况两者的一致性。例如，社会研究方法试卷的效度在于能够预测学生笔试成绩与实际掌握社会研究能力的关系；社会发展指标的效度在于预测实际测试的分数与社会发展趋势的关系。最为典型的预测效度是对个人的职业倾向的测量，如果一套测量能够预测被测试者最适合从事的职业，并且后来也的确从事这样的职业，那么这种测量就具有预测效度。进行预测效度的检验必须对被测试者进行一段时间的追踪观察，例如，需要观察学生的社会研究能力与他们的考试成绩是否相关，需要观察社会发展阶段（温饱、小康、富裕）与社会发展指标测试的分数是否相关，需要观察某人从事的职业与过去的职业倾向测量是否相关，观察结果即为效标，用来评价原来测量的有效性。

从对共变效度和预测效度的介绍中可以看出，共变效度是采用新的测量代替原来的测量，观察新的测量的有效性；预测效度则是根据被测量对象的预测结果来判断测量的有效性，两者虽有不同，但都是测量指标有效性的方法。

7.4.2.3　建构效度

建构效度是通过概念或命题之间的内在关系，观察测量指标对于一个理论概念的作用，也就是说，一个理论概念在经验上是如何被建构的。例如，根据现代智力理论，可以建立四个主要假设：①智力随年龄而增长；②智力与学习有密切关系；③智商是相对稳定的；④智力受遗传的影响。如果通过智力测验而获得的分数，经过统计分析最后证明，被测试者的智商分数随年龄增加而增加；他们的智商在一段时期内是相对稳定的；学历越高或者学习成绩越好，智商也越高；同卵孪生子之间的智商相关程度要高于一般兄弟姐妹（杨国枢，等，1980： 338），那么就可以说，智力测验量表是具有建构效度的，也就是说，智力测验量表的效度在于对智力理论的建构作用。对于建构效度的理解，也可以采用操作性的语言表述：如果由若干个抽象概念组成的理论中，概念之间是有联系的，那么分属于各个概念的测量（指标）也是有联系的；如果一个概念采用一个新的指标代替其中的一个指标，并且新的指标和其他概念下的指标具有相关性，那么新的测量（指标）对于那个概念就具有建构效度。例如，假定社会地位和生育观是有联系的，即人的社会地位越高，生育观越是趋向于现代；社会地位的测量指标原来是收入水平，生育观的测量指标是理想子女数，研究表明收入越高，希望生育的子女数就越少。如果用教育程度代替收入，并且证明教育程度越高，希望生育的子女数就越少，那么，教育程度对于社会地位就具有建构效度。同样，也可以在生育观下，用对子女的性别偏好代替理想子女数，分析收入或教育程度与子女性别偏好之间的关系，如果证明收入水平或教育程度越高，对子女性别越无偏好，那么子女性别偏好指标对生育观具有建构效度。我们也可以这样理解，一个理论所包含的若干概念是有联系的，分属于这些概念下面的测量指标如果也是有联系的，那么这些测量（指标）对于相对应的概念来说就具有建构效度。

由此，从表面效度（内容效度）、效标效度到建构效度是一个渐进的关系，判断效度有效性的难度在逐步加大。表面效度和内容效度主要是判断一个概念和它的指标在经验或理论上的一致性，主要依据研究者的主观评价；效标效度依赖于一个概念的新的测量（指标）和概念之间的相关程度如何，或者新的测量（指标）是否具有预测性；建构效度则是建立在若干概念及其所属的测量（指标）之间相互联系的分析基础上。

7.4.2.4　内在效度和外在效度

内在效度和外在效度按它们的原意是指，如果一项实验的结果表明没有出现明显的误差或者这些误差是可以用测量假象进行解释的，这样的实验就具有内在效度；外在效度是指具有内在效度的实验是否具有普遍性，即能否推广到一个更大的范围（K.D.贝利，1986： 97-98）。因此，内在效度是指测量的内在有效性，即一组指标对于一个概念测量的有效性程度。例如，对于社会地位，如果用职业声望、收入水平、教育程度进行测量的话，也许只能解释70%，那么其余的30%的误差还没有得到解释，说明采用职业声望、收入水平、教育程度去测量社会地位的内在效度是有限的，或者说用职业声望、收入水平、教育程度去测量社会地位还存在一些误差，还需要我们去探索、去研究，找出测量的误差来源，从而提高测量社会地位的内在效度。外在效度是指测量的外在有效性，即一组指标对于一个概念的测量，如果在一个群体内具有内在效度，那么对于其他群体的测量是否有效就是外在效度，即一种测量的外在效度在于它的普遍性程度。例如，对社会地位的测量如果在白领群体中是有效的，那么同样的测量在上流社会或者底层社会是否有效，如果测量的结果发现在上流社会中，社会地位的高低更多地取决于门第或出生，底层社会对社会地位的认知更倾向于个人的魅力或品行，那么我们只能认为原来对社会地位测量（指标）的外在效度是有限的。以上例子说明社会地位测量的外在效度不足在很大程度上是因为在不同的群体中对于社会地位的认知是不同的。由此说明我们对于社会地位的理论解释和经验观察是不充分的，也就是说社会地位测量中还有30%的误差很有可能来自“门第或出生”和“个人魅力或品行”的因素。因此，在某种意义上，内在效度要比外在效度更为重要，外在效度取决于内在效度的有效性程度。另外，外在效度还与总体大小以及抽样方法有关，也就是说，要提高测量的外在效度必须在一个更大的总体中测量，测量对象的选取要合乎抽样原则。

7.4.2 效度

7.4.2　效度