警务信息研判中运用统计推理时应该避免的谬误

2026年02月06日

版权

四、警务信息研判中运用统计推理时应该避免的谬误

警务信息研判中运用统计推理时所产生的谬误主要是由于违反了上述的统计推理规则，主要表现为偏颇样本谬误、平均数谬误、百分比谬误等。

（一）偏颇样本谬误

能够代表总体的样本称为公平样本，不能代表总体的样本称为偏颇样本，以偏颇样本以某种比率具有某种属性作为推理依据的谬误就是偏颇样本谬误。偏颇样本谬误主要包括：样本规模不够大、样本分布不够广和抽样方法不够科学三个方面。

1.样本规模不够大

一般而言，样本规模越大，样本就越具有代表性，结论可靠度就会更高；反之，样本规模过小，就难以确保其代表性。例如，南京市某派出所辖区内约有常住人口15 万，该派出所的警务信息研判人员要做一个关于辖区内常住人口年关防盗意识的抽样调查。如果仅仅选择该辖区内的100 名常住人口作为样本，那么从抽样率的角度看，这个样本相对偏小，很可能难以代表15 万常住人口，由此得到的结论的可靠性就难以保证。

2.样本分布不够广

一般而言，样本分布越广，越能全面反映总体中各个层次的真实情况，样本就越具有代表性，结论可靠度就会更高；反之，样本分布狭窄，就难以确保其代表性。样本分布是否足够广，在于样本与总体的相关性，即样本的属性能否全面反映总体的属性。例如，某公安机关治安中队要对辖区内的居民做一个治安满意度的网上调查。由于辖区内的居民多数都是中老年人，他们很少上网或者不会上网。如此得到的数据也仅仅是关于占居民少数部分的青年人的属性的。由于样本分布不够广，由此得出的结论的可信度就很低。

3.抽样方法不够科学

抽样方法就是从总体中抽取样本作为考察对象的方法。抽样方法是否科学，直接决定了样本是否具有代表性以及具有何等程度的代表性。一般而言，抽样方法越科学，样本就越具有代表性，结论可靠度就会更高；反之，抽样方法越不科学，就越难以确保样本的代表性。抽样方法是否科学，主要在于抽样过程是否随机、差异、重复和客观。这里的重复是要求从总体中进行高频次的抽样，以获得样本。

偏颇样本谬误的实质是所谓的弱归纳谬误、轻率概括谬误或者前提不充分谬误。为了克服偏颇样本谬误，可以采用大数据技术来增加样本的规模、提高样本分布的广度和保障抽样方法的科学性。

（二）平均数谬误

平均数是人们进行统计推理时运用最多的一种数据。但是，在运用平均数进行统计推理时，需要注意许多方面，否则就可能为平均数所迷惑，导致所谓的平均数谬误。

1.混淆不同意义的平均数

统计推理有算数平均数、中位数和众数三种不同意义的平均数。在根据平均数进行统计推理时，详细考察平均数的具体含义是至关重要的。很难说这三种不同意义的平均数哪一种更科学、哪一种更有用。比较公允的观点是，它们各自都有其合理的使用范围和场合，即最能反映样本乃至总体属性并且有利于作出正确决策的情形。如果在某个具体的使用范围和场合中不恰当地运用了它们中的某种，就会产生混淆平均数的谬误。例如，在调查某公安局警务信息研判人员的学历情况时，众数无疑是比较适合的平均数；如果使用算数平均数或者中位数，则显然混淆了它们。为了避免此谬误，警务信息研判人员必须结合具体情况，明确各类平均数的使用范围和场合，采用最恰当和合适的平均数。如果数据集中的极大值和极小值之间差异巨大，那么此时运用算数平均数就没有太多实际意义，因为它难以反映甚至会掩盖对象的真实情况，乃至于产生某种误导。在这种情况下，使用中位数或者众数则相对合适一些。

2.混淆平均数与个体值

在警务信息研判中，警务信息研判人员很容易将平均数与个体值混淆，以为平均数就是个体值；或者认为即使个体值不等同于平均数，也在平均数上下一个很窄的范围内波动，即个体值会接近于平均数。无论是哪种意义的平均数，它们与个体值的关系都是：（1）平均数不大于个体值中的最大值，但是不小于个体值中的最小值；（2）平均数与个体值之间的差值可能很大，因为有些个体值可能远远高于平均数，有些个体值可能远远低于平均数。为了避免该谬误，警务信息研判人员在运用平均数进行统计推理时必须严格区分平均数和个体值。

运用平均数进行统计推理首先要注意得出该平均数的那个数据集中的极大值和极小值之间的差异，如果两者之间的差异巨大，那么该平均数就没有太多实际意义，难以反映甚至会掩盖对象的真实情况，乃至于产生某种误导。运用平均数进行统计推理其次要注意得出该平均数的那个数据集中的某些数值出现的频率或者次数，因为这些数值出现的频率或者次数的变化可能暗含着对象发展变化的某种趋势或者规律；忽略这一点，孤立地看待平均数，就难以把握或者发现这种趋势。运用平均数进行统计推理最后要注意防止作出随意的、夸大的断言，简单地从某些平均数中推出某些所谓“规律性”的结论。平均数不是表示一种不变的关系，在不同时间、地点、条件下得到的平均数可能很不一样，据此得出的所谓“规律性”的结论最多是一种表象甚至假象，不难找到大量的反例。因此，对平均数必须作具体分析，随意把它们解释为一种普遍适用的普遍规律，不免有些武断，也容易产生误导作用。平均数谬误的实质是基于平均数现象而引申出一般性结论的谬误。在进行统计推理时，尤其要注意平均数这个度量概念，有些数值可能远远高于平均数，同时，有些数值可能远远低于平均数。

（三）百分比谬误

1.混淆不同意义的百分比

百分比等于分量与总量的比值，与分量和总量两个数值有关，即使两个百分比数值相同，它们所在的分量和总量也是不尽相同的。因此，不能将一些近似的百分比混淆。例如，某公安派出所治安中队在对某小区的酒驾情况进行抽样调查时发现，右撇子酒驾者在样本中的占比大于左撇子酒驾者在样本中的占比。于是，该所警务信息研判人员据此得出结论：右撇子驾驶员比左撇子驾驶员更容易酒驾。实际上，该结论是站不住脚的。警务信息研判人员需要了解该样本中右撇子和左撇子各占多少比例。在多数场合中，右撇子在样本中的占比远高于左撇子在样本中的占比。若要比较右撇子和左撇子到底谁更容易酒驾，必须比较右撇子酒驾人数在右撇子样本中的占比和左撇子酒驾人数在左撇子样本中的占比，由此可能会得出相反的结论。

2.混淆百分比和实际数

如前所述，绝对量=基数×百分比。如果混淆这三个数值，或者孤立地看待某一数值，就很容易得出不恰当的结论。如果基数很大，那么即使百分比很低，绝对量也可能很大。因此，警务信息研判人员首先应该避免从百分比很低推出绝对数也小。例如，某小区“两抢一盗”的发案率很低，而且在警方的努力下，发案率还在不断降低。但是，因此警方不能就此掉以轻心。其次要避免只重视百分比的增加而忽视绝对量的变化。例如，如果根据某年某小区的入室盗窃案件比上年增加了100%，就运用统计推理得出结论说，该小区该年的治安形势变差了，那么这个结论是很成问题的。因为实际情况很可能是：该年该小区的住户近万，而上年入室盗窃只有1件，而该年入室盗窃有2件。所以，有时候，孤立地考察百分比会掩盖或是忽视很多深层甚至明显的问题。这就要求警务信息研判人员在进行统计推理时，既要考察百分比，又要注意基数和绝对量；既要注意这三个数值的静态值，又要注意这三个数值的变化值。

统计数据的相对性主要是指百分比、基数和绝对量三者之间的相对关系，百分比可以使得人们了解某一类对象在全体对象中所占的比例，统计结果简单明了、一目了然。但是，使用百分比也有不足：百分比无法反映一种非常重要的信息，即得出该百分比所依据的绝对数字。百分比高并不意味着绝对量大，因为绝对量还要依赖于基数，即绝对量=基数×百分比。在统计推理中，为了使得人们相信夸大了的事实，推理者有意使用小的基数而使得百分比变大，为了使得人们相信某种事实无关紧要，推理者有意使用大的基数而使得百分比变小，甚至在不该或者不能使用百分比的情形下使用百分比，对不同的百分比进行错误的比较，从而误导人们相信或者不相信某个事实。为了避免该陷阱，在使用百分比时，一定要考察得出百分比的两个参数：绝对量和基数。

使用百分比来对若干情况进行比较是一种可行的定量描述方法，但是如果没有提及或者提供进行比较或者增减的基础，那么关于百分比之类的断言可能没有提供任何有价值的信息，虽然这样的断言会给人们造成错觉而具有某些误导人们的效果。所以，要特别注意计算出来的百分比数值赖以计算的基数即它所依赖的绝对数字。

3.百分比机械加减谬误

还有一种因为使用百分比而导致的错误是：数值A先减少x%，然后再增加x%，这样就重新回到A。可以通过计算来发现其中的错误：A×（1- x%）×（1+x%）=A×[1-（x%）²]。最后的结果A×[1-（x%）²]一定小于A，怎么可能又回到A本身呢？其原因之一在于两个百分比使用了不同的基数：前一个减少的基数是A，而后一个增加的基数是A×（1- x%）；原因之二在于混淆了百分比和基数值：确实，数值A先减少x，然后再增加x，最后确实重新回到A。如果推理中被增减的数值没有明确是百分比还是基数值，或者故意将百分比当作基数值，都会导致这种谬误，主观恶性严重的则是利用模棱两可的话语进行欺骗。与基数值的绝对增减不同，百分比是相对术语，其增减相对于不同的基数。

将百分比和纯粹基数进行混淆，或者更有甚者用百分比来偷换绝对基数值的另一种情形是将前提中针对不同对象的增加的不同的百分比进行加和，推出由这些不同部分组成的整体也必须根据这个百分比的加和进行增加。比如，有人这样推理：某社区一季度的治安案件增加了13%，刑事案件增加了7%，所以，该社区一季度的由治安案件和刑事案件构成的案件增加了20%。这一统计推理也是很荒谬的，可以通过计算来发现其中的谬误：设组成某整体的A增加了x%，B增加了y%，那么增加后的整体就是：A×（1+x%）+B×（1+y%）；该整体增加的百分比是：{[A×（1+x%）+B×（1+y%）]-（A+B）}÷（A+B），而且可以计算出，该百分比一定小于（x%+y%）。只有构成整体的每一组成部分都以相同的百分比增减，最后整体才必然以该百分比增减。当然，这只是极端和理想的情形，多数情形是构成整体的各个部分以不同的百分比增加，最后整体实际的增减百分比一定小于前提中这些不同百分比之和，可能处于前提中这些不同百分比之间。这可以借助于大数据技术进行验证。从归属上说，这种关于百分比的谬误属于所谓的合举谬误的一种特殊形式，实质上是结论与前提无关联或者前提对结论的支持不充分。

还有一种谬误是通过比较两个不同的对象或者两种不同的情形而得出结论。比如，在过去的六个月之内，某个社区刑事案件下降了30%，于是有人据此断言该社区的刑事案件得到了有力的控制。这个推理很明显是有瑕疵的，因为很可能在这六个月之内，该辖区的人口递减了30%才是该社区刑事案件下降30%的真正原因。

（四）其他与数据有关的谬误

1.统计数据不可比谬误

统计数据的可比性是统计数据支持结论的必要条件之一。比较要有用以比较的对象和共同基础。统计数据不可比谬误是指在统计推理中，忽略总体属性的差异对两个统计数据进行比较，并基于此得出某一结论。总体属性的差异包括：两个样本有实质性差异、统计对象和样本有实质性差异、某概念的不同解释导致了不同结论。统计数据不可比谬误的主要原因在于未设定比较的基础或者依据。例如，未设定比较的对象，表面上在进行比较，实际上根本没有进行比较。如果某个统计推理含有这种谬误，那么可以通过指出比较的基础或者标准不正确来说明某组数据不能说明问题，达到削弱该统计推理的目的。数据比较也是进行统计推理的一种方式，但是数据比较的前提是数据必须具有可比性。忽略数据比较的基础，不但不能解释问题，还可能得出错误的结论。数据不可比也称独立数据谬误，实质是脱离比较基础的数据，具体是指没有设定比较的对象，没有设定比较的根据或者基础，从而不能支持其结论。

2.统计数据精确度谬误

在从样本的属性推至总体的属性时，人们总是希望得到一个精确的数字。但是，对精确性的过分追求可能会导致所谓的精确度谬误。这种谬误是指在从样本推至总体的过程中，忽视了误差、追求精确数字导致的谬误。如前所述，当样本在总体中的占比相对较小时，将样本具有的属性推至总体就必须考虑误差的因素。例如，抽取某社区100名无业青年进行抽样调查，发现他们之中有8%具有犯罪前科，因此就得出结论说该社区的所有无业青年之中也有8%的人有犯罪前科。这样推理显然是有问题的。因为样本中具有某种属性的统计比率不可能完全与总体中具有这种属性的统计比率相同。如果考虑了必然存在的误差因素，统计推理的结论不可能是一个具体的百分比数值，而是一个数值区间。就这个推理而言，其误差应该是±5%，因此其结论应该是（可能）该社区的所有无业青年之中有8%±5%的人有犯罪前科。

3.统计数据不相关谬误

数据不相关谬误是指误以为不相关的统计数据密切相关而进行错误推理，是一种强加因果关系的谬误。统计数据不相关谬误也称虚假相关谬误。在一些场合，两类事件就某些统计数字上看好像是密切相关的，但其实两者之间并不存在真正的因果关系；还有一种情况是忽视相关变项，即未考虑影响事件概率的种种因素，盲目断定两事件之间的相关性，进而得出一个不合理的结论。

4.绝对数谬误

统计推理中不仅相对数字可以构成所谓的数字陷阱，绝对数字也可能构成数字陷阱。使用较大的数字可以使人相信某个事实，而使用较小的数字可以让人觉得微不足道。

5.错误抽样谬误

它是指在统计推理过程中样本偏颇或者样本太小等抽样不合理因素导致的谬误，它的实质是样本不具有代表性而导致推理的强度很低，基于前提的结论的可信度也很低。

（五）结论不恰当谬误

结论不恰当谬误主要是指结论由于不能得到前提的较为合理或者充分的支持而使得自身的可靠度较低。结论不恰当谬误表现为两种形式：

1.前提对结论的支持度较弱

虽然统计推理作为一种或然性推理，其前提对于结论的支持不是决定性的，但是一个合理的统计推理要求前提对于结论的支持大于该前提对于相反结论的支持。也就是说，如果用百分比表示统计推理前提对于结论的支持度，那么合理的统计推理的前提对结论的支持度必须大于50%。如果某一统计推理的前提对于结论的支持度不高于50%，那么即使其前提全部真实，其结论的可靠性也是很低的。

为了避免这种谬误，要确保结论与前提要有某种语义或者内容上的充分关联，并且使得前提对于结论的支持度高于50%。借助于大数据技术，可以计算出前提对于结论的支持度，也可以通过调整或者更换数据来提高前提对于结论的支持度。

2.结论过于武断

如果将前提中样本具有某种属性的某个百分比直接套用于结论中总体具有该属性的比值，则结论就会显得过于武断。为了避免这种谬误，可以将结论表示为一个带有“可能”的模态判断，也可以设定一个恰当的误差值，使得结论中的数值表现为一个基于前提中的数值的区间值。这个设定的误差值可以借助于大数据技术高频次的计算得出。