警务信息研判中统计推理的规则和大数据技术

三、警务信息研判中 统计推理的规则和大数据 技术

在警务信息研判中,为了提高统计推理结论的可靠性,警务信息研判人员必须遵守相应的推理规则。而相对于传统的数据获取和处理技术,应用大数据技术有助于警务信息研判人员遵守推理规则。因此,在警务信息研判中,既要遵守相应的推理规则,又要积极、主动、恰当地运用大数据技术。

(一)警务信息研判中运用统计推理的规则

警务信息研判中运用统计推理应该遵守的规则主要是关于样本的规则,也包括其他一些规则。

1.关于样本的规则

统计推理的特征在于,其前提对于结论的支持不是决定性的,前提到结论的归纳强度与样本之适当性密切相关。从逻辑的角度看,只要改善统计推理的前提,就可以提高其归纳强度。因此,提高统计推理归纳强度的规则主要就是关于增强样本之代表性的规则。样本的代表性是指样本的属性能够反映总体中所有对象的属性的程度,简言之,就是样本能否代表所在的总体。为了保证样本具有代表性,一般要慎重考虑抽样的规模、范围、随机性以及排除心理因素。一般而言,抽样应该满足随机原则、大量原则、差异原则、客观原则、重复原则。

(1)随机原则。随机样本是指总体中的每一个成员都有同等的机会被选出的样本。样本的随机选择这一要求适合于几乎所有的样本,但是有时不能认为它是理所当然,必须考虑情况的变化以及样本的分布情况等因素。特别是当总体是由人组成的时候,由于人本身具有主观性,易受多种主、客观因素的制约,选取样本时更要注意随机问题。人们有时出于证实或者获得某种期望结论的需要,在选取样本时,会有意选择一些有利的样本,而忽略其他样本的结果。这就违反了随机选取样本的要求,所推出的结论自然是有失偏颇的甚至错误的。为了保证样本选取的随机性,首先得保证样本选取的客观性和公正性,不偏不倚,力求避免这种倾向。选取样本不能有先入为主的预设,即不能人为预设样本。尽可能进行随机抽样,提高抽样的随机性,使得所有成员都有均等的被选取机会。

随机原则要求样本不能是预定的。这意味着从总体中选取样本时应该使得总体中每一成员具有同等概率作为样本元素被选取出来,由此选取的样本才有足够的容量和代表性。如果样本是由精心选取的不具有代表性的成员组成,那么样本就不具有代表性。

样本的选取涉及抽样的方法是否科学的问题。为了保证样本的代表性,必须保证抽象的方法科学。使用什么方法从总体中抽取样本作为考察对象,直接决定样本是否具有代表性以及具有多大的代表性。为了保证样本的代表性,防止主观偏见渗透入抽象之中,人们探索了一系列科学的抽样方法,诸如纯随机抽样法、整群抽样法、等距抽样法、分层抽样法、二次抽样法等。

如果总体中成员之间差异较大,可以考虑采用分层抽样的方法。分层抽样时要注意,所选取样本应在多大程度上准确地反映总体中具有的总的划分。如果只选取某层或者某子类的成员作为样本,也是不具有代表性的。

如果仅仅注重样本数量、规模等样本容量方面的增加而忽视随机和分层等增加样本代表性的原则,则极易导致统计上所谓的“斜线统计”谬误。1936年,美国《读者文摘》杂志预测下一届美国总统失败就是因为忽视了随机和分层等增加样本代表性的原则。

(2)大量原则。样本大小也是决定样本是否具有代表性的一个重要因素。在被随机选取时,样本容量越大,被考察的样本中的成员数量越多,就越接近于复制总体,越具有代表性,结论的可靠度越高;反之,样本的规模过小,就难以保证其代表性。在统计学中,样本与总体之间的近似程度用抽样误差这一术语表示。抽样误差是指某个属性在样本中出现的相对频率与该属性在总体中出现的相对频率之间的差别。随机选取的样本容量越大,误差也就越小。样本容量的大小应该与总体的大小和可以接受的抽样误差程度有关。对于同样的误差要求,容量大的总体比容量小的总体要求的样本容量也更大。但是,这个比率不是线性的:样本容量的递增速度会越来越小于总体容量的递增速度。误差与精确度呈反比关系:误差越大,则精确度越低;误差越小,则精确度越高。当总体极大时,为了提高精确度和降低误差,随机选取的样本会收敛于、趋向于或者渐进于一个常量。人们有时出于证实或者获得某种期望结论的需要,在选取样本时,会有意忽视抽样误差。这种倾向也是应该尽量避免的。应加大样本的容量,使得样本更具有代表性,以便消除误差。至于样本规模达到怎样的程度才算合适,则是个复杂的问题,取决于很多因素,需要根据不同对象的具体情况进行具体分析。

尽量增大样本的容量意义重大。在其他条件相同时,样本的可靠性随着样本容量的增加而增加。当样本分布均匀时,样本容量之重要性不太明显。但是,多数情况下被研究的总体及其样本中成员的分布都是不均匀的,增加样本容量就具有重要的意义。

(3)差异原则。差异原则要求样本的分布尽量广。样本的代表性不仅取决于其规模、数量,还取决于它与总体的相关性,即能否全面反映总体的属性。这对于提高统计推理的强度具有重要意义。一般而言,样本的分布越广,就越能全面反映总体各层次的真实情况,其代表性就越强,得出的结论也越可靠。如果总体中各成员之间差异较大,可以考虑采用分层抽样的方法,即根据所研究的问题有关的性质,按照某种标准将总体分成许多层即许多子类,再从各层中选取样本。很明显,分层越多越细越好。分类要坚持穷尽性、互斥性和差异性标准。采用分层抽象的方法,从总体的各个层去选取,从而使得选取出来的样本能够更好地代表总体的属性。

(4)客观原则。客观原则要求尽量避免心理因素的影响。如果总体是无生命的对象组成的,也许不会涉及心理因素问题;但是,侦查思维中的大多数抽样针对的都是人类。如果总体是由人构成的,心理因素必然会对抽样施加影响,只不过这种影响大小程度不同而已。如果组成的样本的人认为他们给出的不同回答会使得他们得到或者失去某些东西,那么可以预料和理解的是,这些人的想法就会直接影响抽样结果。调查中所提出的问题的种类无疑会具有暗示效应。陈述问题的方式也会具有暗示效应。此外,调查者和回答者之间的相互作用也会影响抽样结果,因为很多被调查者会给出调查者所期望或者喜欢的答案。这些因素都影响着抽象结果的客观性和真实性,进而影响样本是否能够代表总体。为了避免这些心理因素的影响,调查最好是在双盲条件下进行。在这种条件下,调查者和被调查者都不知道正确的答案是什么,在所提出的问题的种类和提问的方式上尽量避免先入为主的偏见和各种形式的暗示。这要求不带任何主观偏见地进行随机抽象,尽可能排除抽象过程中的心理因素等非理性因素的影响。

(5)重复原则。为了提高样本的代表性,可以在不同的条件下重复抽样。抽样进行得越频繁,每个样本被抽取的可能性也越趋于平等,样本越能代表总体。借助于大数据技术、信息处理技术等手段,警务信息研判人员可以高频次地进行抽样;然后对这些高频次的抽样结果进行分析,得出一个关于样本属性的相对可靠的结论。当然,这个结论可能是以百分比形式表达的,也可能是以均值形式表达的,还可能是以其他定量形式表达的。

由于主客观因素的制约,在警务信息研判中,即使是超大样本抽样甚至是全样本抽样也很难时时刻刻满足这五个原则,其结果的可靠性是值得怀疑的。在不满足这些原则的情况下,对这些抽样调查获取的数据进行评价,必须具有相当强的判断力。如果进行调查的组织和组成样本的成员都因为受利益驱使,会通过回答某些问题而从中受益,那么这种调查所获得的数据是相当可疑的和不靠谱的。如果所问的问题涉及一些会自然地导致歪曲回答的主题,那么这些结果也是难以甚至不可相信和接受的。一些数字和专业术语表述的调查结果很可能因为上述原因而不具有代表性,虽然它们貌似具有代表性和可信性。这在实际统计调查中被称为数字陷阱,极具迷惑性。

2.关于数据的规则

数据无疑是统计推理的灵魂。在警务信息研判中运用统计推理时,首先要查明数据本身的真实性,鉴别其中是否含有虚假成分以便及时识别和剔除;其次要正确理解和表达数据;再次要探究数据背后隐藏的真实意义,特别是它揭示了哪些带有普遍性、规律性、趋势性、倾向性的问题;最后还要分析不同数据之间的相关关系,特别是结论与其他数据之间的相关性。

在这四个方面中,正确理解和表达数据至关重要,这也是经常容易出错的地方。数据的直观表示方法有直方图和正态曲线。使用图表无疑是一种非常直观便捷且信息丰富的表达数据的方式,但是图表也容易被错误地表达和理解。为了避免图表被错误地表达和理解,如果一个图表是代表一个实际情况的,那么该图表必须带有标度的纵轴和横轴。如果图表的纵轴和横轴不带有标度,那么不能表明它们在哪个参数区间内数值到底变化多少。这样的图表实际上没有任何意义,而且经常被错误地使用从而主观或者客观地引起人们错误的理解。象形图是一种通过描绘所刻画的实体在大小或者数量上的不同来对两种情形进行比较的图形。警务信息研判人员使用图表来直观表示数据时,要避免出于自身的某种目的而进行某种对自己有利的制作,给理解数据带来麻烦,甚至造成错误。

为了正确理解和表达数据,警务信息研判人员应该了解数据的收敛趋势和分散程度,计算两组数据之间的相关系数以确定两个参数或者变量之间的某种关系,运用概率方法来量化某种属性。反映某样本集合数据之间的分布情况的术语是离散度,与离散度有关的概念是极差、方差和标准方差。

(1)极差

一个样本数据集合的极差就是该样本数据集合中两个极值——极大值和极小值之间的差,即极大值减去极小值。极差反映了某样本集合中的数据的变化范围和大小。极差越大,该样本集合中数据的变化范围越大;极差越小,该样本集合中数据的变化范围越小。

(2)方差和标准差

方差和标准差用于计算某样本集合中每一个数据值与均值的偏离或者偏差。方差是这样计算的:第一步,求出某样本集合中每个数据值与这些数据值的均值的差。由于均值介于极小值和极大值之间,有些数据值小于均值,有些数据值大于均值,因此这一步的结果有正数、有负数,也可能为0。第二步,计算出第一步得出的结果的平方,或者是正数,或者是0。第三步,将第二步求出的结果进行加和运算。第四步,计算第三步求出的结果的均值,即将第三步求出的结果除以该样本集合中数值的数目。由于标准差是方差的平方根,因此对方差进行开平方就得到标准差。由于较小的方差和标准差反映了某样本集合中的数据值的变化或者相对于均值的偏离较小,因此对方差和标准差的评价是:越小越好。方差和标准差反映了某样本集合中的数据值相对于均值的收敛程度。

反映数据分布的极差、方差和标准差在某种程度上克服了平均数的不足之处。有些情况下,如果不考虑数据的分布情况而仅仅考虑平均数,所得出的关于平均数的断言可能掩盖很多问题,产生所谓的平均数谬误或者平均数陷阱。因此,在分析数据时,不仅要考虑平均数,还得注意数据的变化范围、方差和标准差等参数。

样本集合中数据值分布的方式之一就是所谓的正态分布。它表示一个总体中随机现象的分布。具有正态分布的数据值的直方图具有一个钟的形状。如果将一条连续的曲线置于这个直方图的顶部,其结果就是一条正态曲线。反映正态分布的正态曲线一般是一个开口向下的抛物线形状,其顶部在均值、中位数和众数意义上反映出样本集合中数据值的均值。正态曲线开口的大小与方差和标准差有关:方差和标准差较小时,正态曲线开口也较小,其总体的大部分数据聚集在接近均值的位置;方差和标准差较大时,正态曲线开口也较大,其总体的大部分数据分散在远离均值的位置。收敛和分散是分布的两种情形。很明显,开口越小从而方差和标准差越小的正态分布无疑是理想的分布情形。考虑方差和标准差可以在一定程度上克服仅仅考虑均值带来的决策上的风险和结论上的错误。

3.关于结论的规则

结论不仅得自前提,与前提有内容或者语义上的关联,而且结论相对于前提应该是谨慎的、保守的和恰当的。特别是在统计推理依靠统计数据来解释或者确认某一种因果关系时,必须确保结论所描述的总体属性与前提所选取的样本属性关联。一般情况下,统计推理的结论表现为一个数值区间即X%±n,n为误差范围。对于非个体样本的结论而言,其数值区间越大,结论的可靠性也越大。

(二)警务信息研判中的大数据技术对于遵守统计推理规则的意义

如上所述,警务信息研判中的统计推理的规则主要是关于样本的规则,而运用大数据技术可以极大地方便警务信息研判人员遵守这一规则。大数据技术与大数据是两个不同的概念,具有不同的内涵和外延。大数据技术就是利用网络、计算机、手机等平台对大数据进行实时、高效、集约、专业的收集和处理的技术。

警务信息研判中的大数据技术对于遵守统计推理规则的意义在于:

1.大数据技术可以提高获得的样本的真实性。借助于大数据技术,可以快速获得和安全地保存海量数据,可以提高抽样的速度和效率,有条件地实现数据共享。这在一定程度上可以减少数据的失真,提高样本的真实性和可信度,提高抽样的质量。

2.大数据技术可以提高获得的样本的代表性。大数据技术可以极大提高样本的容量、提高样本之间的差异性和样本种类的多样性;可以提高抽样过程的随机、客观、公正和透明;可以随着数据的不断变化即时调整样本,甚至处理异常复杂的数据。总之,大数据技术可以从质和量两个方面提高样本的代表性。

3.可以对数据进行推理前的先期处理。借助大数据技术对数据进行归类、分类和分层处理,可以按照某种标准对大数据进行排序,以对数据进行云计算,快速得出统计结论。