统计推理的基本概念

一、 统计推理的基本概念

(一)变量和数据

1.变量

变量是相对于常量而言的,是指被研究对象的属性或者特征。常量只有一个固定取值,而变量可以有两个或者更多个可能的取值。变量的变化范围称为变域。被研究对象从不同的角度考察,可以有许多不同的属性或者特征,也就有许多变量。比如,研究某网络诈骗案件,可以研究其黑产规模、犯罪嫌疑人人数、平均年龄、职业分布、受教育水平、地域分布等。

变量分为定量变量和定性变量。定量变量,也称数量变量,是指取值表现为数量的变量。例如,网络诈骗案件的黑产规模、犯罪嫌疑人人数、性别构成、平均年龄等。定性变量包括分类变量和顺序变量。分类变量是指取值表现为类别的变量,如某网络诈骗案件的职业分布、受教育水平、地域分布等;顺序变量是指取值表现为分类而且具有一定顺序的变量。

2.数据

数据是对变量进行测量和观测的结果。例如,对某网络诈骗案件的黑产规模进行计算可以得到其黑产规模数据;对网络诈骗案件的犯罪嫌疑人的受教育水平的观测可以得到犯罪嫌疑人受教育水平的数据。数据的表现形式多种多样,可以是数值、文字或者图表等各种形式。(https://www.daowen.com)

数据分类取决于变量的分类。与变量分类对应的是,数据可以分为数值型数据和非数值型数据。数值型数据是对定量变量的观测结果,其取值表现为具体的表示大小或者多少的数值。非数值型数据分为分类数据和顺序数据。

分类数据是分类变量的观测结果,表现为类别,可以用文字或者数值代码表示。比如,可以用1表示成年人,2表示未成年人。顺序数据是对顺序变量的观测结果,也表现为类别,可以用文字或者数值代码表示。比如,用1表示硕士及以上,2表示本科,3表示大专及以下。

对数据进行分类的一个主要意义在于对于不同类型的数据,需要采用不同的统计方法来处理和分析。对于数值型数据,可以进行诸如计算均值和方差等统计量的数学运算;而对于非数值型数据,可以计算出各类别出现的频率,但是不能对其进行加、减、乘、除等数学运算,因为对这类数据进行数学运算是没有意义的,会出现所谓的“非法操作”。

数据按照收集方法分为观测数据和实验数据。观测数据是指直接通过调查或者测量而收集到的数据,它是在没有对被研究对象施加任何人为控制因素的条件下得到的。实验数据是指通过在实验条件下控制实验对象以及其所处的实验环境收集到的数据。一般而言,几乎所有与社会经济现象有关的数据都是观测数据,而自然科学领域中的数据大多是实验数据。

(二)总体、样本和抽样

1.总体

总体即被调查对象的全体。如果要对2016年前三季度全国的电信诈骗案件进行抽样调查,那么2016年前三季度全国的所有电信诈骗案就构成一个总体。在一项具体的调查之中,调查总体必须是明确的而不能是模糊的。总体是一个集合,称为总体集合。

2.样本

样本是总体的一部分,是由从总体中按照一定原则或者程序抽取出来的部分个体单位构成的。样本也是一个集合,称为样本集合。每个被抽取出来进入样本集合的个体单位称为入样单位,样本中包含的入样单位的个体数称为样本量。抽样调查中调查的具体实施是针对样本进行的。

3.抽样

抽样是按照一定的原则和程序从总体中抽取样本的过程。在认识活动之中,在不必、不便、难以甚至无法考察对象类中的所有分子的情况下,就必须从该对象类的所有分子中抽取若干具有代表性的分子作为研究的对象。

样本中个体单位总数与总体中个体单位的总数称为抽样率,也就是样本量与总量的比值。

(三)样本统计量和抽样框

1.样本统计量

样本统计量是根据样本中各单位的数值计算的,是对总体参数的估计,因此被称为估计量,样本统计量是一个随机变量,取决于样本设计和入样的单位特定组合。例如,用样本中的电信诈骗案中的平均“黑产”来估计2016年前三季度全国的电信诈骗案件的平均“黑产”。这里,样本中的电信诈骗案中的平均“黑产”就是2016年前三季度全国的电信诈骗案件的平均“黑产”的一个估计量。常用的样本统计量有样本均值、样本比例和样本方差等。

2.抽样框

抽样框是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。在抽样框中,可以对每个单位进行编号,由此可以按照一定随机化程序进行抽样。在抽样后,可以根据抽样框上所提供的信息找到被选中的入样单位,从而进行调查。抽样框有各种形式,常用的有名录框、地图或者其他形式。无论哪种形式,抽样框中的单位必须是有序的以便于编号;高质量的抽样框应该提供被调查单位更多的信息,而且既不重复也无遗漏。

(四)平均数

统计学中的平均数有三种不同的意义:均值、中位数和众数。在根据平均数进行统计推理时,详细考察平均数的具体含义是至关重要的。

1.均值

一个样本集合的均值就是算术平均数,也是最常应用的平均数。人们日常工作中的平均数若无附加特别解释,一般就是指均值。均值是样本集合中的每一成员的数据值之和除以该样本集合中的所有这些成员的数目。这个借助于人工计算、计算器和电脑中的EXCEL软件等可以很容易地解决。

2.中位数

一个样本集合的中位数就是该样本集合中所有成员的数据值按照升序(从小到大)或者降序(从大到小)进行排列之后的中间那个成员的数据值或者中间相邻两个成员数据值的均值。如果该样本集合中的成员数目为奇数,那么中位数就是该样本集合中所有成员的数据值按照升序(从小到大)或者降序(从大到小)进行排列之后的中间那个成员的数据值;如果该样本集合中的成员数目为偶数,那么中位数就是该样本集合中所有成员的数据值按照升序(从小到大)或者降序(从大到小)进行排列之后的中间相邻两个成员数据值的均值。中位数上面和下面有相同数量的数据。确定中位数的一个常见方法是不断采取去掉一个最大值和最小值,再去掉一个次大值和次小值……直到最后剩余那一个或者两个数,这个最后剩余的那个数值或者最后剩余的两个数值的均值就是中位数。

3.众数

一个样本集合的众数就是该样本集合中出现频率最高的那个数值。很明显,某样本集合中哪些成员的数据值相同,而且该数据值拥有的成员数量最多,该数据值就是众数。为了求出众数,需要先对某样本集合中的所有成员的数据值按照大小进行分类,再考察这些不同的数据值哪一个的成员数量最多。某样本集合中某个数据值的成员数量最多,表明该数据值出现频率最高,次数最多,自然相对于其他数据值具有更大的代表性。