抽样分布与中央极限定理(Central Limit Theorem)
在问卷调查中,最理想的情况是调查所有的潜在调查对象(即总体),但实际上我们只能调查其中一部分对象(样本)。当我们调查了一个样本,该样本统计值(如样本的平均数)与总体参数(如总体的平均值)的差别是抽样误差。当样本统计值等于总体参数时,抽样误差为0;当样本统计值小于总体参数时,抽样误差为负数;当样本统计值大于总体参数时,抽样误差为正数。假设我们可以从总体中无数次随机抽取样本,根据每一次抽取的样本得到的平均值会形成一个正态分布,该分布的平均值等于总体样本的平均值。这个统计原理叫中央极限定理,也是我们理解推论统计的一个重要基础。感兴趣的读者可以自己做一个小实验,从一个数据集中每次随机抽取20%的数据,抽取100次,获得100个样本,计算这100个样本的统计值(如平均值)的频率分布,看看是否呈正态分布。
如果样本量越大,样本平均值靠近总体平均值的可能性就越大。尽管我们并不知道总体的平均值是多少,但是如果我们知道总体的方差,就可以用这个样本平均值来估计总体的平均值。[1]如果我们抽取很多样本,得到每个样本的平均值,那么这些平均值的平均值就极有可能等于总体样本的平均值。但是实际上,我们往往只做一次调查,因此我们就要推测使用样本平均值来作为总体平均值的准确概率有多少,这时就需要进行区间估计(Interval Estimation),即总体平均值有多大的概率落在某个范围内。这个范围称为置信区间(Confidence Interval)。我们在统计中一般默认使用95%的置信区间,也就是说,总体平均值落在这个区间内的概率为95%,而落在这个区间外的概率为5%,即可能发生的概率很低。置信区间在假设检验中非常有用。
如果样本数太小或者总体方差未知,这个分布就不是标准的正态分布,而是t分布。t分布相较于正态分布更加扁平,且随着样本数的增加,当样本n大于30时,t分布与正态分布十分接近,因此T检验适应范围更广。在对数据进行分析时,常常用T检验来进行平均数的差异性检验。