体育在线信息的选取
网络世界每时每刻都在生产、传输着庞杂、海量的资讯,如果能将网络中的数据都作为调查对象,其所得结论应是最具普遍意义,也最能反映整体特征的。然而在现实研究过程中,几乎不可能做到将所有人群无一例外地纳入研究范畴进行调查,因此就需要从总量中选取部分具有代表性的研究样本,以便研究的开展,而抽样则是最常采用的方法。
(一)抽样的基本概念
抽样(Sampling)是指从研究总量中按照一定比例抽取部分样本的过程,其以建立在概率论之上的大数法则和中心极限定律(the central limit theorem)为基础,目的是通过对部分代表性样本的调查结果去推论和说明总体情况。

图2-2 抽样调查过程
在进行数据抽样前,研究者有必要对抽样的相关专业术语和基本概念予以了解,这些常用概念和术语通常包含总体、样本、统计值、参数、分析单位与抽样单位等。
1.总体(Population)
总体是构成研究对象的所有单位或元素的集合体,这些单位或元素在实践调查中可以是个人,也可以是群体、组织或社区。总体有着具体的时空界限,通常由地域、时间和对象三种要素构成。而我们一般所说的总体多是指调查总体(即研究者从中抽取样本的个体的集合体)而非研究总体(理论上明确界定的个体的集合体)。
2.样本(Sample)
样本是从总体中按照一定程序抽取出来作为收集资料的若干个对象,也是总体中某些单位的子集。
3.统计值(Statistic)
统计值又称样本值,是对样本中某个变量数值的综合描述,以此反映样本数量特征。统计值是可变、多样的,其主要来自对样本的调查结果,用以推算总体的各种参数值,从而达到由部分认识总体的目的。
4.参数值(Parameter)
参数值又称总体值,是反映总体某种特征的数量值。对于一个确定的总体来说,关于某个变量的参数值只有一个,所以说参数值是唯一、不变的。但由于调查研究的特殊性,很多变量值很难做到通过对总体全部单位的调查来获得,所以只能依据统计学知识由样本的统计值估计和推断而得到,因此对于这类数据通常需要借助抽样调查,而一次效度高的抽样调查就是要尽可能使所抽取的样本的统计值接近总体值。
5.抽样误差(Sampling Error)
抽样误差也称代表性误差或随机误差,即统计值与参数值之差,它是由抽样本身的随机性所导致的用样本值推断总体值时产生的误差。在进行抽样调查过程中,由于总是会受到总体的差异性和样本规模的影响,所以样本统计值与总体参数值很难做到完全一致,因此这种表示样本代表性大小标准的“误差”通常是不可避免的。
6.置信水平与置信区间(Confidence Level and Interval)
置信水平和置信区间是与抽样误差密切相关的两个概念。置信水平又称置信度,是指总体参数值落在某一区间内的概率,反映的是推论的可信度与可靠性;而置信区间则是在一定的置信度下,样本统计值和总体参数值之间的误差范围,体现的是推论的准确性。置信度与置信区间存在对应关系,参数值的准确性越高置信区间就越小,而置信度的高低和置信区间的大小又会对样本规模造成影响,因此研究过程中通常在置信度和置信区间的选择上采取折中策略。
(二)抽样的主要方法
根据概率论原理,目前常用的抽样方法主要分为概率抽样和非概率抽样两大类。两者的目的都是为了通过对样本统计值的描述准确勾画出总体的面貌,而其主要区别则在于抽样过程是否遵循随机和等概率原则。鉴于两种抽样方法都具有自身的特点,研究者也务必根据研究需要和客观条件来选取适合的方式。
1.概率抽样
概率抽样(Probability)又称随机抽样,是指严格按照随机原则抽取样本,并保障每个个体被选取的机会都是均等的抽样方法。概率抽样一般会在样本量过大的情况下使用,也更多地出现在定量研究中。概率抽样主要有表2-2所示的四种常见类型。
表2-2 概率抽样的主要类型

2.非概率抽样
与概率抽样这种严格、正式、代表性强、精确度高且多出现于定量研究中的抽样方法不同,非概率抽样(Non-Probability)这种根据研究者的个体经验、主观判断或条件便利因素选取样本的抽样方法更常出现在小规模的探索性研究中。尽管非概率抽样的样本代表性较差,提供的资料信息相对零散,较难从样本调查结论中对总体情况做出准确推断,但是由于其方便可行,并能够通过适量样本的调查了解大致情况,因此也具有一定启发性。非概率抽样主要有表2-3所示的四种常见类型。
表2-3 非概率抽样的主要类型
