3.1.1 简单随机抽样

3.1.1 简单随机抽样

一般的,设一个总体个数为N,如果通过逐个抽取的方法抽取一个样本,且每次抽取时,每个个体被抽到的概率相等,这样的抽样方法为简单随机抽样,也称为纯随机抽样。简单随机抽样是其他抽样方法的基础,适用于总体个数较少的情况,也可以作为综合抽样中部分样品的抽样方法。简单随机抽样又分为重复抽样与不重复抽样。

重复抽样又称放回式抽样,每次从总体中抽取的样本经检验之后,又重新放回总体,参加下次抽样。Excel可以通过随机函数与随机数发生器生成随机数实现简单随机抽样。

不重复抽样也叫作不重置抽样、无放回抽样。不重复抽样是从总体中每抽取一个样本后,不再将其放回总体内,因而任何单位一经抽出,就不会有再被抽取的可能性。不重复抽样中,每个样本最多只有一次被抽中的机会。随着抽中样本个数的不断增多,剩下的样本被抽中的机会不断增大(条件概率)。一般来说,不重复抽样的误差小于重复抽样的误差。当总体个数较大时,我们用重复抽样近似不重复抽样。

简单随机抽样在整个抽样过程中完全遵循随机原则,因此在Excel中要实现简单随机抽样,有以下四种方法。

1.使用RAND函数进行抽样

RAND函数的功能是产生大于等于0及小于1的平均分布随机数,每次计算工作表时都将返回一个新的随机实数。其表达式为

RAND()

函数无参数。

如果要使用RAND函数生成一个随机数,并且使之不随单元格计算而改变,可以在编辑栏中输入“=RAND()”,保持编辑状态,然后按F9键,将公式永久性地改为随机数。对于多个包含RAND()函数的单元格,也可以复制后,使用“选择性粘贴”对话框中“粘贴”组的“数值”选项(如图3-1所示),将随机函数的值保存在指定单元格内。

图3-1 选择性粘贴

注意:这里必须使用“选择性粘贴”中的只粘贴“数值”,将函数保存为数值,否则当通过在其他单元格中输入公式或日期重新计算工作表,或者通过手动重新计算(按F9键)时,会使用RAND函数为任何公式生成一个新的随机数。

在实际应用时,经常会指定随机数在某一个范围之间,例如要使用RAND函数生成a与b之间的随机实数,那么公式为

=RAND()*(b-a)+a

例3.1 某工厂需要从120个产品中可重复地随机抽取15个产品检验。现在需要通过Excel的RAND函数选择产品编号,如图3-2所示。

图3-2 使用RAND函数进行抽样

【实验步骤】

步骤1:在单元格B5中,输入“=ROUND(1+RAND()*($B$1-1),0)”,并将该公式复制到B5:B19单元格中,得到的数据即为1~120之间的随机数。

函数解析:

随机取0~1之间的一个随机小数,这个小数乘以比整体数小1的整数,将乘积增加1,最后四舍五入。

注意:RAND函数返回的是实数,而不是整数,因此需配合使用ROUND(number,num_digits)函数。

ROUND函数将数字四舍五入到指定的位数。ROUND函数语法:

ROUND(number,num_digi ts)

ROUND函数参数:

•number:必需,要四舍五入的数字。

•num_digits:必需,要进行四舍五入运算的位数。

✧如果num_digits大于0(零),则将数字四舍五入到指定的小数位数。

✧如果num_digits等于0,则将数字四舍五入到最接近的整数。

✧如果num_digits小于0,则将数字四舍五入到小数点左边的相应位数。

✧若要始终进行向上舍入(远离0),请使用ROUNDUP函数。

✧若要始终进行向下舍入(朝向0),请使用ROUNDDOWN函数。

例如,ROUND(3.56,1)表示将3.56四舍五入为1位小数,运算结果为3.6。

步骤2:选中单元格C5,单击鼠标右键,选择“选择性粘贴”中的“数值”,将随机数保存为数值。

思考:在步骤1中为什么不直接用ROUND(RAND()*$B$1)呢?

因为RAND()有可能取到0,因此ROUND(RAND()*$B$1)也可能取到0值,但是在抽样中不允许出现0的情况,为了避免取到0,所以使用ROUND(1+RAND()*($B$1-1))的公式。

2.使用RANDBETWEEN函数进行抽样

RANDBETWEEN函数的功能是返回位于两个指定数之间的一个随机整数。每次计算工作表时都将返回一个新的随机整数。

函数表达式:

=RANDBETWEEN(bot tom,top)

RANDBETWEEN函数语法具有下列参数:

•bottom:必需,是RANDBETWEEN能返回的最小整数。

•top:必需,是RANDBETWEEN能返回的最大整数。

例3.2 某工厂需要从120个产品中可重复地随机抽取15个产品检验。现在需要通过Excel的RANDBETWEEN函数选择产品编号。

【实验步骤】

步骤1:在单元格B5中,输入“=RANDBETWEEN($E$1,$E$2)”,并将该公式复制到B5:B19单元格中,得到的数据即为1~120之间的随机整数,如图3-3所示。

图3-3 使用RANDBETWEEN函数进行抽样

函数解析:

步骤2:选中单元格C5,单击鼠标右键,选择“选择性粘贴”中的“数值”,将随机数保存为数值。

注意:RANDBETWEEN函数在选中指定范围的随机整数时,比RAND函数使用更简单。同样的,当通过在其他单元格中输入公式或日期重新计算工作表,或者通过手动重新计算(按F9键)时,会使用RANDBETWEEN函数为任何公式生成一个新的随机数。

3.通过Excel随机数发生器产生随机数实现简单随机抽样

“随机数发生器”分析工具可选择均匀分布、正态分布、伯努利分布、二项式分布、泊松分布、模式分布和离散分布中的任一个分布,产生独立随机数字,并通过概率分布表示样本总体中的主体特征。例如,可使用正态分布来表示人体身高的总体特征,或者使用只有两项可能结果的伯努利分布来表示掷币实验结果的总体特征。

例3.3 需从某班级120名学生中随机抽取15名参加学校学生代表会议,现在需要通过Excel的随机数发生器完成抽取任务。

【实验步骤】

步骤1:选择“数据”选项卡,然后选择“分析”组的“数据分析”工具中的“随机数发生器”,如图3-4所示。

图3-4 选择“随机数发生器”

步骤2:设置“随机数发生器”参数,如图3-5所示。

•变量个数为1;

•随机数个数为15;

•分布为“均匀”;

•参数介于“1”与“120”;

•输出区域为“$B$2”。

图3-5 设置“随机数发生器”参数

步骤3:在单元格C2中输入“=ROUND(B2,0)”,并将该公式复制到B2:B13单元格中,得到的数据即为1到120之间的随机整数,如图3-6所示。

注意:随机数发生器不仅仅可以为均匀分布选取随机数,还适用于正态分布、伯努利分布、二项式分布、泊松分布、模式分布和离散分布,如图3-7所示。使用时可以根据研究对象的具体分布,在随机数发生器对话框中进行选择。

4.通过抽样宏实现简单随机抽样

前面的三种简单随机抽样均适用于连续编号的情况,当遇到编号不连续或者在指定的编号内抽样的情况时,可以使用抽样宏实现简单随机抽样。抽样分析工具以数据源区域为总体,从而为其创建一个样本。当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。

图3-6 将随机数四舍五入

图3-7 随机数发生器的分布选择

下面通过分析工具中的抽样宏实现简单不重复抽样。

例3.4 需从某班级50名学生中随机抽取5名参加学校学生代表会议,学生学号不连续,如图3-8所示,现在需要通过Excel抽样宏完成抽取任务。

图3-8 某班学生名单

【实验步骤】

步骤1:选择“数据”选项卡,然后选择“分析”组的“数据分析”工具中的“抽样”。

步骤2:设置“抽样”参数,如图3-9所示。

•输入区域:$A$2:$J$6(即实际数据所在区域);

•随机—样本数:5;

•输出区域:$A$9(可自行选择)。

注意:和前面的例子不一样,使用抽样宏工具进行抽样,可以在指定样本数据中抽取,而不需要总体数据必须是连续的。

图3-9 使用抽样宏实现简单随机抽样

由于随机抽样时总体中的每个数据都可以被多次抽取,所以在样本中的数据一般都会有重复现象,解决此问题有待于程序的完善。为了实现不重复抽样,下面介绍两种方法。

5.实现不重复抽样

由于随机抽样时,总体中的每个数据都可以被多次抽取,所以在样本中的数据有可能会出现重复现象。虽然抽中样本重复的概率并不高,但是实际操作中,由于抽取到的实数通常会经过四舍五入的取整处理,所以样本重复的情况并不少见。为了避免重复抽样,可以使用以下两种方法。

(1)利用“条件格式”实现不重复抽样

Excel的“条件格式”功能可以标识重复数据,因此我们可以对抽取出来的随机数设置条件格式,显示重复数据。如果需要无重复抽取,那么就需要把出现重复数据的抽样丢弃。以例3.1为例,实验步骤如下。

步骤1:选中B5:B11,然后选择“开始”选项卡“样式”组的“条件格式”工具中的“新建规则”。

步骤2:在“选择规则类型”中选择“仅对唯一值或重复值设置格式”,其他参数选择“重复”,如图3-10所示,设置格式为底色黄色,这样所有重复的数字底色均显示成黄色。

步骤3:如果已经选择出没有重复的数字,那么就已经完成抽样。如果有黄色底色提示有重复数字,那么就按F9键刷新,直到没有黄色出现为止。

图3-10 利用条件格式实现无重复抽样

利用“条件格式”的不重复抽样并非实现了不重复抽样的功能,而是丢弃出现重复抽样的样本,直到得到不重复样本为止。

(2)利用“高级筛选”实现不重复抽样

Excel的“高级筛选”功能也可以将重复数据排除,因此我们也可以利用“高级筛选”实现不重复抽样。

以例3.3为例,选中样本数据列,选择“数据”选项卡“排序与筛选”组中的“高级筛选”,如图3-11所示,弹出高级筛选对话框,选中需要实验的数据,勾选“选择不重复的记录”复选框,如图3-12所示。

图3-11 高级筛选

当出现重复数据时,筛选出来的结果会少于例题要求的数量,那么就需要读者根据实际情况,适当调整在数据样本选取时的随机数个数的设置,使得最终筛选出来的不重复样本数量不少于所需数量。

(3)删除重复项

Excel“数据”选项卡的数据工具组中还有一个“删除重复项”工具,如图3-13所示。

仍然以例3.3为例,选中样本数据列,单击“删除重复项警告”命令,打开该命令对话框,选择“以当前区域进行排序”,如图3-14所示。

图3-12 “高级筛选”选择不重复记录

图3-13 删除重复项工具

图3-14 “删除重复项警告”对话框

单击“删除重复项警告”对话框中的“删除重复项”按钮,弹出“删除重复项”对话框,如图3-15所示。勾选“数据包含标题”复选框。

图3-15 “删除重复项”对话框

单击“确定”按钮后,Excel会找到重复项并删除重复项,得到无重复数据,如图3-16所示。

图3-16 删除重复项

在“删除重复项警告”对话框中,如果选择“扩展选定区域”选项,那么Excel会选中所有数据进行重复项选择,如图3-17所示。

图3-17 选择“扩展选定区域”选项

在“扩展选定区域”条件下,只有不同行的三列数据都一样时,Excel才会判断这两行数据是重复的。也就是说,“以当前区域排序”条件下删除重复数据,只判断该列的数据是否重复,结果如图3-16所示。而“扩展选定区域”条件下删除重复数据,需要判断所有的列,因此就会出现无法找出重复项的问题,如图3-18所示。

图3-18 重复项的误判