4.4.1 dplyr包的基本操作

4.4.1 dplyr包的基本操作

1.随机选择N

sample_n()函数可从数据框(或表)中随机选择行,它的第二个参数表示R要选择的行数,随机选择N行的代码如下:

2.随机选择总行的N%

sample_frac()函数可随机返回数据集N%的行。例如,我们随机选择数据集10%的行:

3.基于所有变量删除重复行

distinct()函数用于消除数据集中的重复行,但是当数据集中没有重复行时,则会返回和原数据相同的行数,具体代码如下:

4.基于变量删除重复行

我们还可以在选择数据框中某列或多列的基础上删除重复行。如选择国家,可以看到返回值中有147行,这说明公司的产品销往147个不同的地区,在下面的第二行代码中还选择了地区,这说明公司产品销往119个地区。keep_all参数用于保存数据框其他列的数据,具体代码如下。