4.4.4 使用select()函数选择列数据

4.4.4 使用select()函数选择列数据

在大数据时代,数据集有几百甚至几千个变量。在这种情况下,找出真正有用的变量是经常要面临的挑战。通过基于变量名的操作,select()函数可快速生成需要的变量子集。在下面的例子中,数据集只有24个字段,使用select()函数的效果不是非常明显,但是可以通过该数据集了解select()函数的用法。

select()函数接受两个参数:第一个为数据框,第二个则为要筛选的变量。select()函数可以一次筛选多个变量,变量之间用逗号分隔,也可以使用type:profit的形式筛选type到profit之间的所有变量。另外,还可以使用“-(type:profit)”筛选type到profit的所有变量,具体代码如下:

select()函数还可以与一些辅助函数结合使用,其常用辅助函数及功能如表4-13所示。例如:select()和starts_with(abc)或ends_with(abc)配合,可以匹配以abc开头或结尾的变量名;select()和contains()配合,可以筛选变量名包含某些字段的变量名;select()和matches()配合,可以实现正则表达式匹配变量名。

表4-13 常用辅助函数及功能

我们还可以使用everything()将所有数据保存,将选中的变量移动到数据框的开头,具体代码如下: