数据操纵一般包括变量变形、整合、过滤、分类、排序等,其中变形、整合、过滤、排序是数据操纵的四个基础动作。
(1)变形。变量变形既包括单一变量的变形(如log变形),也包括多个变量的组合变形(如使用长和宽计算长方形面积)。
(2)整合。将一系列变量整合成一个值,例如,R中使用summarise()函数对数值数据进行整合,计算均值、总和、中位数、众数等。
(3)过滤。筛选符合条件的数据或者删除某些观测值。
(4)排序。按照一定的规则或某些变量对观测值进行排序。