4.1.1 整洁数据
2025年09月26日
4.1.1 整洁数据
与纷繁多样的原始数据不同,整洁数据通过预定义标准,实现数据集结构和语义的整齐划一。数值数据集通常是由行和列构成的表格型数据,下面给出两个数据集示例,分别如表4-1、表4-2所示。
表4-1 数据集示例一
表4-2 数据集示例二
表4-1由两列三行构成,行和列都有标签。表4-2展示的数据和表4-1相同,但是行列被转置,虽然两张表记录的数据内容一样,但数据记录结构不一致。
一个数据集是一组“数值(value)”的集合,通常不是数字(定量)就是字符串(定性)。数值通过两种方式组织起来:每个数值属于一个变量和一个观察值,变量和观测对象两两语义互斥。例如,变量包括某个对象属性的所有值(如高度、温度、时长等),观测值包含各个属性的所有值(如一个人、某一天、一场比赛等)。将表4-1重新排列,使各个值、变量和观测值变得更加清晰,如表4-3所示。表4-3中的数据集就是整洁数据,它由3个变量、6个观察对象组成的18个数值构成。
表4-3 数据集示例三
因此,整洁数据必须满足以下3个要求:每个变量形成一列;每个观测对象形成一行;变量、观测对象和数值构成表格型数据记录。整洁数据更便于数据分析人员或软件分析人员提取所需变量,因为它提供了一个构建数据集的标准方式。