4.1.2 结构化数据整合

4.1.2 结构化数据整合

结构化数据一般指的是统计数据等以数据表形式组织的数据资源。结构化数据整合是指将不同来源、不同结构的表格数据整合到数据库中,便于数据分析和直观展示。结构化数据整合主要有两种方式,一是按主题组织数据,二是构建多维数据立方体。

(1)按主题组织数据

①按主题建库:数据应根据数据描述的内容按照主题分类建库,做到专库专用。

②信息完备:每个数据库中应具备数据字典表和数据内容表。

③命名规范:数据库、数据表和数据字段命名要规范,名称尽量能表达其含义,长度原则上不超过30个字符,数据类型采用通用类型,确保能在常用关系型数据库之间迁移。

④内容完整准确:数据内容应保证信息完整,且应与数据来源保持一致。原则上,小数部分保留小数点后两位有效数字。

(2)构建多维数据立方体

数据立方体是联机分析的数据组织方式,构建数据立方体的目的是为联机分析提供数据支撑,数据组织要求如下:

①优先选用星形架构,当星形架构不能满足需求时应采用雪花架构;

②数据维度表符合关系型数据库范式约束,不应出现无关数据;

③事实表中的数据应为具有一定颗粒度、层次相同的数据。事实表不应包含汇总数据;

④对事实表和维度表中的关键字应创建索引,同一种数据尽可能使用一个事实表;

⑤保证数据的参考完整性,确保事实表中所有数据都出现在所有的维度表中,避免事实表中的某些数据在立方体进行聚集运算时无法参与进来。