1.2 内在质量

1.2 内在质量

对上述开放数据质量评估框架的一个常见批评为,此类框架似乎只关注数据库的外部情况:展现数据库的技术格式或编码以及数据库的访问条件。正如Vetrò、Canova、Torchiano、Minotas、Iemma和Morando[31]指出的那样,数据库即使遵循上述各项开放性标准,数据的质量可能仍然很差。基于对以往文献和数据质量理论模型的广泛回顾,Vetrò等[32]确定了一套“数据内在质量”的标记(与其归类为“系统相关”的外部标记形成对比)。以下改编自Vetrò等[33]的定义。

①可追溯性:与数据库的创建和更新相关的元数据的可用性。

时效性:数据库中包含的截至数据库发布日期(而非过去某时间段)的最新数据所占单元格的百分比。

②超期时间:考虑到数据库的周期性和自上一版本发布以来经历的时间,数据库当前内容的发布延迟时间。

③完整性:无缺失值的单元格所占的百分比。

④合规性:数据库中变量的百分比,其定义和规范符合行业标准。

⑤易懂性:具有描述性元数据或展现方式易于用户理解的列所占的百分比。

⑥准确性:数值正确的单元格所占的百分比。

Vetro等[34]的内在质量标记与世界银行统计能力指标(SCI)存在显著重叠:统计方法(遵守有关数据收集的国际标准和规范);源数据(普查周期和行政数据的可靠性);周期性和及时性(统计输出的规律性、及时性和可用性)。