1.1 开放性

1.1 开放性

Scassa认为“数据开放涉及以可重复使用的电子格式和公开许可发布非个人、非机密的政府数据”[21]。倡议组织[22]给出了另一种定义:“开放意味着任何人都可出于任何目的自由访问、使用、修改和共享(最多受保留原产地和开放性要求的约束)”。此类定义虽表面上看似简单,但数据库的开放涉及多个维度,需要实施若干相互关联的行动。例如,开放数据观察[23]通过五项标准评估数据库的开放性。由于这些标准与数据开放度量高度相关,下面对其展开详细讨论。

①可机读:表示数据是否以XLS、XLSX或CSV等标准可机读格式提供。可机读格式允许用户将数据直接下载至计算机,通过常见的电子表格或统计软件进行分析。

②非专用格式:表示提供的数据格式是否不需要特别的软件或编程环境。例如,SAV(SPSS)和DTA(Stata)文件只能通过各自的程序读取,因而被视为专用格式,而CSV、XML和HTML文件则是非专用格式。

③下载方式:表示是否至少可通过以下三个选项中的一种下载数据。批量下载、应用程序编程接口(API)或用户自定义选项。批量下载允许用户在一个文件中下载某指标的全部数据,包括多个年份、地理区间或地方单元。API允许远程用户进行定制,轻松实现数据交互。用户自定义选项包括允许用户为指标创建下载或表格显示、按年份或地理单位等维度进行细分。

④元数据可用性:表示数据库是否包含变量定义、计算方法、发布日期、编译日期、数据收集代理的名称等信息。

⑤使用条款:表示用户可对数据执行的各项操作的权限类型。开放数据观察[24]将使用条款分为四类:不可用、限制性、半限制性和开放性。顾名思义,不可用表示未明确规定使用条款;这在某种程度上限制了使用,因为厌恶风险的用户可能因害怕违反使用条款而不使用数据。限制性使用条款包括禁止商业用途、使用数据前需获取许可和注册要求。半限制性条款包括“烦琐归属”(如每次使用数据均要求广泛引用的元数据来源)、误导性使用条款和/或措辞模糊。最后,“开放”用法包括创意公用许可、公有域安置,或说明数据可自由使用的表述。开放数据观察[25]实行综合评级方案,包含对此类标准中各项标准的得分。

Opendefinition.org[26]列出的数据库被视为“开放型”数据库的标准如下:必须属于公有域或拥有“开放式许可”(详见下文)、必须可整体访问且收取的一次性复制成本应合理、必须可机读、必须以开放格式提供即无使用限制、可通过免费/开源软件工具访问。

此类标准严格遵守开放数据观察[27]的要求,但前者的许可要求规范更为详细,在开放数据观察中,这些要求包含在标准5“使用条款”下。Opendefinition.org认为[28],作品许可能够被视为“开放式”许可的条件有:作品应可免费使用,包括允许销售等再流通方式;可对作品进行修改,包括筹备其衍生作品;将作品任意部分单独抽出进行独立分销;与其他作品汇编或合并;对任何类别的用户均无使用歧视;传播,即通过再流通获得作品的任何用户均适用相同的许可条款;适用于任意目的;免费使用,不收取费用、授权费或其他货币补偿。然而,Opendefinition.org[29]确实允许就作品的使用附加特定条件:归属,即对信息来源的确认;完整性,即要求再流通作品使用不同的名称或版本号,以便与原作品相区分;“共享方式一致”,要求再流通方遵守与内容原创者相同的开放许可要求;来源识别,即在各衍生作品中包含指向原始内容的链接;禁止采用技术手段限制对作品的访问(如使用加密);“非激进行为”,衍生作品生产者承诺不使用专利诉讼等激进法律手段限制对衍生作品的访问。

开放数据的其他评估方案的要求则稍有不同:例如,Tim Berners-Lee[30]要求将数据库链接指向可能为数据提供额外背景情况的其他来源。