3.4 数据本地化

3.4 数据本地化

部分国家认为,通过控制数据的访问、传输和使用,可更好地保护国家数据。本文中将此称为“数据本地化”。“数据本地化将数据的存储、移动和/或处理限定在特定的地理位置或管辖区域,或对依据公司注册国或运营管理主要所在地的规定可合法管理数据的公司的数量加以限制。”然而,数据本地化并非一项单一的政策;可在多个方面、不同程度上加以体现。表1是“商业圆桌会”(Business Roundtable)协会列举的其中一个措施表。

表1 数据跨境流动的限制类型[67]

最严格的数据主权法规定公民数据须存储在国家地理边界内的物理服务器上。[68]

以非洲国家为例,非洲国家制定此类框架的动机包括促进电子商务、保护私人生活、保护与大规模政府数据收集项目(如选民名册的数字化)相关的隐私。由此可见,发展中国家制定数据跨境流动监管的动机与较发达国家相似,此监管已成为全球现象。部分世界主要经济体因缺乏数据跨境流动监管而备受关注。[69]

3.4.1 数据本地化的成因

多个国家纷纷开始规定某种程度的数据本地化。这些规定大多是有限或平衡的;少数国家采用了极端的数字孤立主义形式,试图围绕其数据创建难以捉摸的国家网络屏障。支持数据本地化的原因有很多,有些是明确的,有些则更为含蓄。一般而言,这些原因有相通之处。以下是基于文献回顾和对常见叙述的合理预测所给出的部分举例。

象征权利动因。努力抵消美国在数字产业中的互联网全球主导地位,以提供一定的权力平衡。拒绝“数据殖民主义”。与志同道合的国家团结一致,争取提高地缘政治影响力。

申明国家主权。试图表明本国主权扩展至对国内互联网和网络空间的控制。行使主权权力以排除其他国家干预。支持国内民族主义。

重申主权国家在互联网和网络空间治理中的传统作用(与多利益攸关方模式相对)。

应对潜在对手在发生冲突时可能将之用作武器的关切。

保护国防信息和数据库免受敌对势力渗透。大量潜在对手有能力拦截或获取国家机密。

维护公民个人身份信息的隐私,尤其是健康和财务信息等关键信息。

保护有关总体国民经济和主要金融机构的财务信息安全

抵御恐怖主义和犯罪活动。敌对的非国家势力和个人可能会对数据系统和网络造成不利影响——甚至“挟持人质”。国际罪犯可利用互联网实施非法目的。知识产权可能被盗用。

保护关键基础设施免受网络攻击。必须确保关键基础设施的关键数据免遭盗窃或毁坏。

针对外部威胁展开执法行动。为多边域外执法协议提供基础。

提供“安全空间”,支持并促进国内数字化企业的发展,特别是数字“英雄”和国有企业的发展。留出时间在不存在外国竞争的情况下发展(或培育竞争优势)。

保护社会、文化和宗教的核心价值观免受相悖思维的影响。

建立并维系某政治派别、宗教、部落或家庭对国家的权威统治。强化国内霸权。

这些论断并非均适用于各种情况,在某些情况下,甚至可能适用其他理由。该清单不一定全面。但其确实表明,向国家数据本地化倾斜的原因是复杂、连贯且令人信服的。问题在于论战中,数据本地化的劣势是否大于理由中的优势?

3.4.2 对数据本地化的批判

推动各国转而实施数据本地化的关切点是真实存在的。[70]数据安全、个人信息保护、数据窃取及国家安全防御具有法律基础。对于外国间谍、跨国公司窃取数据、侵犯隐私、流氓团体破坏数据和丧失对国家数据库的控制权的适度怀疑来自于过往经验,有一定合理性。[71]问题在于数据本地化是否解决了这些问题?其负面作用是否大于正面作用?人们对此提出了严肃的问题,例如,互联网治理论坛是否认为“迫切需要阻止本地化的态势”?

(1)本地化数据的安全性可能更低而非更高。首先,数据服务器本地化减少了处于不同位置的多个服务器间分发信息的机会。聚集在一处的信息成为诱人的“蜜罐”,是犯罪分子或间谍的理想目标。[72]与不断完善安全性的公司相比,受保护的本地提供商的安全基础架构可能更为薄弱,更可能发生单点故障,且对自然灾害的抵抗力较小。[73]部分国家计划通过打造国家“云”缓解此种情况,但部分弱点在国家“云”同样存在。[74]

(2)经济学基础可疑。从定义看,数据本地化是保护主义的一种形式。[75]有人士认为此数字重商主义为不良经济学。[76]与大多数保护主义措施一样,数据本地化只会令少数本地企业和工人获得微薄收益,却对总体经济造成重大危害。对当地企业而言,数据本地化的危害不仅限于互联网企业或消费者无法访问全球服务。[77]部分国家的决定是基于这样一个错误理由,即此类屏障将缓解隐私和网络安全问题;其他国家则纯粹出于重商主义。机会成本不太可能包括在此类计算中。[78][79]

(3)最大的公司得益。大型企业最能够遵守监管要求,且拥有与系统“对赌”的资源。行政费用将成为中小企业的沉重负担。规模较小的公司缺乏制定合规战略的人力、财力和法律资源。[80][81]

(4)扰乱互联网基础设施。数据本地化将对国家和全球互联网基础设施及架构产生负面影响,伤害全体用户。[82]全球互联网将被分割为独立的半主权网络。要求提供商在给定位置设立设施的策略可能使其选择次优位置或彻底不为目标市场提供服务。[83]

(5)损害电子商务。互联网治理论坛认为,数据本地化“损害电子商务、经济发展及依赖于完整一体的互联网的诸多重要社会过程”。降低了公司充分利用互联网资产的商业能力。

(6)扰乱云服务。数据本地化令云服务提供商无法利用互联网的分布式基础架构并在全球范围内使用分片和混淆技术[84](分片是数据库表中各行在世界各地的服务器中分别保存的过程——每个分区成为“分片”,提供的数据足够用于操作但又不足以重新识别个体身份)。[85]数据分片不易受到自然(或人为)灾难的影响。[86][87]国际贸易委员会表示,“云服务提供商的本地化要求存在问题,因为“位置独立性”是云交付模式的核心。”[88]

(7)对区域网络存在负面影响。共享网络依赖于对用户信息的处理,此类信息从用户所在国跨越至服务提供商所在国。在各司法辖区重复建立独有的基础设施可能成本过高。[89]

(8)无法获得全球公共利益。“经济学家普遍认为,信息也是全球公共利益……各国限制信息的自由流动,便减小了有助强化增长、生产力和创新的信息的获取范围。”[90][91]

(9)鼓励规避/不遵守规定。部分企业可能认为将用于企业内部通信的内部数据传输切换至传统电信服务更为方便,彻底绕开了互联网。这将鼓励私有、并行网络的发展和VPN使用的增加。[92]

(10)影响创新。数据流动受限和本地化令企业缺乏做出明智业务决策的能力。此外,数据本地化可能严重破坏诸多创新性信息产业和应用,如物联网、云计算、大数据等。[93]

(11)损害未来嵌入式基础设施。(见下文3.4.3节)低估数据本地化的最大成本和影响存在于方兴未艾的基于数据的技术。

3.4.3 对嵌入式信息空间的影响

(1)云计算。数据本地化的要求通常会阻止对全球云计算服务的访问。上文2.5节讨论了对“云计算”的负面影响[94]。可能成为电子商务的巨大负担。

(2)物联网。随着全球设备日益接入互联网,数据本地化需要数据流动中止于国家边界,这要求国家建立昂贵而烦琐的基础设施。此做法削弱了对消费者和企业的所谓“物联网”承诺。物联网展示了数据本地化对消费者的风险,消费者可能无法获得诸多最优服务。[95]

物联网有赖于移动和存储数据的能力。数据的跨境流动对连网设备在一国的有效运行能力至关重要。与全球信息经济的其他要素一样,数据的跨境流动亦是全球物联网平台的基础。允许信息持续开放流动的国家将助力促进新技术的广泛发展,提高企业生产力。此类政策将推动该经济体的投资、就业增长和创新。相反,对数据跨境流动施加障碍的国家将阻碍其国内关键业务技术的可用性和可负担性,降低以IT为支撑的潜在商业投资和生产率的提高。[96][97]

(3)数据驱动型创新(大数据)。许多分析师认为,数据驱动型创新将成为未来竞争、创新和生产力的关键基础。分析师还指出在组建更大型数据库过程中保护隐私的重要性。[98]数据本地化对大数据的威胁至少有两种方式。首先,按国家限制数据聚合增加了成本和数据收集与维护的复杂性。其次,数据本地化的要求缩小了潜在数据集的规模,侵蚀了跨辖区研究可获得的信息价值。通过大数据分析,特别是网络分析可在技术上实现的大规模全球实验可能不得不让位于范围较窄的本地化研究。[99]

(4)人工智能(“AI”)。人工智能的基础是学习、分析和识别复杂模式的能力。由于数据的原因,所有这些预测、运动和洞见皆因数据成为可能。人工智能从可用的所有数据中学习。拥有的数据越多,洞察力就越好。

人工智能对跨境数据流的访问对技术未来发展的影响至少有二。首先,数据的跨境流动令人工智能处理的数据量呈指数级增加。无论国家数据集的数量再大,与来自不同国家/公司的补充数据相比皆微不足道。随着对跨境数据流的访问,人工智能将有更多的学习材料,发现更多模式。处理此类的软件开发速度将得到提升。访问跨境数据流的另一个意义在于,由于可携带的数据多种多样,基于人工智能解决国际问题的应用程序的前景将十分广阔。国际数据的可用性可将人工智能从国家应用提升至区域性应用。[100]

翻译服务、聊天机器人和无人驾驶汽车等狭义人工智能与一般人工智能间存在着一个关键性区别——“可从人类广度的经验中学习并在各项任务中超越人类表现的自学系统。”一般人工智能技术仍有待未来发展,但“狭义人工智能”当前已切实存在。

狭义人工智能以机器学习为基础,以多种不同方式对大量数据加以应用。在“真实世界”中的应用需要大型数据集对人工智能系统进行初始化。数量在此过程中十分重要,因为机器学习在对未来的预测中需要尽可能多地纳入过去的结果。数据本地化措施限制了数据的全球移动能力,将削弱开发人工智能个性化功能的能力。

此外,人工智能的开发和使用建立在云计算、大数据和物联网等其他关键数字技术之上。此类数字技术也依赖于跨境数据流。这意味着限制数据全球传输的数据本地化措施将因训练数据的减少而直接影响人工智能,并因削弱人工智能的构建基础间接影响人工智能。[101]

3.4.4 各国实例精选

对各国数据本地化政策的详细分析超出了本文的探讨范畴,但下文专门选取了部分主要国家的政策。在许多情况下,这些政策与隐私政策问题相结合。更为详细的信息可见信息技术与创新基金会2017年的研究“数据跨境流动:障碍为何,成本多少?”,该研究罗列了来自37个国家的政策以及数据阻止政策的成本[102]

1.澳大利亚

1988年《澳大利亚隐私法案》规定了澳大利亚隐私原则(App)的行为准则,明确了联邦机构收集和处理“个人信息”(由法案定义)的标准。App原则构成了个人信息隐私行为准则。[103]

App原则树立了处理数据主权的规则。原则第8节(App 8)讨论了跨境个人数据的披露。目标是确保海外机构依据其导则处理个人数据。根据规定,各实体对个人信息的不当处理负责。

当App实体(即云服务提供商)向海外接收方披露个人信息时,该实体必须采取“合理步骤”以确保遵循App的规则。App清楚定义了App实体何时适合传输数据以及允许传输哪些数据。App实体在向海外接收方发送信息时需进行披露的情况包括:

·在海外会议或大会期间披露个人信息;

·有意或无意将个人信息发布至互联网;

·通过电子邮件或硬拷贝向海外发送个人信息。

澳大利亚还要求个人健康记录均仅可存储于澳大利亚。Irion论述了有关澳大利亚云计算的更多早期背景信息[104]

2.加拿大

加拿大已就加拿大服务器上的加拿大数据的存储制定了多项数据主权措施。《加拿大2016—2020年IT战略》将数据本地化措施作为维护公民隐私的机制予以审视。据称,使用加拿大服务器而非美国服务器存储加拿大数据将保护加拿大数据不受《美国爱国者法案》的约束。2017年,人们发现加拿大共享服务机构(Shared Services Canada)和通信安全局(Communications Security Establishment)正“探索将敏感数据存储于美国境内服务器的可能”。[105]

“问责制”原则是加拿大《个人信息保护和电子文件法》(PIPEDA)采用的途径,此概念亦包含在2010年6月发布的澳大利亚政府《隐私原则》草案意见征集稿中。问责制并未具体限制数据的跨境流动,但对在国际范围内传输个人数据的各方施加了合规责任。[106]

3.欧盟

2016年,欧盟议会通过《通用数据保护条例》(GDPR,上文2.2.2节中进行了探讨)批准其数据主权措施。这一综合性监管规定符合欧盟各成员国的数据保护政策。条例还包括一个《附录》,确立了域外管辖权,允许条例的规则扩展到主体为欧盟公民的任何数据控制方或处理方,无论持有或处理数据的地点如何皆适用。这迫使欧盟境外的公司重新评估其运营范围的政策,并使之与欧盟法律保持一致。

4.俄罗斯

2019年5月1日,俄罗斯总统弗拉基米尔·普京签署了一项法令(《主权互联网法》),扩大了政府对互联网的控制。该法要求俄罗斯互联网服务提供商安装设备,将俄罗斯互联网上的流量路由至俄罗斯境内的服务器。支持者称此为防范美国或其他敌对势力切断俄罗斯互联网的措施。[107]

根据该立法,政府将通过集中“通用通信网络”处理“对俄罗斯互联网在俄罗斯境内稳定、安全的整体运营的威胁”。更简单地说,该法为俄罗斯制定了替代域名系统(DNS)的计划,若与万维网断开连接、或政府认为断开连接有利,便可启动替代方案。互联网服务提供商将被迫与任何外国服务器断开连接,转而依赖俄罗斯的域名系统提供服务。[108][109]

5.印度

印度提出了多项要求数据本地化的法律法规。印度通信部制定了数据传输要求作为2011年隐私规则的部分修订,可能(但尚未)用于限制包含个人信息的数据的流动。“个人敏感数据或信息”传输出境仅限于两个特定情况——“必要”时或主体同意时。由于很难确定数据传输出境是“必要的”,规定禁止未经个人同意的传输出境。通信部澄清称,此类规则仅适用于收集印度公民数据且设立在印度的公司。从理论上而言,此类法律具有限制性,但印度迄今为止尚未使用法律要求本地存储数据。[110]

2012年,印度《国家数据共享与开放政策》颁布生效,意味着政府数据(政府机构拥有和/或使用公共资金收集的数据)必须存储在本地数据中心。

2014年2月,印度国家安全委员会提出政策提案,要求全部电子邮件提供商为其印度业务设置本地服务器并强制与印度两个用户间的通信相关的全部数据均保留在印度国内,从而实现数据本地化。

2014年,印度颁布《公司(账户)条例》,要求将主要存储地为海外的财务信息的备份存储在印度。

2015年,印度发布《国家电信业机对机路线图》,要求为印度客户提供服务的全部相关网关和应用服务器置于印度。该路线图尚未予以实施。

印度政府机构亦将数据本地化作为云提供商竞标政府合同的要求。例如,2015年,印度电子和信息技术局发布导则,要求争取政府合同认证的云提供商将全部数据存储在印度。[111]

印度目前正考虑实施全面的数据跨境流动和电子商务政策。政策草案分为6类——数据、基础设施开发、电子商务市场、监管问题、刺激国内数字经济和通过电子商务拉动出口。对于数据的跨境流动,政策草案中建议的战略为:限制数据跨境流动。对安装在公共空间的“物联网(Io T)”设备收集的数据及印度用户在电子商务平台、社交媒体、搜索引擎等各类来源生成的数据,政策草案对其跨境流动将予以更为严格的限制。[112][113]

对已在印度收集或处理且由印度境外其他商业实体或第三方在境外存储的敏感数据,即使征得客户同意,草案亦限制对其进行共享。未经印度主管部门事先许可,不得向外国政府提供此类数据,若印度主管部门提出请求,应立即向其开放全部此类数据。这些限制条件旨在对数据行使主权,被视为重度保护主义的举动。不受草案限制的跨境流动包括:①非在印度境内收集的数据;②发送至印度的、印度境外的商业实体与印度商业实体间的商业合同中的B2B数据;③软件和云计算服务涉及的、对个人或社区无任何影响的技术数据的流动;④跨国公司跨境转移数据,此类数据主要为公司及其生态系统内部的数据,不包含印度用户从电子商务平台、社交媒体活动、搜索引擎等各类来源生成的数据。[114][115]

3.4.5 平息数据主权/数据跨境流动论战的政策提案

对于数据主权和数据跨境流动原则间的冲突,目前尚无广为各国接受的解决方案,实际上,各国所持意见迥异。但为在保持国家数据安全的同时简化数据的国际流动,已提出了实现数据本地化的若干备选方案。虽然本文的目的并非逐一审视解决国际数据问题的各项提案,但有必要对部分备选方案加以注意,以便了解已被提议(和正被提议)的多项互不相容的措施。以下列举了部分措施,按其来源和/或作者排序,排名不分先后。

·欧盟委员会建议数据传输规则同时采用合同模型和公司法模型。在缺乏对规则的全球共识的情况下,委员会提议展开双边、多边和区域合作[116]

·阿伦森(Aronson)。在缺乏WTO协议的情况下,应以实现最高水平的互操作为目标[117]。需将“自由流动”与数字版权相结合。信息流动并非“服务贸易”。更为清楚地表述政府如何以及何时限制信息的流动。[118]

·互联网治理论坛建议创建由贸易和互联网治理社区参与的多轨、多利益攸关方模式。需要的是全球反托拉斯机制和全球数据保护规范,而非贸易协定[119]

·贸发会议建议:①加强非条约制定方的政府间论坛的作用;②在政府间机制下展开更具包容性的对话(政府拥有最终发言权)

·世界经济论坛《白皮书》,展开更多业内对话,加大数据收集。

·经合组织监管选项:①地域;②组织(“问责制原则”)。混合模式可能最佳。寻求监管法规的透明度。研究经济效应。[120]

·钱德尔(Chander)。由私营部门的合同条款处理。[121]

·新美国基金会。拒绝以地域为基础的管控框架。采用模糊地理界限的管辖和运营框架,以数据流的“控制点”为前提。[122]

·商业圆桌会。企业必须携手应对数据的跨境流动。需要展开全球对话。[123]

·信息技术与创新基金会。提出“受信任的数据自由流动”。“志同道合”的各国(基于规则的开放贸易)基于“问责制”原则和加密,就核心原则和规则(数据的《日内瓦公约》)达成一致。数据的“自由流动”是理所应当的。避免“普世主义”(协调)和巴尔干化(本地化)的双重危险。[124]

·格伦(Glen)。存在三种模式:开放型多国模式;压制型多边模式;开放型多边模式。国际电联应向开放型多边模式发展。[125]

·伊利翁(Irion)。合同安排并不足够。与外交豁免相似。认为超国家虚拟空间的规则不可能统一。OECD应根据有关标准的协议寻求最低限度的协调一致。使用区域标准设置。[126]

·韦伯(Weber)。问责制模式(加拿大),在国家框架内自愿遵守。自我监管(新加坡模式)。归属国地域模式(“充足的保护水平”)和组织模式(数据持有方的合规责任)。标准合同规则。需要平衡各类模式。[127]

由此可见,数据全球流动的监管解决方案多种多样。若能达成某种全球性或一般性决议,“数据本地化”的需求将大大减少。然而,新美国基金会的观点似乎最为中肯:

“我们认识到,不太可能就决定数据流动是否正当的关键规范性义务和约束达成广泛的国际共识……”[128]