二、个人信息存储

二、 个人信息存储

数据泄露的形势日渐严峻。从泄露数据量看,2019年国内外多起数据泄露事件泄露的数据量达到了上亿级别,少量事件泄露的数据量甚至达到了十亿以上级别。进入2020年,雅诗兰黛又被曝出泄露4.4亿用户的邮件地址和网络数据。从泄露数据类型看,涵盖了个人基本信息、账号密码、生物识别信息、收入信息和医疗信息等。从泄露数据维度看,部分数据泄露事件的数据维度甚至达到了十余种,基本涵盖了个人的主要信息。而究其泄露原因,黑客入侵、公开数据库、非授权访问、数据库配置错误、“内鬼”、网站漏洞等成为主要因素。[1]

从处罚力度看,2019年,英国数据保护机构ICO分别对英国航空公司数据泄露事件和万豪集团数据泄露事件,开出1.83亿英镑(约合15.94 亿元人民币)和9900万英镑(约合 8.57 亿元人民币)的巨额罚单,处罚力度空前,威慑力和影响力大幅提升,数据与个人信息存储安全的重要性不言而喻。

我国《网络安全法》第42条对个人信息存储提出了原则性要求,其规定……网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失……《数据安全管理办法(征求意见稿)》第19条对个人信息存储应参照的标准和采取的措施进行了细化,其规定,网络运营者应当参照国家有关标准,采用数据分类、备份、加密等措施加强对个人信息和重要数据保护。《网络安全法》第64条明确了违反个人信息存储要求的责任后果,包括责令改正、警告、没收违法所得、处违法所得一倍以上十倍以下罚款,情节严重的,可以责令暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照。

接下来,我们将从个人信息分类分级、存储期限最小化、存储方式安全化和数据去标识化处理四个方面,探讨个人信息存储的安全要求。

(一)个人信息分类分级

大数据时代,个人信息具有更高的价值,保护个人信息已经成为共识。但需要指出的是,保护也需要区分程度,不同类型的个人信息对于个人信息主体的重要性不同,被泄露、非法提供或滥用造成的损害和后果也不同。如果统一采取过度保护的策略,反而会造成不必要的资源浪费,也可能会影响个人信息的正常流动和价值实现。因此,需要对个人信息分类分级,根据个人信息所属的类型和对应的级别,给予相适应的保护,这样方能更好地实现个人信息保护和利用的平衡。

一般来说,个人信息分类分级,系指依据各类各级信息的价值和安全风险,对用户个人信息按照内容进行分类,再根据各类信息的价值和安全风险进行分级,给予不同程度的保护,对网络运营者提出不同的行为要求。

1.数据分类分级原则

《大数据安全管理指南》第7.1条明确了数据分类分级的原则,具体如下:

(1)科学性

按照数据的多维特征及其相互间逻辑关联进行科学和系统的分类,按照大数据安全需求确定数据的安全等级。

(2)稳定性

应以数据最稳定的特征和属性为依据制定分类和分级方案。

(3)实用性

数据分类要确保每个类下有数据,不设没有意义的类目,数据类目划分要符合对数据分类的普遍认识。数据分级要确保分级结果能够为数据保护提供有效信息,应提出分级安全要求。

(4)扩展性

数据分类和分级方案在总体上应具有概括性和包容性,能够针对组织各种类型数据开展分类和分级,并满足将来可能出现的数据的分类和分级要求。

2.数据分类分级流程

《大数据安全管理指南》第7.2条明确了数据分类分级流程,具体如下:

网络运营者应结合自身业务特点,针对采集、存储和处理的数据,制定数据分类分级规范,规范应包含但不限于以下内容:a)数据分类方法及指南;b)数据分级详细清单,包含每类数据的初始安全级别;c)数据分级保护的安全要求。

网络运营者可以参考下图的流程对数据进行分类分级。应根据数据分类分级规范对数据进行分类;为分类的数据设定初始安全级别;综合分析业务、安全风险、安全措施等因素后,评估初始安全级别是否满足大数据安全需求,对不恰当的数据分级进行调整,并确定数据的最终安全级别。

图示

3.依据内容进行个人信息分类

(1)《个人信息安全规范》分类参考

《个人信息安全规范》划分了个人信息和个人敏感信息两大信息类型,并在附录A和附录B对个人信息和个人敏感信息进行了更加细化的分类,具体如下:

1)个人信息

《个人信息安全规范》附录A规定,个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,如姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信通讯联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。

判定某项信息是否属于个人信息,应考虑以下两条路径:一是识别,即从信息到个人,由信息本身的特殊性识别出特定自然人,个人信息应有助于识别出特定个人。二是关联,即从个人到信息,如已知特定自然人,由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。符合上述两种情形之一的信息,均应判定为个人信息。

在该附录A中,进行了个人信息的分类举例:

图示

2)个人敏感信息

《个人信息安全规范》附录B规定,个人敏感信息是指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。通常情况下,14岁以下(含)儿童的个人信息和自然人的隐私信息属于个人敏感信息。

对于是否属于个人敏感信息,可从以下角度判定:

泄露:个人信息一旦泄露,将导致个人信息主体及收集、使用个人信息的组织和机构丧失对个人信息的控制能力,造成个人信息扩散范围和用途的不可控。某些个人信息在泄露后,被以违背个人信息主体意愿的方式直接使用或与其他信息进行关联分析,可能对个人信息主体权益带来重大风险,应判定为个人敏感信息。例如,个人信息主体的身份证复印件被他人用于手机号卡实名登记、银行账户开户办卡等。

非法提供:某些个人信息仅因在个人信息主体授权同意范围外扩散,即可对个人信息主体权益带来重大风险,应判定为个人敏感信息。例如,性取向、存款信息、传染病史等。

滥用:某些个人信息在被超出授权合理界限时使用(如变更处理目的、扩大处理范围等),可能对个人信息主体权益带来重大风险,应判定为个人敏感信息。例如,在未取得个人信息主体授权时,将健康信息用于保险公司营销和确定个体保费高低。

在该附录B中,进行了个人敏感信息的分类举例:

图示

(2)《大数据安全管理指南》分类参考

《大数据安全管理指南》在第7条明确了数据分类分级的要求,并在其附录A,依据支撑电信业务的业务支撑域系统(B域)、网络支撑域系统(O域)、管理信息域系统(M域)、信令/DPI数据系统、业务管理平台五大领域的数据,对电信行业数据分类进行了示例,具体如下:

图示

(3)《个人金融信息保护技术规范》分类参考

《个人金融信息保护技术规范》在第4.1条对个人金融信息进行了分类,具体如下:

图示

续表

图示

4.依据保护需求对个人信息进行分级

在个人信息分类的基础上,依据保护需求对个人信息进行分级,不同等级对应不同的保护措施。《个人信息安全规范》区分个人信息和个人敏感信息,在进行个人信息分类的同时,也实际根据保护需求进行了分级,个人敏感信息的保护需求要明显高于个人信息。

当然,分级的方式不限于一种,不同的分级也需要对应具体的保护要求,这里提供《电信和互联网服务 用户个人信息保护分级指南》《大数据安全管理指南》和《个人金融信息保护技术规范》的三种分级要求,为大家提供分级的级别和级别对应保护要求的参考:

(1)《电信和互联网服务 用户个人信息保护分级指南》分级参考

图示

(2)《大数据安全管理指南》分级参考

《大数据安全管理指南》在第7条明确了数据分类分级的要求,并在其附录A依据个人信息保护需求和电信业务运行需要,对电信行业数据分级进行了示例,具体如下:

图示

(3)《个人金融信息保护技术规范》分级参考

《个人金融信息保护技术规范》在第4.2条,根据信息遭到未经授权的查看或未经授权的变更后所产生的影响和危害,将个人金融信息按敏感程度从高到低分为C3、C2、Cl三个类别,具体如下:

图示

(二)存储期限最小化

对于个人信息的存储时间,相当一部分网络运营者存在认识误区,觉得数据是资产,积累的数据越多在大数据时代越有话语权,所以希望将个人信息存储的时间拉长,甚至希望永久保存。之所以说是认识误区,我们可以结合存储期限最小化的要求来进行分析。

根据《个人信息安全规范》第6.1条规定,存储期限最小化具体包括如下两项要求:

1.个人信息存储期限应为实现个人信息主体授权使用目的所必需的最短时间,法律法规另有规定或者个人信息主体另行授权同意的除外

个人信息主体授权网络运营者处理个人信息,是为了实现个人信息主体的授权目的。在实现个人信息主体授权目的后继续存储个人信息,失去了合法性基础和合理的依据。

当然,法律法规另有规定或者个人信息主体另行授权同意的除外。例如,《征信业管理条例》第16规定,征信机构对个人不良信息的保存期限,自不良行为或者事件终止之日起为5年;超过5年的,应当予以删除……根据该条规定,征信机构对于个人不良信息的保存期限为自不良行为或者事件终止之日起为5年,而非实现个人信息主体授权使用目的所必需的最短时间。

2.超出个人信息的存储期限后,网络运营者应当对个人信息进行删除或匿名化处理

该条实际上是对超期处理方式的要求,《数据安全管理办法(征求意见稿)》第20条也作出了类似的规定,“网络运营者保存个人信息不应超出收集使用规则中的保存期限,用户注销账号后应当及时删除其个人信息,经过处理无法关联到特定个人且不能复原(以下称匿名化处理)的除外”。删除或匿名化处理的目的都在于,避免该等个人信息再次识别到特定的个人。从程度上说,删除是最彻底的方式,但匿名化的方式既能满足个人信息保护的要求,也一定程度上能够满足大数据发展的需求,因此这里提出了二者均可的要求。

当然,法律法规对于超期处理方式有特定规定的,需要遵循其要求。以前述《征信业管理条例》第16规定为例,个人不良信息超期后应该予以删除,匿名化处理是不符合该条要求的。

(三)存储方式安全化

《网络安全法》第42条和《数据安全管理办法(征求意见稿)》第19条强调的保护目的一致,即网络运营者应确保数据安全。安全是对网络运营者最基本也是最重要的要求之一,数据安全才能获得个人信息主体和监管部门的认可,方能更好地利用数据。

从《个人信息安全规范》的名称和范围就可以看出该规范对个人信息安全的重视程度,从名称看,直接强调安全规范,其核心就在于安全;从范围看,其第1条明确列明,本标准规范了开展收集、存储、使用、共享、转让、公开披露、删除等个人信息处理活动应遵循的原则和安全要求,同样在强调安全的要求。

1.安全需求

《个人信息安全规范》第4条明确了个人信息安全基本原则,其中f)即为确保安全原则,具体要求为具备与所面临的安全风险相匹配的安全能力,并采取足够的管理措施和技术手段,保护个人信息的保密性、完整性、可用性。根据《大数据安全管理指南》第6条,安全需求具体应考虑如下方面:

(1)保密性

大数据环境下的保密性需求应考虑以下几个方面:

a)数据传输的保密性,使用不同的安全协议保障数据采集、分发等操作中的传输保密要求;

b)数据存储的保密性,例如使用访问控制、加密机制等;

c)加密数据的运算,例如使用同态加密等算法;

d)数据汇聚时敏感性保护,例如通过数据隔离等机制确保汇聚大量数据时不暴露敏感信息;

e)个人信息的保护,例如通过数据匿名化使得个人信息主体无法被识别;

f)密钥的安全,应建立适合大数据环境的密钥管理系统。

(2)完整性

大数据环境下的完整性需求应考虑以下方面:

a)数据来源验证,应确保数据来自于已认证的数据源;

b)数据传输完整性,应确保大数据活动中的数据传输安全;

c)数据计算可靠性,应确保只对数据执行了期望的计算;

d)数据存储完整性,应确保分布式存储的数据及其副本的完整性;

e)数据可审计,应建立数据的细粒度审计机制。

(3)可用性

大数据环境下的可用性需求应考虑以下方面:

a)大数据平台抗攻击能力;

b)基于大数据的安全分析能力,如安全情报分析、数据驱动的误用检测、安全事件检测等;

c)大数据平台的容灾能力。

(4)其他需求

大数据安全除了考虑信息系统的保密性、完整性和可用性,还应该针对大数据的特点,从大数据活动的其他方面分析安全需求,包括但不限于:

a)与法律法规、国家战略、标准等的合规性;

b)可能产生的社会和公共安全影响,与文化的包容性;

c)跨组织之间数据共享;

d)跨境数据流动;

e)知识产权保护及数据价值保护。

2.具体措施

从具体要求看,《个人信息安全规范》在附录D个人信息保护政策模板中要求详细说明对个人信息进行安全保护的措施,包括但不限于个人信息完整性保护措施,个人信息传输、存储和备份过程的加密措施,个人信息访问、使用的授权和审计机制,个人信息的保留和删除机制等。

此外,还要求说明目前遵循的个人信息安全协议和取得的认证,包含目前主动遵循的国际或国内的个人信息安全法律、法规、标准、协议等,以及目前已取得的个人信息安全相关的权威独立机构认证。这里的个人信息安全相关的权威独立机构认证,常见的包括ISO27001信息安全管理体系认证、网络安全等级保护备案等。开展该等认证,在专业权威机构的测评和指导下,有助于发现在网络安全和个人信息安全上存在的问题,结合专业机构的指导意见进行整改和完善。整改合格取得认证后,一定程度上能够代表网络运营者的网络安全和个人信息安全能力,有助于增强公众和合作伙伴对自身网络安全和个人信息安全能力的认可。

对于数据处理各环节的要求,可以参考《大数据安全管理指南》第8条的规定,其规定了数据采集、数据存储、数据处理、数据分发以及数据删除环节的具体要求。其中,数据存储方面的安全要求为:

(1)将不同类别和级别的数据分开存储,并采取物理或逻辑隔离机制;

(2)遵守确保安全原则,主要考虑以下几个方面:1)存储架构安全;2)逻辑存储安全;3)存储访问控制;4)数据副本安全;5)数据归档安全;6)数据时效性管理。

(3)建立数据存储冗余策略和管理制度,及数据备份与恢复操作过程规范。

3.个人生物识别信息的特殊要求

(1)相关规定

根据《个人信息安全规范》第6.3 b)条,个人生物识别信息应与个人身份信息分开存储。根据《个人信息安全规范》第6.3 c)条,原则上不应存储原始个人生物识别信息(如样本、图像等),可采取的措施包括但不限于:1)仅存储个人生物识别信息的摘要信息;2)在采集终端中直接使用个人生物识别信息实现身份识别、认证等功能;3)在使用面部识别特征、指纹、掌纹、虹膜等实现识别身份、认证等功能后删除可提取个人生物识别信息的原始图像。

注2:摘要信息通常具有不可逆特点,无法回溯到原始信息。注3:个人信息控制者履行法律法规规定的义务相关的情形除外。

(2)理解适用

相较于征求意见稿,《个人信息安全规范》明确了原则上不应存储原始个人生物识别信息(如样本、图像等)的要求。这意味着,不存储原始个人生物识别信息是原则要求,一般来说不得突破。如果想要存储原始个人生物识别信息,需要有特别充分的依据。什么能够算是特别充分的依据?注3给出了一种依据,个人信息控制者履行法律法规规定的义务相关的情形除外,也就是说为了履行法律法规规定的义务可以存储原始个人生物识别信息,这个适用条件可以说已经很严苛了。

相较于征求意见稿,《个人信息安全规范》对存储个人生物识别信息提供了更多的路径参考。第一条可选路径,在采集终端中直接使用个人生物识别信息实现身份识别、认证等功能,意味着个人生物识别信息存储在用户的手机等采集终端,身份识别、认证等动作在用户的手机等终端上完成,而不需要将个人生物识别信息传送至企业,企业接收的只是该等信息验证的结果。比如,支付宝在其《隐私政策》(2019.12.11生效版本)中列明:“您需在您的设备上录入您的指纹信息或面容ID信息,在您进行指纹支付或面容ID支付时,您需在您的设备上完成信息验证。我们仅接收验证结果,并不收集您的指纹信息或面容ID信息。”第二条可选路径,在使用面部识别特征、指纹、掌纹、虹膜等实现识别身份、认证等功能后删除可提取个人生物识别信息的原始图像。意味着采集了个人生物识别信息的原始图像用于识别身份、认证等,但用完就删除原始图像,简单来说就是采集以后用了,用完就删除了。从删除时间来说,宜在用完个人信息后立即删除。

相较于征求意见稿,《个人信息安全规范》强调了个人生物识别信息摘要信息的不可逆性,即要求无法自摘要信息回溯到原始信息。如果摘要信息能够回溯到个人生物识别信息的原始信息,摘要的意义将不复存在,也是对不应存储原始个人生物识别信息(如样本、图像等)的原则要求的规避。

(四)数据去标识化处理

在大数据、云计算、万物互联的时代,基于数据的应用日益广泛,同时也带来了巨大的个人信息安全问题。保护个人信息安全和促进数据的共享使用二者需要平衡,而数据去标识化能够一定程度上实现二者的平衡,保护个人信息安全的同时维护数据的应用价值。

根据《个人信息去标识化指南》第3.3条规定,去标识化系指通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。该条在注的部分明确,去标识化旨在去除标识符与个人信息主体之间的关联性。

1.去标识化原则要求

根据《个人信息去标识化指南》第4.2条,去标识化应遵循如下原则:

(1)合规

应满足我国法律法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律法规和标准规范。

(2)个人信息安全保护优先

应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值。

(3)技术和管理相结合

根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(比如密钥、映射表等)采取有效的安全防护措施等。

(4)充分应用软件工具

针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率,保证有效性。

(5)持续改进

在完成去标识化工作后须进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。

2.去标识化过程

根据《个人信息去标识化指南》第5条,去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查。具体流程如下图所示,具体步骤的详细要求请参考该指南第5.2条到第5.6条规定:

图示

3.常用去标识化技术

根据《个人信息去标识化指南》附录A,去标识化技术包括:

(1)统计技术

统计技术是一种对数据集进行去标识化或提升去标识化技术有效性的常用方法,主要包含数据抽样和数据聚合两种技术。

(2)密码技术

去标识化使用的密码技术应遵循国家密码管理相关规定,具体包括确定性加密、保序加密、保留格式加密、同态加密、同态秘密共享。

(3)抑制技术

抑制技术即对不满足隐私保护的数据项删除,不进行发布。包括对从所有记录中选定的属性(如屏蔽)、所选定的属性值(例如,局部抑制)或是从数据集中选定的记录(例如,记录抑制)进行的删除操作。抑制技术主要适用于分类数据。

(4)假名化技术

假名化技术是一种使用假名替换直接标识(或其他准标识符)的去标识化技术。假名化技术为每一个人信息主体创建唯一的标识符,以取代原来的直接标识或准标识符。不同数据集中的相关记录在进行假名化处理后依然可以进行关联,并且不会泄露个人信息主体的身份。假名创建技术主要包括独立于标识符的假名创建技术和基于密码技术的标识符派生假名创建技术。

(5)泛化技术

泛化技术是指一种降低数据集中所选属性粒度的去标识化技术,对数据进行更概括、抽象的描述。泛化技术实现简单,能保护记录级数据的真实性。泛化技术具体包括取证和顶层与底层编码技术。

(6)随机化技术

随机化技术作为一种去标识化技术类别,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值。该过程降低了攻击者从同一数据记录中根据其他属性值推导出某一属性值的能力。随机化技术包括噪声添加、置换、微聚集技术。

(7)数据合成技术

数据合成是一种以人工方式产生微数据的方法,用以表示预定义的统计数据模型。

上述去标识化技术的具体内容,请参见《个人信息去标识化指南》附录A的A1-A7。

4.其他

(1)常用去标识化模型

常用去标识化模型包括K-匿名模型、差分隐私模型,具体内容请参见《个人信息去标识化指南》附录B。

(2)常用标识符的去标识化参考

常用标识符包括姓名、身份证号码、银行卡号、地址、电话号码、数值型标识符、日期、地理位置,该等标识符的去标识化参考,请参见《个人信息去标识化指南》附录C的第C.2条。