大数据和数据信息保护
随着互联网上信息总量的不断增加,人们对互联网的利用开始从信息技术主导向数据技术主导转变,“大数据”一词渐渐成为一个专有名词,大数据信息保护的重要性也日益凸显。
(一)大数据
1.大数据的特点
大数据是指网民在互联网保留下来的海量数据。大数据的特点可以总结为“5V”,即“Volume”“Velocity”“Variety”“Value”“Veracity”,分别指量大、速快、样多、有价值和更真实。
从体量上,互联网上的数据量已从拍字节(Petabyte,简称TB,1PB=1 024TB=2^50字节)级别达到了艾字节(Exabytes,简称EB,1EB=1 024PB==2^60字节)级别,挺进了泽字节(ZettaByte,简称ZB,1ZB=1 024EB==2^70字节)级别时代;
从速度上,电子的速度接近光速,所以一般小规模的数据分析常常是1秒完成;
从种类上,大数据类型繁多庞杂,包含各种各样的微内容;
从价值上,大数据可以用于了解甚至控制用户行为,从而帮助了解和甚至控制社会的一些方面,而且相比人工的统计方法,由于其自动化程度高,所消耗的成本更低;
从真实性上,大数据得出的结果和结论一般更为全面客观。
互联网用户在网上的所有独立数据,比如微信中的每一个“赞”、微博中的每一条评论甚至每一次看似随意的点击,都构成互联网的“微内容”。所有的微内容加在一起,里面的很多细节都可以用来进行整合分析,从而归纳总结出用户使用网络中显现的倾向性。
2.大数据的意义
数据量规模不大的时候,数据的意义并不明显,但是当数据量达到了一定的程度,通过一些算法就可以从中构建相对精准的用户画像。用户画像是根据用户的静态基本属性和动态行为数据来构建一个可标签化的用户模型。其中静态属性包括个人基本信息,如所在地域、年龄、性别、家庭信息、工作信息等;动态行为包括点击、购买、支付、浏览、评论等在网上进行的一切活动。标签化指的是将某些特点归类,从而在做一些推送时可以有的放矢地只针对最有需要或最有可能采取行动的人群。
曾任亚马逊首席科学家及阿里巴巴数据顾问的德雷斯·韦思岸(Andreas Weigend)曾教会机器一个“理解”人类的方法:获知一个用户地址后,还要抓取这个地址周围5公里内的书店分布状况,因为这可以用来预测用户有多大概率会在亚马逊买书、会在什么情况下买书。这条准则后来被应用到了阿里巴巴的数据分析实践,所以当淘宝知道距离你家5分钟步行路程内有超市的时候,网站就不会频繁向你推荐油盐酱醋,但是它分析你的搜索记录,获知你皮肤状况,若离你家15分钟步行路程内的商场都没有你习惯用的护肤品,那么,这些商品将会出现在你的屏幕上。[15]
社交网络Facebook的“lookalike”算法,在以“种子用户”挖掘潜在客户方面行之有效。任何公司想做推广,只需提供100个老用户的资料。lookalike算法会将这100个老用户视为种子用户,然后训练分类模型,用模型对所有候选对象进行筛选,利用社交网络进行人群扩散,将种子人群标签传给社区中的好友,这样就会找到许多与这些种子用户有相似生活背景和行为习惯的人。这些人可能根本没有买过或想要买此种产品,但是基于他们与种子用户生活背景和行为习惯的相似性,此类人群更有可能在收到推送的广告信息后产生对这种产品的购买意愿。
(二)数据信息被滥用和盗用问题
2017年,上海社会科学院互联网研究中心综合分析国内外重大数据安全事件发现,大数据信息被滥用和盗用呈现以下特点:风险成因复杂交织,既有外部攻击,也有内部泄露,既有技术漏洞,也有管理缺陷;既有新技术新模式触发的新风险,也有传统安全问题的持续触发。威胁范围全域覆盖,大数据安全威胁渗透在数据生产、流通和消费等大数据产业链的各个环节,包括数据源的提供者、大数据加工平台提供者、大数据分析服务提供者等各类主体都是威胁源。事件影响重大深远,数据云端化存储导致数据风险呈现集聚和极化效应,一旦发生数据泄露等其影响都将超越技术范畴和组织边界,对经济、政治和社会等领域产生影响,包括产生重大财产损失、威胁生命安全和改变政治进程。[16]
1.数据竞争
数据本身是一个非常大而开放的概念,当其具有了价值,特别是商业价值之后,与作为知识产权客体的知识产品就具有非常相似的特性。数据是新闻生产的新思维、新资源,未来的媒体竞争,将是数据平台与数据采集、处理能力的竞争。[17]物理意义上的无形性与可传输性和经济意义上的可复制性与可利用性,使得数据和许多知识型信息一样,有着法律意义的所有权和使用权。这种所有权和使用权的存在意味着二者之间有时会发生冲突。使用权方会本能地追求最低成本甚至无成本的利用数据,但是,对于数据的所有权方来说,数据平台的优势建立需要长期的成本投入,自然会要求得到相应的财产保护。当一些市场竞争者在未获数据平台方授权的情况下,非法抓取或秘密盗取平台数据,会直接影响数据原始平台方的核心商业利益,对于投入了巨大资本苦心积累起数据的平台方来说自然是不公平的。
当互联网从信息主导阶段发展到数据主导阶段后,行业的竞争形态也由产品服务竞争、平台生态竞争发展到数据竞争阶段。在国内,从2008年开始,大众点评诉爱帮网系列案件最早涉及了“数据竞争”的问题,大众点评指责爱帮网大量复制其网站内容,主要是商户介绍与用户点评内容信息。2013年百度诉360违反robots协议案、2015年新浪诉脉脉非法抓取微博用户数据案、2016年大众点评诉百度地图抓取用户点评信息案、2017年运满满诉货车帮盗取用户信息案,以及淘宝屏蔽百度搜索,顺丰与菜鸟有关物流数据接口的争议,新浪与今日头条有关微博内容爬取的争议,华为在Magic手机中利用微信用户聊天记录进行AI服务推荐等,这些争议无一例外,均与平台的海量数据有关。而在国外,有关数据竞争的争议已经延伸至反垄断领域。2017年6月,数据分析公司hiQ向加州北部法院提起诉讼,主张LinkedIn拥有市场支配地位,推动法院于8月份发出临时禁令,要求LinkedIn在24小时内容移除引人妨碍hiQ获取其公开数据的技术障碍。在此之前,2016年在评估批准微软公司以260亿美元收购LinkedIn的交易时,欧盟委员会重点关注领英的数据价值以及对手网站是否可以复制这些数据等问题。[18]
2017年11月4日,中国《反不正当竞争法》历时24年后首次修订,专设“互联网专条”用以规范和制约互联网行业竞争生态。
2.网络数据信息泄露对隐私权的影响
互联网的普及以及新媒体的发展,使得个人信息传播,收集,处理,交换呈现出爆炸式的发展。因此现代社会处于一个时时交换信息的时代,个人信息商品化是一个毋庸置疑的现象。个人信息商品化现象无疑具有其合理性,因为现代社会是一个分工明确、存在交换或交易的社会。对于企业而言,掌握越多的客户资料,进而精准营销,投放广告,信息的流动性越强,就越能占领市场,获得更多的利益。对于政府而言,政府治理也需要一定的基础资源。在一定程度上,个人信息商品化能够促进信息资源的流动,对企业发展,经济活力都有重大影响。但必须注意的是,促进个人信息商品化的前提是保护个人隐私权。个人信息商品化主要有两种形式,第一种是个人将信息作为商品直接转让给信息需求者,第二种是信息利用人出于商业目的将其掌握收集整理的个人信息作为商品售卖给个人信息收集者。第一种因为是出于自愿,所以不成问题。但是,第二种却可能会侵犯当事人的隐私权。
(1)网络隐私权。
网络隐私权并非一种全新的隐私权,它虽然有自己的特点,但这一概念是伴随着网络的出现而产生的,它更多地表现为现实社会中的隐私权在网络空间中的延续。
隐私权是一种人格权,它是伴随着人们自身的尊严、权利、价值的产生而出现的。最高人民法院在1988年《中华人民共和国民法通则》的司法解释中对侵犯隐私权的解释为:揭露或宣扬他人隐私的行为属侵犯他人名誉权的行为。它的基本含义为:公民自己的生活秘密与个人生活自由禁止他人干涉。
网络隐私权是隐私权在网络中的延伸,是指自然人在网上享有私人生活安宁,私人信息、私人空间和私人活动依法受到保护,不被他人非法侵犯、知悉、搜集、复制、利用和公开的一种人格权;也指禁止在网上泄露某些与个人相关的敏感信息,包括事实、图像以及诽谤等。简而言之,网络隐私权就是指个人在网络环境中在最少的干涉下顺应自己的意愿而生活的权利。
网络隐私权的核心是网络环境中当事人对自己隐私权利的控制。其主要内容包括个人信息资料搜集的知情权与选择权,个人信息资料的控制权、安全请求权以及利用限制权。[19]
网络个人信息资料搜集的知情权指的是在网络环境中,个人不仅有权知道是谁在搜集自己的个人信息资料、搜集了哪些个人信息资料、这些个人信息资料的表现形式是什么,而且还有权知道被搜集的个人信息资料是出于什么目的而被搜集,以及该个人信息资料将会与何人分享。
网络个人信息资料搜集的选择权是指个人有权许可或禁止某个或某些主体以任何方式搜集自己个人信息资料的权利。它主要体现在对个人信息资料的搜集和使用的环节上。
网络个人信息资料的控制权是指网络隐私权人有权通过合理的途径访问查阅被搜集和整理的网络个人信息资料,并针对错误的内容进行修改,对所缺少的必要的信息资料加以补充,对不需要的数据信息予以删除,以保证网络个人信息资料的准确、完整。
网络个人信息资料的安全请求权指的是个人有权要求网络个人信息资料的持有人采取必要的、合理的措施,保护用户的个人资料信息的安全。当网络个人信息资料的持有人拒绝采取必要措施或技术手段以保证网络个人信息资料的安全时,当事人有权提起诉讼或根据协议申请仲裁或向有关行政职能机构申诉获得行政强制力的支持。
网络个人信息资料的利用限制权是指搜集网络个人信息资料的主体要以向网络隐私权人提供服务或其他的利益作为对等代价,以实现对网络个人信息资料的利用。任何利用网络个人信息资料的行为,都要被限定在合理的范围内。
(2)网络隐私易受侵害的原因。
第一,数据存储和分析技术使用户处于弱势地位。
网络云技术[20]的普及使各种网云用户越来越多。网云用户们将自己的各种信息在云中备份,实际上却没有办法避免自己的资料或隐私被收集。虽然几乎所有提供云服务的企业都承诺尽量避免收集用户的资料和隐私,即使收集到也不会泄露或使用,但信息泄露事件的时有发生,还是让不少人对此持怀疑态度。
在现实的互联网使用中,由于马太效应一些大平台往往集聚最多的用户,而用户也常常不得不使用这些大平台,这导致用户对自己相关数据被搜集处于被动接受的状态,同时对平台如何记录分析处理自己的信息往往处于不知情的状态。一些巨头公司利用客户注册的信息、客户的浏览记录及喜好,掌握到关于每一个人的真实数据流,推算出用户的偏好记录及联系人记录等隐秘的信息。然后利用收集到的海量数据做成数据库,再把这些数据库商品化,出售给以研发名义购买的第三方。在这种情况下,机构与个人是强势与弱势的关系,信息强势方掌握较多的有效信息,信息弱势方则掌握的信息相对较少。随着信息数据的不断累积,机构组织与个人之间信息量的差异会越来越大,从而造成信息的授予者与接受者事实上处于不平等的地位。在信息的授予者发送出自己的私人信息后,信息即被占有,即使有契约关系名义上的保护,实际上个体数据主体难以对自己的信息及时跟踪把握与控制。
任何未经本人同意,收集、存储他人信息或非法传输他人资料,泄露他人的隐私,都是非法的。有些人可能觉得有些数据公开了也无所谓,但事实上任何数据对个人都可能产生影响。如在数据的使用上可能会出现这种情况:一个用户的健康数据标明此人血糖过高,其购物记录中却有大量高糖食品,评论透露是本人食用,运动软件显示其每天走路不过千步。这些数据如果在该用户求职时被招聘方获取,则可能得出此人自制力不强、生活习惯不健康的结论,使求职成功率大大降低。所以,一些看似不属于个人隐私的数据一旦被第三方掌握,仍可能被分析解读,产生当事人不希望导致的后果。
第二,网络传播的特征导致网络隐私更易受侵害。
绝对的网络私密实际上是不可能存在的。尽管一些用户在使用网名,但每一位用户在网络上即使是做出极其细小的行为,都会暴露其所处的位置,体现出一定的目的性。由于网络信息发布简单,能以极快的传播速度向大众传播,其速度之快、范围之广,往往超出个人的可控制范围,因此更易造成用户个人私密资料的泄露,既可能造成重大的物质损失,也有可能给用户身心造成巨大的伤害。
网民在通过网络进行收发电子邮件、网上购物、搜索查阅、评论转发、远程登录、远程文件传输等活动时,均可能在不知情的情况下,被他人非法收集个人信息,并用于非法用途。因为网络的使用者匿名居多,人数众多,因此并不是所有的信息在被窃取时都能立刻被发觉。由于网络更新速度很快,等到用户发现被侵权时,常常已经追查无门。因此,网络安全的侵权主体和手段比现实社会中更具有隐蔽性。
在互联网上,出售、购买个人信息一度是件十分容易的事,如刚购房的业主、刚购车的车主,甚至刚生完小孩的家庭的联系方式,都可以打包购买。百度文库就曾被批是个人信息的“批发市场”。百度文库上曾有大量泄露各地用户信息的文档,全国各地大小业主的手机号、家庭地址等隐私,只要鼠标一点,就能免费到手。
有些机构受经济利益的驱使,专门组织技术攻关,搜集目标人群的隐私信息,供商业或其他用途。有的机构则监测用户使用习惯,利用Cookie[21]记录用户的互联网浏览记录、搜索记录等,然后有的放矢地向客户推送广告。如谷歌的一项广告业务可以让广告商锁定个人,在他们上网时即时跟踪他们,而谷歌可以在每笔广告销售中提成。比如,一个生活用纸公司在一个网民的支付记录中发现,这个网民每个月买某一品牌某几种型号的厨房用纸、纸巾和卫生纸,那么,它就可以每个月向这个网民发送自己的广告,而推荐的就是该网民平时用的那几种类型和价位的产品。这种广告发布的有效性较之撒网式当然要高出许多。
《华尔街日报》曾展开过一项深入的调查研究,对Cookie以及其他各种可用于监视互联网用户的技术进行评估和分析。结果发现,对消费者追踪行为的广度和侵入程度已远远超出人们的认知,只有该行业的少数前沿人士才知道实情。全美最大的50家网站在每个访问者的电脑上平均安装了64种追踪技术,而且通常都不给任何提示。约有十多家网站安装的追踪技术甚至超过上百种。而且,追踪技术变得越来越巧妙,越来越具侵略性。此外,新的监测工具会实时扫描人们的在线操作,然后立即对其所在地、收入、购物兴趣,甚至健康状况等信息进行评估。一些工具甚至可以在用户试图删除它们时悄悄地自我复制。随后,这些用户的个人资料在各种类似股市的交易所里进行买卖,而广告商心甘情愿地多付钱以获得更有针对性的营销信息。
第三,社交网络和App的流行使隐私泄密更加容易。
自从网络进入Web2.0时代,社交网络的流行让这种个人隐私的泄密变得更加容易,也导致更多隐私泄密。社交网站的实名制或准实名制使与用户相关的大量个人信息暴露在网络空间里,使任何用户都可以搜索到一些目标人物的部分信息。比如,一个人在网上结交了一个朋友,在见面之前,他可以利用网络尽可能多地搜集关于这个人的一切资料和相关信息。对于搜索者来说,这让他可以从多角度了解新交的网友;但是,对于被搜索者来说,不管是愿意还是不愿意,自己的信息都被他人知晓,可能在心理上并不会觉得舒服。
加拿大卡尔加里大学的几位学者曾做过一项统计调查,对比了美国六大SNS网站——Facebook、LinkedIn、MySpace、Orkut、Twitter以及YouTube之间的隐私保护政策。研究结果表明,六大SNS网站的隐私政策包含四个层面的内容:信息获取合理化(第三方获取用户资料的合理理由),信息可见度(信息向谁公开、公开哪一部分),信息匹配精确度(与检索词匹配的用户信息)和服务器缓存信息。最终结论是,六大SNS网站对用户隐私的保护大多着力于获取用户信息的理由和信息可见度,对于信息匹配度和服务器缓存信息的保护则是几乎没有。
2010年7月,社交网络Facebook的五亿用户中的一亿人的详细信息被营销者“泄露”到互联网上,引起了人们对隐私问题的极度担心。这个作为可下载文件发表的名单包含每一个可搜索到的Facebook用户的个人简介、姓名和有独特ID的URL地址。这些事件使社交网络网站管理者在隐私设置问题上面临越来越大的压力。
2018年,Facebook再次被爆出有超过5 000万(后证实为多达8 700万)用户的个人数据未经同意被一家“剑桥分析”公司搜集,用以建立模型来分析政治偏好,并在2016年美国大选期间投放精准的政治广告。剑桥分析的创始人、CEO亚历山大·尼克斯(Alexander Nix)说:“只要给我68个在Facebook上的点赞,我就可以推测出这个人的肤色、性向、政治倾向、智力水平、宗教偏好、是否饮酒或吸毒,乃至父母是否离异等一切信息。”他声称在特朗普竞选及英国脱欧等一系列重大事件中,该公司利用网民个人档案将用户群体进行分类,进而推送一些引导性的信息,暗中影响了民意的选择。如,美国一个叫“小海地”的地方,居民多为黑人,总体上不太关注政治。但是在尼克斯向当地人大量推送了有关希拉里夫妇的基金会在海地地震后滥用救灾款的信息后,这个地方的人几乎全数把票投给了川普。
该事件引发巨大震动,它让人们意识到在网络时代,一旦个人的信息被大量掌握,这些大数据就可能成为被分析的对象,反过来被用以操控人的思想、意识和行为。在民众愤怒的声讨中,Facebook立刻关闭了该公司的接口,并在全平台上封停其账号。即便如此,Facebook股价市值一夜之间蒸发367亿美元,CEO马克·扎克伯格被要求参加了一场由美国参议院商务、科学与交通委员会和参议院司法委员会的联合听证。扎克伯格被44位议员轮番轰炸长达近5个小时,听证全程全球直播。2018年5月“剑桥分析”公司直接申请破产。
2018年8月29日中国消费者协会发布的《App个人信息泄露情况调查报告》显示,超八成受访者曾遭遇个人信息泄露问题;据全国消协组织受理消费者投诉情况统计,2018年上半年,电商平台、社交平台软件等非法搜集消费者个人信息现象已成投诉新热点。个人信息泄露的主要途径包括:一是经营者未经本人同意收集个人信息,约占62.2%;二是经营者或者不法分子故意泄露、出售或者非法向他人提供个人信息,约占60.6%;网络服务系统存有漏洞造成信息泄露约占57.4%。
3.利用数据信息的违法犯罪
随着社会各个行业和机构之间的联网,利用网络数据进行犯罪的活动越来越多,每年给全球带来的经济损失数以十亿美元计。与传统的犯罪相比,利用泄露数据进行的犯罪范围较广,隐蔽性强,因为通过事先获得的数据常常能够准确描述受害者的社会关系,往往更容易赢得受害者的信任,让人放松警惕,落入陷阱。由于网络犯罪大都是通过对程序和数据等信息的操作来实现的,犯罪行为实施后对信息载体不会造成任何损坏,所以有时很难被发现。但是一个个案例表明,此类犯罪给受害人带来的后果极其严重。
2016年,山东省临沂市徐某考取了南京邮电大学。在距开学十余天时,徐某接到一个电话称有笔助学金要发放。由于对方提供了姓名、学校、家庭地址等信息,徐某并未生疑,根据指示冒雨骑车到家附近的自动柜员机,将存有学费9 900元的银行卡全额提现,存入到对方指定的助学金账号进行激活。徐某再拨打对方电话时发现对方已经关机,才惊觉被骗,后因郁结于心导致心脏骤停不幸离世。受害人之所以会放松警惕受骗上当,很大程度上在于对方竟然知道她申请过助学金。
徐某被骗案中存在一条数据窃取和转卖链条:上游负责盗取相关数据信息,然后卖给信息收购者,最终特定精确信息被用来实施“精准诈骗”。此案信息泄露源于四川成都的杜某在测试网站漏洞时发现山东高考考生信息,通过植入木马等方式获取权限后,他在数据库中窃取了64万余条山东考生的信息,最终出售了十万余条,获利共计14 000余元。后徐某被诈骗致死案主犯被判处无期徒刑,盗卖数据的杜某被指控非法获取公民个人信息罪名成立,被判有期徒刑6年,并处罚金6万元。
类似事件并不是孤例,不仅与数据泄露相关的案件数量呈上升趋势,而且许多后果都非常严重。就在徐某被诈骗致死案之后的第三天,山东省临沂市又一名家境贫寒的考生也遇到了类似的电信诈骗,该男生也因承受不了沉重的压力,于当日夜间不幸离开了人世。几乎是同时,广东一名19岁的女大学生蔡某遭遇网络诈骗,被骗走家里省吃俭用攒下的9 800元学费,由于无法承受打击,留下遗书后跳海自尽。不过网络犯罪一般来说还是总会在网上留下电子足迹,不久蔡某被诈骗致死案七名被告被抓获归案,主犯亦被以诈骗罪判处无期徒刑。但是侦破此类案件的成本非常高昂,如徐某被诈骗致死案警方虽然仅7天即破案,但投入高达2 000万元。
在发生多起因数据泄露至当事人被诈骗致死案后,公安与金融部门也实施了一系列的整改措施。2016年9月,公安部在北京成立了“打击治理电信网络新型违法犯罪查控中心”,此外在上海、苏州、金华、厦门、深圳、珠海建立了6个研判中心,同时在阿里巴巴集团和腾讯公司建立了2个防控中心。2016年12月2日,名为《加强支付结算管理防范电信网络新型违法犯罪有关事项的通知》的央行261号文件落地,新规规定同一个人在同一家银行只能办理一张I类账户的借记卡;而给他人或跨行通过ATM机转账,在24小时内可以撤消。
在徐某被诈骗致死案发生4个月后,有记者曝光了数据信息黑色产业链,个人信息买卖的猖獗程度为公众所震惊,一时报道中的“700元买到开房记录”上了热搜。裁判文书网的公开判例显示,因涉嫌泄露公民个人信息而被判刑的案例屡见不鲜。被泄露的个人信息范围广泛,涉及网购记录、车主、业主、楼主、酒店住宿、12306注册信息、个人简历以及网络注册账号、密码等。在倒卖过程中,QQ群、微信群成了违法信息交易的主要渠道。利用事先获得相关数据信息,然后冒充公检法、领导、客服退款、兼职刷单、航空公司机票改签等“精准诈骗”威胁着网络时代的个人信息和隐私安全。据阿里安全归零实验室统计,2018年内活跃的专业技术黑客灰色产业平台多达数百个。服务专业化导致技术平民化,低廉价格让黑客犯罪成本逐步降低。对于黑灰产的分工,丁牛科技CEO姜海曾统计发现已涉及15个工种,有150万人参与,交易规模达到千亿。根据《2018网络黑灰产治理研究报告》,网络黑灰产已经形成了平台化、专业化、精细化、相互独立,紧密协作的产业链,包括技术类黑灰产、源头类黑灰产、非法交易类黑灰产,及各类违法犯罪黑灰产。
由于互联网将世界连接成了一个“地球村”,一些网络犯罪也可以跨境。2017年12月21日,北京市二中院判决了一起85人特大跨境电信诈骗案。被告人张某闵等50人于2015年6月至2016年4月间,被告人张某祥等35人于2014年6月至11月间,先后在印度尼西亚、肯尼亚参加针对中国大陆居民进行电信诈骗的犯罪集团,利用电信网络技术手段对中国大陆居民进行语音群呼,虚构被害人因个人信息泄露而涉嫌犯罪等虚假事实,以需要接受审查、资产保全等名义,骗取被害人个人及银行账户信息,诱使被害人向指定的银行账户转账汇款,或者要求被害人同意由他人远程控制被害人的电子银行账户,总计骗取185名被害人钱款2 900余万元。法院以诈骗罪判处张某闵等主犯有期徒刑15年,判处其他83人有期徒刑1年9个月至14年不等刑罚。在此“精准诈骗”案中,犯罪分子把窝点设在东非的肯尼亚,通过数据分析对被害人进行初步筛选,选出最容易上当的人,分析出受害人姓名、工作单位、兴趣爱好、家庭情况,然后根据相关信息有针对性地给每一个被害人设计剧本,通过得到被害人的依赖后引他们一步步上套。
但是即使一些机构对保护用户隐私非常重视,在技术层面上和管理结构上的任何疏忽都仍然有可能导致重大的数据安全事故。2017年3月,京东与腾讯的安全团队联手协助公安部破获一起特大盗窃贩卖公民个人信息案。该案主要犯罪嫌疑人为京东员工,该员工2016年6月底才入职,虽处于试用期,却盗取涉及交通、物流、医疗、社交、银行等个人信息50亿条,然后通过各种方式在网络黑市贩卖。所以要保护数据安全需要防微杜渐,在各个层次上都严格规范地防止用户信息泄露。
(三)数据信息的保护
数据信息作为一种资源具有共享性,如果完全禁止其流动和共享,则数据会失去价值。共享可以使数据增值,但是过度共享也可能导致数据贬值及产生各种危害。数据信息安全的实质就是保证信息的安全性,即保护信息的价值不受到损害,免受各种侵入、盗取和非法利用。
在技术和管理上对抗此类数据安全问题国外有些做法值得借鉴,比如在英国,有专门保护个人隐私的公共机构,直接向英国国会报告。根据数据管理者登记制度,每个处理个人信息的机构都要在信息专员办公室登记,否则就算为刑事犯罪。很多公司也有谨慎的数据使用哲学。谷歌会把用户的姓名、账号、联系方式、地址等信息,与行为数据完全分开,不会将两者关联使用。雅虎有专门的研究员,在实践中界定数据搜集的隐私边界。许多数据科学家将自己设计的隐私保护对策详细公布在论文中,有人将分散信息流控制和差分隐私保护技术应用到云计算,还有人通过模糊处理技术对用户隐私全程加密,还有一种有效的操作方法是制造噪音,根据用户历史记录制造等比例的行为噪音,这样试图解读用户行为的服务商就很难辨别哪个是用户真实需求,哪个是系统制造的噪音,从而保护真实的用户隐私。
数据是个双刃剑,利用得好,经常可以及时发现或预测到一些重大事件的发生,如2008年9月15日,美国雷曼兄弟公司宣告破产,引发次贷危机,而最早察觉到这件事的是求职类网站LinkedIn的数据科学家。他们注意到,9月14日明明是一个周末,网站数据却十分活跃,不断有人疯狂联系工作、更新简历、发送消息,通过对数据的追查,他们发现所有这些行为都来自雷曼兄弟的员工。现在,“实施国家大数据战略,推进数据资源开放共享”已被纳入“十三五”规划,大数据在交通物流等领域为了解预测情况、提高管理水平立下了汗马功劳。但是,对数据信息如果保护得不到位,让一些不该泄露的数据被不法分子所获取,则极有可能引发影响范围巨大的犯罪,继而导致网民们对互联网的信任危机。因此对数据的利用应当切实处于对数据安全的保护范围内,既要充分发挥大数据的作用,也防止相关数据被滥用。