2.1 大数据相关挑战

2.1 大数据相关挑战

“大数据”一词用于描述包括实时用户数据在内的非常庞大且复杂的数据集。大数据不仅仅意味着数据集更大,因为还需要新的数据管理工具和分析,对自然和科学过程以及人的行为进行建模和预测。通过互联网监控技术(如网络搜索、手机、基于位置的服务、面部识别)收集的个人数据越来越多地来自物联网技术,包括现代汽车、住宅智能读表和丰富的智能电器。这导致了新型数据的收集和数据量的大量增加。

由于此类数据的汇总和挖掘,人们得以对敏感的个人信息进行推断,进而可能对个人加以区别对待(包括受美国民权法保护的阶层)影响其寻求住房、移民资格、保险、医疗保健或就业[13][14]。特定时刻的物理位置、商店收据、消费的媒体、短暂的社交互动等信息若单独来看,可能不会揭示广泛的个人信息,但通过大数据分析,便可做出相应判断,可能对个人或社会群体产生有害或不利影响。

许多美国公司都寻求积累和销售个人数据,已经出现了一类在公开市场上收集和销售消费者信息的综合性数据汇聚企业。Experian是一家主要的信用报告机构和数据经纪商,出售“‘数据丰富化’服务,提供与特定IP地址相关的‘数百种属性’,如年龄、职业和‘财富指标’”[15]。数据经纪商idiCORE搜集了每个美国公民的信息,包括以下个人信息:

所有已知地址、电话号码和电子邮箱地址;买卖的各套房产,包括相关按揭抵押;曾经和现在拥有的车辆;从超速罚单到各类犯罪传票;选民登记;狩猎许可;邻居的姓名和电话。此类报告还包括私营公司利用车牌自动识别器拍摄的车辆照片——数十亿张带有GPS坐标和时间戳的快照,用以帮助PI(私家侦探)进行人员监控或推翻不在场证明。[16]

即使联邦或州政府法律要求从个人数据中剥离可识别个人身份的信息,高级的分析手段仍可能重新识别出身份信息[17]。此外,通过删除或避免采集某些社会类别的内容(如性别或种族)以保护敏感个人信息的做法实际上可能“令偏见更难以被发现,从而加剧歧视现象”[18]