2.5 算法歧视
大数据分析已成为核心业务和运营职能的一部分[45]。在美国,越来越多的学者和政府机构对不公正的算法歧视表示关切[46][47][48][49]。
对算法风险评估的一个主要关切在于缺乏透明度。之所以成为问题,在于个人无法查看或纠正其个人数据中的错误,且如前文所述,算法不是透明的。因此,基于这些过程做出的决定可能是不公正且有害的。
在医疗保健领域,微软公司的研究人员发现可以通过分析一个人的网络搜索内容来预测其(未来)患胰腺癌的可能性[50]。虽然可以利用此技术来强化医疗保健,但出于对缺乏同意和隐私以及潜在滥用的关切,这仍是有问题的。举例而言,若将此预测分享给保险公司,保险公司因而拒绝承保,该如何处理?
大数据分析可能以若干方式背离其应有之义:①选择的目标变量与受保护内容的关联可能偏多;②取决训练实例好坏的过程中可能夹杂了当前或过去的偏见;③选取的特征集合过小;④样本可能不具有代表性;⑤未对各项特征进行深入分析[51]。
这些潜在误差中的每一项都有两个特点:事后才确定总体结果是不公平的,并且数据挖掘者做出的看似非歧视的选择中至少有一个产生的影响具有差别性。在数据挖掘“正确”的情况下,鉴于流程的切入点已经给定,数据挖掘者不可能比已有结果更加准确了;正是这种准确性令用于预测目标变量的属性呈不均匀分布,从而使结果产生了差别性影响。[52]
举例而言,算法决策如今被用于美国刑事司法系统的各个环节,有研究表明,在预测未来犯罪的可能性时,黑种人的预测错误率是白种人的两倍多[53]。
Barocas和Selbst注意到,在法律可能禁止采集或披露某些个人信息、或禁止基于种族等受保护的信息类别进行决策的情况下,可使用非受保护类的“代理”字段(即未明确受到保护的其他模式或基于数据的证据)来绕过此类限制。Barocas和Selbst对美国以流程为导向的民权法能否解决此差别性影响提出了质疑。[54]