继承了种族与性别歧视的算法
这当中最关键,也是政治上最敏感的,就是司法制度中的不平等。美国司法系统中,从保释金的数额,到决定是否可以采用社区服务来代替收监服刑,再到刑期长短,在每一个环节都会对犯人进行打分,这个最终的“风险评估”分值至关重要。在亚利桑那、弗吉尼亚、威斯康星等九个州,这个分数会呈报给法官,作为宣判的重要参考依据。如今,风险评估的评分流程越来越依靠计算机算法来生成,这也引发了人们对机器涉嫌种族歧视的担忧。2014年,奥巴马政府的司法部长霍尔德(Eric Holder)指出司法系统有必要对“风险评估”本身进行评估,他认为尽管评分这一做法初衷是好的,但很有可能不经意地侵害公正平等,使美国司法体系中本就已经普遍存在的区别对待更为恶化。
风险评估在美国司法系统由来已久,一直到20世纪70年代,种族、国籍、肤色深浅都被公然用于预测罪犯二度犯罪的几率,后来因为遭到民意反对才被搁置。但是20世纪80年代美国经历犯罪潮,监狱人口大幅攀升使司法系统承压,预测犯罪风险的数据工具再次受到青睐。21世纪起,私营科技公司开始为司法系统打造此类工具,以求为司法程序提供便捷可靠的数字依据,从而减少入狱人数,缓解监狱的人口压力。以弗吉尼亚州为例,2002年起该州在全州范围内开始对非暴力重罪犯进行风险评估。2005—2015年间,弗州监狱人口的增长从1995年的31%下降至5%;2014年间,近半数的罪犯被指派在监狱之外进行改造,风险评估的数字工具显然是有效的。
然而,新闻调查组织ProPublica追踪了佛罗里达州布罗瓦德郡2013—2014年间的7 000个案例,得出了耐人寻味的结论。调查发现,该郡采用的风险评估算法极不可靠。被评定为会发生暴力犯罪的人中,只有20%的人在此后两年内发生了再犯;如果把所有的犯罪种类都算在内,包括持过期驾照驾驶等,那么再犯概率是61%,和常识中再犯概率对半开的看法相差无几,这说明数字工具并未能得出显著优于常识的判断。此外,算法对不同种族区别对待的现象也很严重,黑人被错误标记为大概率再犯者的可能性两倍于白人。即便将前科这一要素剔除,该算法仍然认定:相较于白人,黑人再次暴力犯罪的概率要高77%。[2]对此,该数据工具的制造商Northpointe公开出面,否认它们的产品存在种族歧视的倾向,他们指出这一算法的核心数据由137个问题构成,这些问题要么靠问询被告人得出(例如,你是否在校期间与人打架),要么靠官方档案获得(例如,你的父母中是否有人曾经坐牢),被告的种族并不在提问之列,更没有被纳入计算中。[3]
要说Northpointe没有直接将种族作为评估再犯风险的变量之一,也不是完全不可信,但是他们所考量的因素中,有不少与被告的种族身份密切相关,例如房产权、就业、教育状况、收入水平等等。黑人在美国长期受到不公正的政治待遇,经济生活起点低,在一切以所谓自由市场为原则的美国社会,他们在资源占有方面全面落后于白人。换言之,无房、无业、无学历、低收入的人群中,本就黑人居多,当这些客观上提升再犯风险的因素被纳入计算中时,黑色人种自然会受到来自机器的“歧视”。有鉴于此,不少有多年从业经历的法官会倾向于不采信风险评估工具对被告犯罪概率的预测,而更倾向于发自于“人”的判断,将风险评估仅仅作为参考之一。人工智能并不是这一问题的制造者,但是它忠实地延续了这些问题,将它们呈现在人们面前,引发了强烈的道德不适。
性别平等问题同样不能免于沉重的历史包袱的影响。2014年,电商科技巨头亚马逊开发了一套人力资源管理系统,用人工智能对海量求职简历进行辨识、分析和筛选。正如顾客在线上给亚马逊的商品打分评级一样,该算法会给求职者打星,一星到五星不等。亚马逊曾经将这一智能系统视为人力资源领域的“圣杯”,对其寄予厚望,认为有了这套系统之后,招聘工作或许可以完全由机器代劳,只需要将一百份简历“丢过去”,机器就能选择最好的五位候选人,然后公司直接录用即可。
然而,这套系统在仅仅使用一年之后就出现了问题。由于基础数据取自亚马逊过去十年的员工资料,该算法分析归纳后得出了一个结论:相比起女性,男性是更为可靠的员工。这其实并不令人意外,因为硅谷的产业生态和人员构成原本就是男性主导的,人工智能自然会认为不选取女性求职者是有原因的。机器的计算不需要知道理由,只需要知道输出必须与此前的结果尽量保持一致,人类就会满意了。于是乎,这一系统在筛查关键词时,会对“女篮队”和“女性国际象棋俱乐部”等字眼做出惩罚性处置,对毕业于传统女校的求职者也会进行降级处理。亚马逊试图修复算法中存在的问题,毕竟这关乎整个公司的社会声誉,但是却始终不能彻底解决,最终不得不在2018年彻底放弃这套系统。亚马逊宣布,过去几年间,人力资源部门从未真的遵照这套智能系统的建议做出任何决定。[4]需要再次强调的是,人工智能并非价值观的制造者,它是偏见的继承者。美国人均收入中本就存在性别歧视的问题,宾州州立大学的一项研究发现,美国年收入达五万美元的女性数量只有男性人数的三分之一。[5]如果人工智能建立在这样的数据基础上,当然会学习形成不利于女性求职者的判断。
亚马逊早年的“翻车”没有阻挡人工智能在求职领域的应用。2018年,IBM公司为了调查高科技行业的人力资源宏观情况,与牛津大学经济系合作采访了2 139名人力资源主管和12 000余名公司骨干。他们发现,虽然企业理论上是看重合作精神、服从精神等“软能力”的,但是面对海量的求职资料,往往花在每一份材料上的时间也不过是6秒钟,到头来还是只把“硬实力”匆匆看上一眼。[6]也是在这样的背景之下,越来越多的科技企业开始在招募时采用人工智能作为辅助。根据求职平台领英(LinkedIn)2018年的调查,在9 000名人力资源从业者中,76%的从业者坦陈人工智能在他们未来几年的工作中将占有一席之地。但他们也都指出,人工智能虽然能在考察“硬能力”上节约精力时间,但是仍然不能完全取代人的作用,因为用人单位对职业技能的多元性和求职人的多元性有要求,人工智能很难对这类内容加以辨识。如何衡量这些才能,如何做出尽可能公平的选择,这是人工智能在求职领域面临的难题。[7]
无论是对再度犯罪的风险评估,还是对纳贤用人的机器筛选,都是美国价值观中具有控制性一面的展现,它体现了用定量的方式对人进行解析和评价的意图。这种做法绝非诞生于人工智能兴起后的时代,可以说自美国建国伊始便形影相随。以种族问题为例,稻米和棉花经济是劳动密集型产业,欧洲移民供不应求,故而按照市场需要定量引入黑奴。奴隶制剥夺黑奴的社会属性,将其作为商品交易和保有,这是对劳动者的标准化、数字化认知。20世纪初,女性投票权运动风起云涌同样离不开这种价值观念。19世纪末美国第一代工业富豪们的遗孀依靠婚姻关系成为有产者,必然要对政治权利有所追求。可见无论是性别平等,还是种族平等,都是特定经济、科技背景下的产物。人工智能的失误与美国平等价值观之间的矛盾,并不是前所未见的新事物,而是之前就存有缺陷的平等价值观所带来的遗留问题,在新的科技语境下暴露了出来而已。