算法歧视的含义
什么是女性就业中的算法歧视?为了回答这个问题,首先需要界定算法的概念。《不列颠百科全书》将算法定义为“在有限步骤内回答或解决问题的系统程序”。[2]以这一定义来衡量,算法自从人类进入计算机时代以后就被大量运用于招聘过程中。最为常见的场景是:用人单位将求职者的信息输入计算机并形成数据,将对数据的评价规则编写成算法程序,再用程序处理数据,最终输出结果,根据结果作出人事决策。上述场景中的算法虽然能够以超出人工的效率来处理信息,但是缺乏自主获取信息的能力。其一,算法基本没有自主性,其内容由程序员事先编定,除非程序员作出调整,否则不会发生变化。这也意味着算法的内容是外界完全可以知晓和理解的,只须程序员将其公开并加以阐释即可。其二,因为输入的数据规模非常有限,算法很难从已知数据中准确推测未知信息。举例来说,如果单位没有采集求职者的婚育信息,那么算法就很难从工作经历、教育背景之类已知数据中准确推测求职者的婚育状况[3],也就无法实施性别歧视。本章将缺乏自主获取信息能力的算法称为“传统算法”。事实上,意大利的“算法歧视第一案”所涉及的就是传统算法。该案中,户户送公司主要采集骑手不在预定时间工作的次数,以及骑手在周末高峰时段送餐的次数,据此评价骑手的可靠性和参与性并形成评分,按照分数决定骑手是否有权在午餐时段接单。[4]这一算法简明易懂、事先公开且保持不变,并不推测任何未知信息,因此属于传统算法。除了运用计算机技术以外,使用传统算法实施的性别歧视与不使用算法的歧视并无本质差异。有学者据此认为,现有的反歧视法的逻辑也可以运用到算法歧视上。[5]
近年来,随着大数据和机器学习技术的应用,算法的自主获取信息能力获得了极大的提升。本章将能力提升后的算法称作“当代算法”,而当代算法才是算法歧视对于反歧视法构成挑战的原因所在。较之传统算法,当代算法的特点有二:(https://www.daowen.com)
其一,当代算法具有较强的自主性。当代算法仍然以回答或解决问题为目的,但是作为解决方案的内容不再是程序员事先编定的,而是计算机自主生成的。运用机器学习技术,计算机可以首先根据部分数据(训练数据集)建构一个初步的统计模型(算法),再运用新的数据来不断调试模型,直至模型的调整不再能够改善问题的解决为止。程序员的工作几乎仅限于给输入的数据设定特性、给输出的数据打上标记,而不干预算法的内容本身。机器学习的前沿类型是深度学习(deep learning),其特点是无须程序员给数据设定特性,算法本身即可通过比较数据筛选出有意义的特性。这意味着算法不仅会在自学中不断变化,而且其内容也可能无法被程序员、更无法被公众所理解,成为某种意义上的“黑箱”。[6]
其二,凭借大数据的输入,当代算法有能力从已知数据准确推测未知信息。大数据通常是指总量 (Volume)大、样态(Variety)多、变化(Velocity)快即具有所谓“3V”特征的数据集[7],它能够为算法的推测提供充分的线索。举例来说,即使单位没有采集求职者的婚育信息,如果大数据中包含了求职者的购物(是否购买女性用品等)、教育(是否报名参加早教培训班等)之类信息,算法仍然能够准确判断求职者是否已婚已育。这为算法实施性别歧视提供了可能。后文除非特别说明,使用“算法”一语时均指当代算法。