2.2 人工智能、机器学习和深度学习的相关挑战

2.2 人工智能、机器学习和深度学习的相关挑战

人工智能(AI)的进步带来了各行各业和各类应用的创新。随着数据量的增加,已经形成适用于诸多情形的充足数据,可用于训练算法,强化学习模型的性能[19][20]。深度学习算法依靠此海量数据集训练并完善AI学习模型[21][22],随着深度学习算法的日益复杂,可将迥异的数据源加以关联,从而强化预测性分析[23][24]。亦可关联跨领域、跨活动的多种“跟踪数据”(如网络搜索、Alexa或Google Home跟踪设备)。以健康领域而言,不受HIPAA(美国健康数据隐私法案)保护的数据“可与其他来源——包括医疗保健提供方和制药公司个人信息相结合,从而造成歧视性分析、操纵性营销和数据泄露等潜在危害”[25]

Pasquale将深度学习描述为一个“黑匣子”,复杂的算法令过程变得不透明。[26]虽然在创建可解释的机器学习和人工智能方面已经有了一些尝试,但人类对此抽象过程的理解及其在现实世界中的应用仍然存在问题[27]。这种不透明现象日益受到西方学者的质疑。Burrell认为算法不透明主要有三大类:①可能是“公司或机构刻意的自我保护和隐瞒”[28],旨在保护知识产权和竞争优势;②人工智能系统的评估方可能缺乏必要的专业编码技能,无法理解系统的工作原理;③机器学习/深度学习的规模和复杂度超出了人们的理解范围。缺乏透明日益成为许多领域和应用中开发和部署深度学习算法的固有问题[29]

不透明也模糊了数据使用的目的和结果。正如Barocas和Selbst指出的那样,歧视通常是“使用算法时无意造成的意外情况,而非程序员的有意选择,但可能难以确定问题的根源或向法院进行解释”[30]。在有法可依的情况下,有必要明确、全面地阐述监管要求,监管机构亦须有能力展开合规监督[31]

即使在拥有健全数据保护制度的领域,如欧盟的《通用数据保护条例》(GDPR)[32],可能也不足以解决机器学习的数据使用问题。训练深度学习算法所需的数据规模和数据范围及上文所述的算法不透明令准确、全面制定数据使用规则并开展合规监督变得复杂[33][34][35]。例如,GDPR第22条第(1)款涉及“用于自主决策的个人数据”,指出数据的收集只能用于“特定的、明确的、合法的目的,不得进行不符合该目的的后续处理”[36]。这很可能与训练深度学习模型所需的大量数据发生冲突[37]