8.1.2 强化学习机制

8.1.2 强化学习机制

斯金纳提出的操作性条件反射理论认为,人或动物将一定的行为输出至环境时,当行为产生的后果对其有利,这种行为就会在以后重复出现,而当行为产生的后果对自身不利,行为就会减弱甚至消失。人们通过这种正强化或负强化的方式来假定行为的后果,进而修正行为,这就是强化理论,也叫作行为修正理论。简言之,就是利用令人厌恶的刺激去纠正不正当的行为,用令人愉悦的刺激去强化正当的行为。

强化模式分为三部分:前因、行为和后果。前因是指在行为产生之前确定一个具有刺激作用的客观目标,指明哪些行为将得到强化,如斯金纳箱实验中饥饿的小白鼠通过按下踏板得到食物奖励。行为是指为了达到目标而进行的动作方式,小白鼠在前一次按下踏板得到食物的实践中会明白,想要获得食物,就需进行按踏板的操作,这就是行为。后果是指行为对应的奖励或惩罚,当行为达到了设定目标时给予肯定和奖励,反之给予否定与惩罚。

强化学习有以下几种类型。

(1)正强化。设定具有吸引力的结果,对完成期望目标行为给予奖励,如在神经反馈训练中设定训练EEG的alpha能量提升,当参与者主动调节自身大脑活动达到阈值时,给予笑脸或其他形式的奖励,使参与者的特定行为重复出现,通过不断的强化达到提升大脑alpha频段活动的目的。

(2)负强化。设定令人厌恶的结果,对不符合目标要求的行为给予惩罚,惩罚分为Ⅰ型惩罚和Ⅱ型惩罚,前者通过呈现厌恶刺激来降低反应频率,如在孩子的教育中,当孩子有不良行为时应适当给予批评,让他们知道什么是不该做的;后者是通过消除愉悦刺激来降低反应的频率,如有一个故事,有一个老人住在小区里,而小区的儿童整天奔跑嬉闹,噪声很大程度影响周围居民生活质量,于是老人把孩子们叫过来,对他们说谁叫得越大声奖励越多,那些叫声大的孩子如愿地得到了奖励,持续几天后奖励变得越来越少,孩子纷纷表示不叫了。应该注意的是,应用负强化的前提是事先有不利的刺激或行为出现,实施负强化应针对不符合底线的行为,避免形成侥幸心理,以减少此类行为重复出现的可能性。

(3)自然消退。对特定行为不设定结果即不加理会,从而减少行为的发生。如在企业管理中,对于某些员工爱打小报告的行为不加理睬,那么自然会减少这类行为的发生。需注意的是,自然消退因人而异,并不是普适的。

强化学习应用需要注意几点:一是要因人而异,设定个性化方案,依照强化对象的不同采取不同的强化措施;二是要对大目标进行分解,设定阶段性小目标,对小目标的实现给予及时强化;三是及时反馈,对行为发生者给予及时反馈,能够对其形成更强的强化作用。