8.1.2　强化学习机制

2025年09月26日

版权

8.1.2　强化学习机制

斯金纳提出的操作性条件反射理论认为，人或动物将一定的行为输出至环境时，当行为产生的后果对其有利，这种行为就会在以后重复出现，而当行为产生的后果对自身不利，行为就会减弱甚至消失。人们通过这种正强化或负强化的方式来假定行为的后果，进而修正行为，这就是强化理论，也叫作行为修正理论。简言之，就是利用令人厌恶的刺激去纠正不正当的行为，用令人愉悦的刺激去强化正当的行为。

强化模式分为三部分：前因、行为和后果。前因是指在行为产生之前确定一个具有刺激作用的客观目标，指明哪些行为将得到强化，如斯金纳箱实验中饥饿的小白鼠通过按下踏板得到食物奖励。行为是指为了达到目标而进行的动作方式，小白鼠在前一次按下踏板得到食物的实践中会明白，想要获得食物，就需进行按踏板的操作，这就是行为。后果是指行为对应的奖励或惩罚，当行为达到了设定目标时给予肯定和奖励，反之给予否定与惩罚。

强化学习有以下几种类型。

（1）正强化。设定具有吸引力的结果，对完成期望目标行为给予奖励，如在神经反馈训练中设定训练EEG的alpha能量提升，当参与者主动调节自身大脑活动达到阈值时，给予笑脸或其他形式的奖励，使参与者的特定行为重复出现，通过不断的强化达到提升大脑alpha频段活动的目的。

（2）负强化。设定令人厌恶的结果，对不符合目标要求的行为给予惩罚，惩罚分为Ⅰ型惩罚和Ⅱ型惩罚，前者通过呈现厌恶刺激来降低反应频率，如在孩子的教育中，当孩子有不良行为时应适当给予批评，让他们知道什么是不该做的；后者是通过消除愉悦刺激来降低反应的频率，如有一个故事，有一个老人住在小区里，而小区的儿童整天奔跑嬉闹，噪声很大程度影响周围居民生活质量，于是老人把孩子们叫过来，对他们说谁叫得越大声奖励越多，那些叫声大的孩子如愿地得到了奖励，持续几天后奖励变得越来越少，孩子纷纷表示不叫了。应该注意的是，应用负强化的前提是事先有不利的刺激或行为出现，实施负强化应针对不符合底线的行为，避免形成侥幸心理，以减少此类行为重复出现的可能性。

（3）自然消退。对特定行为不设定结果即不加理会，从而减少行为的发生。如在企业管理中，对于某些员工爱打小报告的行为不加理睬，那么自然会减少这类行为的发生。需注意的是，自然消退因人而异，并不是普适的。

强化学习应用需要注意几点：一是要因人而异，设定个性化方案，依照强化对象的不同采取不同的强化措施；二是要对大目标进行分解，设定阶段性小目标，对小目标的实现给予及时强化；三是及时反馈，对行为发生者给予及时反馈，能够对其形成更强的强化作用。

8.1.2 强化学习机制

8.1.2　强化学习机制