8.3.2 解释变量是虚拟解释变量的情况
2025年09月26日
8.3.2 解释变量是虚拟解释变量的情况
虚拟变量是用以反映变量属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入虚拟变量虽然使线性回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且更接近现实。例如,反映文化程度的虚拟变量可取如下值:1代表本科学历;0代表非本科学历。
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型、否定类型取值为0。
(1)模型中引入虚拟变量的作用
①分离异常因素的影响,例如,分析我国GDP的时间序列时,必须考虑某些因素对国民经济的破坏性影响,剔除不可比的该因素。
②检验不同属性类型对因变量的作用,如工资模型中的文化程度、季节对销售额的影响等。
③提高模型的精度,相当于将不同属性的样本合并,扩大了样本容量(提高了误差自由度,从而降低了误差方差)。
(2)虚拟变量设置的原则
在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定。
①如果回归模型有截距项,有m 种互斥的属性类型,则在模型中引入m-1 个虚拟变量。
②如果回归模型无截距项,有m 个特征,则在模型设置m 个虚拟变量。
(3)多值型虚拟变量
例如,研究上市公司控股股东对股利分配的影响,其中有一个解释变量是控股股东的性质,假设用state表示,而state里面又分成8个类别,需要看每个类别对股利分配是否有影响,这时就需要生成多值型虚拟变量了。