为什么需要交互作用
- 线性回归中,如果我们想探究某个自变量和因变量的关系是否在另一个自变量的不同水平下有所不同,便可以考虑在模型中纳入这两个自变量的交互项进行验证。其可以拓展回归模型对变量之间的依赖的解释。
- 纳入交互项后的模型主要看交互项的系数是否显著,同时一定要注意,纳入交互项后模型系数的解读也会发生改变。
- 此外,交互项的组合存在多种。有两个分类自变量交互;有一个分类自变量和一个连续型自变量交互;还有两个连续型自变量交互。由于分类自变量可以设置为哑变量(虚拟变量),而连续型自变量本身就有数值,当该数值范围不包括0时,我们会发现回归系数的解释没有实际意义。为解决这类及多重共线性问题,我们通常需要对该连续型自变量进行中心化处理,使得回归模型中系数和常数项的解释更加方便。
如何看出交互作用
- 当图中线为平行时,说明不存在交互作用(下左)
- 当图中线为不平行时,说明存在交互作用(下右)

数据中心化
变量减去其均值或数学期望的数据变换处理方法。又称去均值化、零均值化。注意理解数据标准化和数据中心化的区别。
$$
X' = X-\mu
$$
在R中可使用scale() 函数进行数据中心化
scale(social_int, center = T, scale = F) #数据中心化
scale(social_int, center = T, scale = T) # 数据标准化
scale(social_int)
为什么要进行数据中心化
- 消除不同变量在数值大小上的差异,解决模型运行不稳定的问题。例如在线性回归模型中对数据进行中心化,可以有效解决交互项变量和主变量之间的多重共线问题。
- 中心化后的数据易于计算各种类间或样本间的方差和协方差。中心化后的数据来自均值为0的总体,便于计算方差和协方差。
- 然而,数据中心化只能剔除不同特征在数值大小上的差异,不能消除不同特征的量纲和变异程度的差异。因此,对中心化后的数据使用要谨慎。
一个例子
回归模型中的交互项简介(Interactions in Regression)
分类变量(Categorical)与连续型变量(Continuous)