方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,其中采用F检验的思想。
当模型之间符合嵌套模型时候,可采用anova的方式比较,所谓嵌套模型,即它的一些项完全包含在另一个模型中。其计公式如下
$$ F_{(df_{R}-df_{F}),df_{F}}= \frac{(SSR_{R}-SSR_{F})/(df_{R}-df_{F})}{SSR_{F}/df_{F}} $$
其中,$df_R$为模型1的自由度,$df_F$为模型2的自由度,$SSR_R$为模型1的残差平方和,$SSR_F$为模型2的残差平方和
比较时,原假设和备择假设为:
$H_0$:多余的项系数为0,即两模型无显著差别
$H_1$:多余的项系数不为0,即两模型差别显著
data = read_csv("wellbeing.csv")
mod1 = lm(data = data, wellbeing ~ outdoor_time)
summary(mod1)
mod2 = lm(data = data, wellbeing ~ outdoor_time + social_int)
summary(mod2)
anova(mod1, mod2)
AIC信息准则(Akaike information criterion),由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。其公式如下:
$$ AIC=n \ln(\frac{SS_{residual}}{n})+2k $$
AIC值越小的模型要优先选择,它说明模型用较少的参数获得了足够的拟合度。该准则可用AIC()函数实现。
AIC(fit1, fit2)
BIC信息准则(Bayesian Information Criterions),贝叶斯信息准则。BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。其计算公式如下:
$$ BIC=n \ln(\frac{SS_{residual}}{n})+k \ln(n) $$
BIC值越小的模型要优先选择,它说明模型用较少的参数获得了足够的拟合度。该准则可用BIC()函数实现。
BIC(fit1, fit2)