模型比较

Anova比较(F检验)

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,其中采用F检验的思想。

当模型之间符合嵌套模型时候,可采用anova的方式比较,所谓嵌套模型,即它的一些项完全包含在另一个模型中。其计公式如下

$$ F_{(df_{R}-df_{F}),df_{F}}= \frac{(SSR_{R}-SSR_{F})/(df_{R}-df_{F})}{SSR_{F}/df_{F}} $$

其中,$df_R$为模型1的自由度,$df_F$为模型2的自由度,$SSR_R$为模型1的残差平方和,$SSR_F$为模型2的残差平方和

比较时,原假设和备择假设为:

$H_0$:多余的项系数为0,即两模型无显著差别

$H_1$:多余的项系数不为0,即两模型差别显著

data = read_csv("wellbeing.csv")

mod1 = lm(data = data, wellbeing ~ outdoor_time)
summary(mod1)
mod2 = lm(data = data, wellbeing ~ outdoor_time + social_int)
summary(mod2)

anova(mod1, mod2)

AIC比较

AIC信息准则(Akaike information criterion),由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。其公式如下:

$$ AIC=n \ln(\frac{SS_{residual}}{n})+2k $$

AIC值越小的模型要优先选择,它说明模型用较少的参数获得了足够的拟合度。该准则可用AIC()函数实现。

AIC(fit1, fit2)

BIC比较

BIC信息准则(Bayesian Information Criterions),贝叶斯信息准则。BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。其计算公式如下:

$$ BIC=n \ln(\frac{SS_{residual}}{n})+k \ln(n) $$

BIC值越小的模型要优先选择,它说明模型用较少的参数获得了足够的拟合度。该准则可用BIC()函数实现。

BIC(fit1, fit2)