模型的比较与选择

模型比较

Anova比较（F检验）

方差分析(Analysis of Variance，简称ANOVA)，又称“变异数分析”，其中采用F检验的思想。

当模型之间符合嵌套模型时候，可采用anova的方式比较，所谓嵌套模型，即它的一些项完全包含在另一个模型中。其计公式如下

$$ F_{(df_{R}-df_{F}),df_{F}}= \frac{(SSR_{R}-SSR_{F})/(df_{R}-df_{F})}{SSR_{F}/df_{F}} $$

其中，$df_R$为模型1的自由度，$df_F$为模型2的自由度，$SSR_R$为模型1的残差平方和，$SSR_F$为模型2的残差平方和

比较时，原假设和备择假设为：

$H_0$：多余的项系数为0，即两模型无显著差别

$H_1$：多余的项系数不为0，即两模型差别显著

data = read_csv("wellbeing.csv")

mod1 = lm(data = data, wellbeing ~ outdoor_time)
summary(mod1)
mod2 = lm(data = data, wellbeing ~ outdoor_time + social_int)
summary(mod2)

anova(mod1, mod2)

AIC比较

AIC信息准则（Akaike information criterion），由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。其公式如下：

$$ AIC=n \ln(\frac{SS_{residual}}{n})+2k $$

AIC值越小的模型要优先选择，它说明模型用较少的参数获得了足够的拟合度。该准则可用AIC()函数实现。

AIC(fit1, fit2)

BIC比较

BIC信息准则（Bayesian Information Criterions），贝叶斯信息准则。BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。其计算公式如下：

$$ BIC=n \ln(\frac{SS_{residual}}{n})+k \ln(n) $$

BIC值越小的模型要优先选择，它说明模型用较少的参数获得了足够的拟合度。该准则可用BIC()函数实现。

BIC(fit1, fit2)