聚类数据

所谓聚类数据(Clustered Data)是指将具有相似特征的数据归为一个聚合类或簇(Cluster),每一聚合类中的元素尽可能具有相同的特性。

组类相关系数(ICC)

我们一般用类相关系数(intraclass correlation coefficient,ICC)衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retest reliability)的信度系数(reliability coefficient)。

ICC的计算公式如下,一般我们使用R语言中ICC包来进行计算,ICC等于个体的变异度除以总的变异度,故其值介于0~1之间。

0≤ICC≤1,ICC越接近1,说明测量结果的可重复性(Repeatability)越好,测量误差越小。

ICC的理论范围在0-1,一般地,ICC位于0-0.5之间表示信度差,0.5-0.75表示中等,0.75-0.9表示好,0.9-1表示极好。

$$ \rho= \frac{\sigma _{b}^{2}}{\sigma _{b}^{2}+ \sigma _{c}^{2}} $$

其中:$\sigma _{b}^{2}$表示聚类间方差,$\sigma _{c}^{2}$表示聚类内方差

ICC越大,集群内的可变性越低(相对于集群之间的可变性)。来自同一组的两个观察结果之间的相关性越大。

Untitled

长数据与宽数据

长数据更适合绘图

tidyr-longer-wider.gif

ef_music = read_csv("<https://uoepsy.github.io/data/ef_music.csv>")
ef_music

ef_sdmt = openxlsx::read.xlsx("<https://uoepsy.github.io/data/ef_sdmt.xlsx>") %>% tibble()
ef_sdmt

# 宽转长
ef_sdmt_long <-
  ef_sdmt %>%
  pivot_longer(-PID, names_to = "trial_n", values_to = "SDMT")

ef_sdmt_long

# 长转宽
ef_sdmt_short <- ef_sdmt_long %>% 
  pivot_wider(id_cols = PID, names_from = trial_n, values_from = SDMT)

ef_sdmt_short

数据链接

# 全链接
efdata <- full_join(ef_music, ef_sdmt_long)

# 左链接
left_join(ef_music, ef_sdmt_long)

# 右链接
right_join(ef_music, ef_sdmt_long)

lab相关

Clustered Data.Rmd