rapter求n的阶乘流程图_多层模型如何求ICC？（理论篇1)

不想看理论只想要软件操作代码/步骤的请直接转到本文姊妹篇《多层模型如何求ICC？（应用篇）》，应用篇介绍了R、Mplus、SPSS操作指南、也有HLM的资源链接；扫完这篇还有《理论2》等着你。

组内相关系数和多层模型简介

组内相关系数(Intraclass correlation coeffient, ICC)是跨文化研究里绕不过的一个系数。心理学各分支的研究的数据中难免存在嵌套结构：学生—班级—学校（教育心理学）；员工—团队—企业（企业心理学）；个人—城市—国家（社会心理学）；病人—医生—医院（临床心理学）；不同时间点的测量 — 个人 — 实验分组……
而在文化心理学中，我们就喜欢研究这些不同层面的交互影响，所以常用多层线性模型（Hierarchical Linear Model，HLM）/多水平模型（Multilevel Model，MLM）/混合效应模型（Mixed Effects Model）【注意不是混合方法（mixed methods）】/随机效应模型（Random Effects Model）/随机系数模型（Random Coefficients Model）/方差成分模型（Variance Components Model）/嵌套数据模型(Nested Data Model)……这段中加粗的文字都指的是同一种模型，对的，这个模型就是有五花八门的名字。
言归正传，适用这个多层模型有啥好处呢：

建模有更大的灵活性

我们说了，该模型包含了不同层面的不同因素，
所以可以分析大的文化背景对个体的影响（contextual effects）。就比如城市的不同经济发展水平可能影响居民的消费行为模式；
也可以分析不同层面的因素间的交互影响（cross-level interaction）。比如学校的类型以及老师的教育方式对学生成绩的影响；
所以可以检验可多有更意思的研究问题。

2. 一般回归模型都假设自变量间互相独立（assumption of independency），然而多层模型中自变量间可以存在相关性（不再必须互相独立)，并且这种相关性可被估测。
3.一般实验设计要求每组样本量相近（balance design)有缺失数据时就比较麻烦要剔除/补上，然而多层模型中每层各组的样本量不必相同，所以有缺失数据就有好了，模型照样运行。
缺点的话就是很可能一不小心把模型搞太复杂了，样本量需求也比较大，然后统计知识可能又不够用了。

多层模型存在的必要性的讨论（例子）

多层模型存在的必要性：可以避免以偏概全、以全概偏。
来用经典的录取率问题讲讲经典的辛普森悖论（Simpson's Paradox)：
某年，知乎者也大学的整体录取率为男性44%，女性31%。乍一看，哎呀，这不性别歧视吗，咋能男性录取率比女的高了10%+呢。学校于是积极响应，彻查各系，结果各系主任都觉得无比委屈，明明每个系都是女性录取率高于男性录取率啊。

表1

此例旨在说明站在不同层面分析数据，你得到的结论可能是不同的。
再举个更线性一些的虚构的例子吧。某研究人员想看看喝酒的数量和人们心情（笑容）有啥关系，于是他们去了许多酒吧做研究，记录了人们喝啤酒的数量和笑容的次数。他们分析了收集到的数据：

集合所有个人数据进行分析，喝酒数量和笑容负相关——酒喝得越多，笑容越少；笑容越少，酒喝的越多。

图1

将酒吧这个分组因素纳入考虑，发现每个酒吧里的人，都是酒喝的越多笑容越多，笑得越多喝的越多，喝的酒的量和笑容正相关。

图2

这可能是因为人们的笑容数、点啤酒的数量受到各个酒吧整体氛围的影响。

这些例子告诉我们要应用多层模型考虑数据群聚性（cluster）的影响，也要考虑社会环境（高层）对个体（低层）的跨层影响。
以上都是以全概偏，想研究的是个体层面的问题，但分析的时候却将个体层面收集的数据在集体层面分析，再用基于上层整体数据得到的的分析结果套用到下层个体/组织/群体，这样假定所有个体都具有群体的特质是不对哒，犯了区群谬误（ecological fallacy)！比如，刻板印象（Stereotyping）就是很常犯的错。再比如，假设某研究表明国家层面上人均收入和此癌症患病率也呈负相关，不能就此推导出个人收入和某癌患病率也呈负相关。

另一种和区群谬误相似概念是微体/个体谬误（atomistic fallacy），研究的是高层的问题，但却将根据个人的特质得到的结论直接应用到更高层。比如，假设某研究表明个人收入和某癌患病率呈负相关，不能就此推导出国家层面上人均收入和此癌症患病率也呈负相关。

上述错误都是因为混淆了不同层面的概念——个体层面的概念和群体层面的概念有时候看上去一样/相似，但本质是不同的；比如刚提到的，个人层面的收入（低层）

国家层面的人均收入。

In the atomistic fallacy, t he conceptual model being tested corresponds to the higher level, but the data are collected for a lower level.
More generally, the （ecological）fallacy may occur whenever data for units at a higher level are used to draw inferences regarding factors associated with variability across units at a lower level—that is,when the conceptual model being tested corresponds to the lower level, but t he data are collected for a higher level.”
(Diez Roux,2002)

那什么时候要分组讨论呢？

这就可以参考ICC这个系数了。ICC是个很神奇的系数，既可以用来测量信度（reliability），也可以测量”不独立性（non-independence）“，但概念上是不同的，

”不独立性（non-independence）“指的是同组的个体的回答取决于他们所属的组/受到他们所在组的影响/以组类聚的程度。

non-independence refers to the degree to which responses from individuals in the same group are influenced by, dependent on, or cluster by group (Kenny & Judd, 1986, 1996)

多层模型中所说的ICC是后者（不独立性），但接下来让我们先从信度讲起（觉着信度概念理得很清的就直接跳过下一部分，转到不独立性部分（理论2，链接下周补上= =、））。

ICC种类

ICC有很多种，我们来掰扯掰扯：

以下图数据为参考，第1列是被试编号，第2-5列（Column）是评分者打的分，“评分者”也可以换成（“时间”/“题项”/。。。）；每行（Row）代表一个被试的得分。

https://www.uvm.edu/~statdhtx/StatPages/icc/icc-overall.html

表2：改自Koo, T. K., &amp;amp;amp;amp;amp; Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research.Journal of chiropractic medicine,15(2), 155-163.

10类ICC

ICC (1, 1) One-way random effect, Absolute agreement, Single rater/measurement
ICC (1, k) One-way random, Absolute agreement, Multiple raters/ measurements
ICC (2, 1) Two-way random/mixed, Absolute agreement, Single rater/measurement
ICC (2, k) Two-way random/mixed, Absolute agreement, Multiple raters/measurements
ICC (3, 1) Two-way random/mixed, Consistency, Single rater/measurement
ICC (3, k) Two-way random/mixed, Consistency, Multiple raters/measurements

即：

括号里前面的数字表示方差模型形态（单/双因子混合/随机模型）; 括号里逗号后面的数字1/字母k分别表示一个/多个评定者/测量方法（raters/measurements）；
MSR：行变量均方（mean square for rows)；
MSC：列变量均方（mean square for columns）；
MSW：残余方差均方（mean square for residual sources of variance)；
MSE：误差均方（mean square for error）
n：被试数量，即行数 (number of subjects = number of rows) ;
k：评定者/测量方法数量，即列数（number of raters/measurements=number of columns).

如何选择合适的ICC？

可根据以下流程图：

图3： Koo, T. K., &amp;amp;amp;amp;amp; Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research.Journal of chiropractic medicine,15(2), 155-163.

第一步：选择模型（model selection）

即，单/双随机/混合模型

根据要测试的信度类型初步选择模型：

如果是重测信度或者评分者内信度(test-retest/intra-rater reliability)，直接选择双因子混合模型（two-way mixed);

1.1. 如果是评分者间信度(inter-rater reliability),则进一步根据是否是同一组评分者对所有被试进行了评分(Do we have the same set of raters for all subjects? )，如果被试由不同的评分者行进评分，选择单因子随机；如果所有被试都由同一组评分者评分，选择双因子模型。

表3：余红梅, 罗艳虹, 萨建, &amp;amp;amp;amp;amp;amp;amp; 艾永梅. (2011). 组内相关系数及其软件实现. 中国卫生统计, 28(5), 497-500.

单因子和双因子方差分析的差别是：单因子只考虑组内效应，检验每个被试的均值是否完全相等，不应用于重测信度或者评分者内信度；双因子考虑组间效应，检验被试和评分者的影响。

1.2. 判断”样本评分者=总体评分者“还是”样本评分者包含于总体评分者“（ Do we have a sample of raters randomly selected from a larger population or a specific sample of raters? ）

双因子随机和混合模型的差别是：随机模型种组内及组间效应均随机；混合模型则是随机的组内效应+固定的组间效应。
- 从应用层面考虑，双因子随机模型旨在判断我们的信度结果是否能运用在（generalize to）其他拥有相似特质的评分者（比如工作经验）身上，即如果有一组拥有相同特质的评分者对这些被试进行评分，是否会得到相同的分数。比如：关节被动活动度这样的基于评估者的临床评估评估（rater-based clinical assessment methods, e.g.，passive range of motion）；而双因子混合模型的结果则只适用于该信度测试样本中涉及的评分者，而不能拓展应用到更广的人群中。

第二步：类型选择（Type selection)（咦我怎么打了个爱心出来，太有爱了不舍得删!)

即，单一（Singlse） VS 多个（multiple rater/ measurement）

2. 回答”我们是对单个评分者评分的可靠性感兴趣，还是对多个评分者的均值的可靠性感兴趣？“（Are we interested in the reliability of single rater or the mean value of multiple raters? ）

单项测量（single rater/measurement）分析单个评分者/评分方式的评分的可靠性。注：如果计划使用单一评分者的测量作为实际测量的基础，则应该选择“单一评分者”（1 rater）类型，即使可靠性实验涉及2名或更多的评分者；
多项测量（multiple rater/ measurement）则分析了多个评分者/评分方式的均值进行可靠性。如：如果计划使用3名评分者的均值作为评估基础，则可靠性研究的实验设计应包含3名评分者，即选择多项测量“k raters”。

*在双因子模型中的多项测量的ICC,即ICC（3,k）等于Cronbach's α系数。

第三步：定义选择（Definition selection）

即，绝对一致性（absolute agreement）VS一致性（consistency）

3. 回答”我们考虑的是一致性还是绝对一致性？“（Do we concern about consistency or agreement? ）

假设，有两个评分者对同一被试打分，评分者X打分为（2，4，6），评分者Y打分为（4，6，8）,即，Y=X+2。（McGraw & Wong, 1996, pp34)

绝对一致性（Absolute agreement, A），记作ICC（A，），考虑了不同评分者对同一个被试的评分是否相同， 即何种程度上Y=X。计算绝对一致性时，考虑了评分者的系统误差，比较两个评分者给的（不含误差的）绝对分数的一致性，例子中两评分者的绝对一致性相对较低为：ICC（A，1）=.67；
一致性（Consistency， C），记作ICC（C，），考虑的是不同评分者对同一组被试的平方是否加性相关，即何种程度上Y=（X+e），e为系统误差。计算一致性时，把系统误差也当成了真实值的一部分（就相当于忽略了系统误差），所以例子中两评分者的一致性极高：ICC（C，1）=1。

数据的性质和模型的选择会影响ICC的值，（通常），ICC系数具有以下特点：

如果数据完全相同，ICC=1；
单因子模型的ICC<双因子模型的ICC；
单一评分者ICC(single rater)<多个评分者均值的ICC（mean of k raters);
ICC（A，）< ICC（C，）;
评分者个数一致的双因子模型下，混合模型和随机模型的（绝对）一致性相同（参见本文表2中的计算公式）

更直观的说明如下图:

Koo&Li,(2016)用了模拟数据，对同一组数据，运用了不同模型，计算了不同ICC的值。

图4： Koo, T. K., &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp; Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research.Journal of chiropractic medicine,15(2), 155-163.

Koo & Li (2016)推荐 ICC分界值：

ICC用于信度检验（包括再测信度test-retest, 评分者内信度interrater, 评分者间信度interrater reliability test)时：

信度差（poor）: ICC<.5
中等信度（moderate）: .5 <ICC <.75
信度好（good）: .75 < ICC < .9
信度极佳（excellent）: ICC > .9

回归一开始的问题：什么时候需要考虑使用多层嵌套模型？

一开始提到了，ICC既可以当成是考量信度（reliability）的系数，也可以作为测量非独立性（non-independence）的工具。本文到现在只讲了用ICC测信度/一致性的理论，实有跑题嫌疑（但其实以上信息还是对后面的理解会有帮助的，再其实换个角度思考ICC就能回答这个问题了）……鉴于篇幅已经很长了，咱接着在《理论篇2》里讲正题，掰扯掰扯到底咋选用ICC~

引用文献：

Robinson, W. S. (2009). Ecological correlations and the behavior of individuals.International journal of epidemiology,38(2), 337-341. （区群谬误之罗宾森悖论，修正了相关系数的差错）

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability.Psychological bulletin,86(2), 420. (ICC鼻祖文）

McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients.Psychological methods,1(1), 30.（另一篇ICC开山鼻祖文）

Koo, T. K., & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research.Journal of chiropractic medicine,15(2), 155-163. （总结性ICC选择指南）

余红梅, 罗艳虹, 萨建, & 艾永梅. (2011). 组内相关系数及其软件实现.中国卫生统计,28(5), 497-500.

Roux A Glossary for Multilevel Analysis - Epidemiologic Bulletin, PAHO. This article by A V Diez Roux also is on the J Epidemiol Community Health(2002)

Diez Roux, A.V. (2002). A glossary for multilevel analysis.Journal of epidemiology and community health,56(8), 588.