马上到11月中旬,眼看都立冬了,刘岭教授的统计说说课堂让大家等久了吧。别急,统计说说第七期来了.......
χ2检验是反应变量和分组变量都为二分类变量或多分类(无序)变量时,两变量间关系的分析方法。
今天我们来说说多分类(无序)变量的χ2检验,基于R×2表的χ2检验(R为行变量,C为列变量=2)(此处一定注意的是:行变量为分组因素或自变量,列变量为结果变量或因变量。在呈现结果时行列的形式可交换,但表达的因素是不变的)。
废话少说,看例子。
例:某锡矿工龄相同的部分工种工人的硅沉着病患病率如表1所示。试分析不同工种间的硅沉着病患病率差异有无统计学意义?
案例分析思考:
1.研究目的:分析3个工种(风钻工、炮工、运输工)的硅沉着病患病率有无差异;
2.研究设计类型:独立样本三组比较(风钻工、炮工、运输工),样本量不等;
3.反应变量(即结果变量)患病率属于计数资料(二分类:患病和未患病);分组变量也属于计数资料(三分类:风钻工、炮工、运输工)(无序,即没有程度上差别),形成的交叉表也称3*2表(表1红框)(R=3,C=2)
4. χ2检验的应用条件。
具体操作:
1. 数据格式 R×C表(本例为6行3列)(频数变量:工人例数;行变量:工种1=风钻工,2=炮工,3=运输工;列变量:患病情况1=患病,2=未患病)(图1)
2. 操作步骤
(1) 定义频数变量:略,操作过程参看基于分类变量的卡方检验(一)的例1。
(2) χ2检验
分析(A)→描述统计(E)→交叉表(C)
弹出“交叉表”主对话框(图2)。
►行(O):选入行变量,本例为“工种”。
►列(C):选入列变量,本例为“患病情况”。
◇ 统计(S):点击“统计(S)”按钮,弹出“交叉表:统计”对话框,卡方检验相关性分析结果解读,选定“þ 卡方(H)”(同基于分类变量的卡方检验(一)的例1)。,
◇ 单元格(E):点击“单元格(E)”按钮,弹出“交叉表:单元格显示”对话框,选定“þ 期望(E)和þ行(R)”(同基于分类变量的卡方检验(一)的例1)。
3. 主要输出结果及分析
表2 给出了例1的列联表资料,结果显示风钻工的患病率为56.0%,炮工的患病率为62.1%,运输工的患病率为34.2%;所有理论频数均大于5。
操作步骤同四格表。注意:若此P>0.05,则无须再做两两比较了。
两两比较的方法:此方法也叫Bonferroni校正,降低检验水准以控制假阳性。例如进行3个工种的两两比较,两两比较共进行3次,则新的检验水准即
1. 操作步骤
(1)风钻工和炮工的比较
①筛选记录
数据(D)→选择个案(S)
卡方检验统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论。
弹出“选择个案”对话框(图3)。
★选择:选择观察单位。
¡所有个案(A):选择全部观察单位(系统默认)。
② 定义频数变量:略,同例1。
③ χ2检验:略,同例1。
2. 主要输出结果及分析
表4 给出了风钻工和炮工的四格表资料,结果显示风钻工的患病率为56.0%,炮工的患病率为62.1%;所有理论频数均大于5。
1、专用公式:r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+。+Arc/nrnc)-1]2、应用条件:要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时。
表5给出了风钻工和炮工的χ2检验两两比较结果。结论:表中皮尔逊卡方值为1.548, P=0.213>0.0167,差异无统计学意义,尚不能认为风钻工和炮工的硅沉着病患病率有差别。
以此类推,可以得到风钻工和运输工硅沉着病患病率比较的皮尔逊卡方值为19.019, P=0.000<0.0167,差异有统计学意义,可以认为风钻工和运输工的矽肺患病率有差别。炮工和运输工硅沉着病患病率比较的皮尔逊卡方值为50.220,P=0.000<0.0167,差异有统计学意义,可以认为炮工和运输工的硅沉着病患病率有差别。
报告中卡方检验的表述形式:
风钻工的患病率为56.0%,炮工的患病率为62.1%,运输工的患病率为34.2%,三组比较,采用卡方检验,差异有统计学意义(χ2=52.587, P=0.000),可以认为不同工种工人的硅沉着病患病率不同,进一步两两比较得到:风钻工和运输工的硅沉着病患病率有差别(P=0.000);炮工和运输工的硅沉着病患病率有差别(P=0.000),而风钻工和炮工的硅沉着病患病率比较差异无统计学意义(P=0.213>0.0167)。
技术总结如下:
结果都是不显著的
1. R*2表的反应变量(结果变量)是二项分类变量,分组变量为多项无序分类变量(也可为有序分类变量即等级资料),即为R*2的χ2检验(多个率的比较)。
1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验.3.如果有理论数T<1或n<40,则用Fisher’s检验.上述是适用于四格表.R×C表卡方检。
2. R*2表χ2检验的应用条件:当有以下三种情况或之一存在时,均不适宜进行χ2检验①有1/5以上格子的理论频数小于5;②一个理论频数小于1;③总样本例数小于40。
3.不满足应用条件时的处理方式:①增加样本含量(最好!)②根据专业知识,删除理论频数过小的行或列,或将理论频数过小的行或列与性质相近的行或列合并(丢失信息!不推荐,应慎重)③改用Fisher确切概率法。
4.多个率比较(R*2表)的规范操作:①在整体上做χ2检验(注意应用条件);②若整体上的P>0.05,即差异无统计学意义,就此结束,下结论。③若整体上的P<0.05,即差异有统计学意义,需进一步两两比较:采用Bonferroni法进行。首先对需要比较的R*2表资料进行分割,变成多个四格表;其次对每个四格表进行检验;再次采用
计算调整的水准,其中为事先确定的水准(通常);最后以调整作为检验水准,下有无统计学意义的结论。
本节内容采用的是SPSS 23.0版本。
如果理论频数小于5的cells(格子)比例超过20%,你就不能使用asymp.sig的结果,此时应该在spss卡方检验中选择使用exact test(确切概率法),以exact test的结果为准(软件也同时显示asymp.sig的结果)。
接下来大家仔细思考、消化知识,有问题可以留言,我们会请刘岭教授一一解答,并在下期公布。
撰稿:刘岭 约稿编辑:刘芹
排版:毕丽 审核:王东
专家简介:刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。