五种定性资料统计分析方法比较研究

发布时间：2020-07-24 14:26

【摘要】：CMH检验、meta分析、logistic回归模型、对数线性模型、加权卡方检验是分析定性资料的常用方法。很多情况下，它们可以分析同一类型的定性资料。有学者在处理多中心临床试验的资料时，发现用CMH检验分析中心效应，与meta分析的结果不一致；在某疾病的危险因素分析中，对数线性模型与logistic回归分析的结果有差别。如何合理选择统计分析方法，哪种方法分析的结果更加可靠，国内外已经有学者做了一些比较研究工作，如对CMH检验和logistic回归处理结果变量是多值有序变量和多值名义变量三维列联表资料的检验效能比较研究，CMH检验和meta分析处理多中心临床试验q×2×2三维列联表资料异质性检验的检验效能比较研究，研究内容还不够全面，评价指标过于单一。鉴于此，本课题采用Monte Carlo模拟对CMH检验、meta分析、logistic回归模型、对数线性模型和加权卡方检验处理四类高维列联表资料进行比较研究，评价指标包括犯I类错误的概率、检验效能、参数估计值和均方误差。从而帮助人们合理选择统计分析方法，得到更加可靠的结论。由于本课题只研究上述提及的5种处理定性资料统计分析方法的比较问题，虽然在某些场合下还可以运用其他统计分析方法，本课题不作全面论述。本课题的研究内容和结论如下： ⑴比较CMH检验、logistic回归模型、对数线性模型和加权卡方检验处理一般的q×2×2列联表资料犯I类错误的概率、检验效能、参数估计值及均方误差。上述四种统计分析方法犯I类错误的概率近乎相同。当不存在空单元时，四种统计分析方法检验效能相同；logistic回归模型、对数线性模型和加权卡方检验受空单元的影响，检验效能下降。当四种方法检验效能都为1时，logistic回归模型参数估计值最高，均方误差最大，对数线性模型次之；当总体参数值较小时，CMH检验logit法参数估计值最接近总体参数值，均方误差最小；当总体参数较大时，加权χ~2检验参数估计值最接近总体参数值，均方误差最小。当模型中包含因素的交互作用时，logistic回归模型和对数线性模型对交互项分析的检验效能相同，参数估计值接近。 ⑵比较CMH检验、logistic回归模型和对数线性模型处理试验因素和结果变量都是无序变量的高维列联表资料犯I类错误的概率、检验效能、参数估计值及均方误差。上述三种统计分析方法犯I类错误的概率近乎相同。当不存在空单元时，三种统计分析方法检验效能相同；logistic回归模型和对数线性模型受空单元的影响，检验效能下降。CMH检验无法估计模型的参数，当logistic回归模型和对数线性模型检验效能都为1时，logistic回归模型对组间效应估计值偏高，对数线性模型对组间效应估计值更接近总体参数值。当存在因素间的交互效应时，logistic回归模型对交互效应的估计值更接近总体参数值。 ⑶比较CMH检验和logistic回归模型处理结果变量为多值有序变量的高维列联表资料犯I类错误的概率和检验效能。 CMH检验犯I类错误的概率和检验效能都大于logistic回归模型，原因在于用logistic回归模型处理结果变量为多值有序变量的高维列联表资料时，需要对资料是否满足平行线条件进行假设检验，若满足平行线条件，方可进行logistic回归分析。当不考虑平行线假设的检验结果时，二者检验效能相同。 ⑷比较CMH检验和meta分析处理多中心临床试验q×2×2列联表资料犯I类错误的概率、检验效能和参数估计值及均方误差，并比较Breslow-Day检验和Q检验进行异质性检验犯I类错误的概率和检验效能，以及I~2统计量正确判断异质性的比例，简称正确率。异质性检验的比较结果显示，Breslow-Day检验犯I类错误的概率和检验效能高于Q检验。当中心数较小，检验水准a=0.05时，I2统计量判断异质性的正确率高于Breslow-Day检验和Q检验的检验效能，随着中心数的增大，I2统计量判断异质性的正确率低于二者的检验效能。对试验效应分析的比较结果显示，当总体为固定效应模型时，CMH检验犯I类错误的概率高于meta分析，检验效能低于meta分析，原因在于CMH检验中Breslow-Day检验异质性检验犯I类错误的概率较高。当Breslow-Day检验和Q检验异质性检验都是阴性时，CMH检验和meta分析对试验效应分析的检验效能相同。而当总体为随机效应模型时，CMH检验的结果不可靠，因此未对二者进行比较研究。当总体OR值较小时，CMH检验的logit法、MH法和meta分析三种方法的参数估计值接近总体参数值，均方误差都很小；随着总体参数值的增大，CMH检验的MH法参数估计值仍然与总体参数值接近，而CMH检验的logit法和Meta分析的参数估计值小于总体参数值，均方误差较大。通过以上的比较研究，研究者在处理定性资料时应根据研究目的和资料的特点选择合理的统计分析方法，可从以下几个方面考虑。 ⑴正确判断资料的类型。研究者需观察资料中涉及到的变量及其性质。 ⑵弄清楚数据的来源。若是多中心临床试验得到的资料，则应采用CMH检验或meta分析。 ⑶观察单元格中的频数。当高维列联表中存在空单元时，将所有格子的频数都增加0.5，再进行统计分析。 ⑷弄清分析目的，根据分析目的选择操作比较简单的一种统计分析方法。若只进行假设检验，CMH检验不失为一种有效而简便的统计分析方法，其检验效能不亚于其他方法；对于多中心临床试验q×2×2列联表资料，由于Breslow-Day检验分析异质性犯I类错误的概率和检验效能都高于Q检验，因此需将CMH检验和meta分析结合起来共同分析。若还需要进行参数估计，则要根据资料类型和以上的比较结果选择统计分析方法。对于一般的q×2×2列联表资料，当只估计一个因素的效应时，可选择CMH检验的logit法；对于试验因素和结果变量都是无序变量的高维列联表资料，与logistic回归模型相比，对数线性模型虽然能更好地估计试验效应，但其结果难以理解，因此，如果资料中有明确的原因变量和结果变量，仍然选择logistic回归模型；对于多中心临床试验q×2×2列联表资料，仅当异质性检验为阴性结果时，选择CMH检验的MH法，当各中心间存在异质性时，应选择meta分析，采用随机效应模型估计试验效应。
【学位授予单位】：中国人民解放军军事医学科学院
【学位级别】：硕士
【学位授予年份】：2012
【分类号】：R181.3
【图文】：

散点图,统计分析方法,组间,散点图

略高于其他三种方法。3.2.2 检验效能的比较结果图3-1是四种统计分析方法处理结果变量为二值变量三维列联表资料所对应的检验效能、样本含量和组间效应的三维散点图；图 3-2 是样本含量分别为 100、200、300 和 400 时四种统计分析方法处理结果变量为二值变量三维列联表资料检验效能与组间效应关系的普通线图。图 3-1 四种统计分析方法检验效能、样本含量和组间效应的三维散点图随着组间效应的增大，CMH 检验的检验效能逐渐增大至 1 后，最终呈一条直线；logistic 回归模型、对数线性模型和加权卡方检验的检验效能先增大，后减小。当样本含量为 100 时，四种统计分析方法检验效能从大到小依次为：CMH检验>logistic 回归模型>加权卡方检验>对数线性模型。当样本含量≥200 时，logistic 回归模型、加权卡方检验和对数线性模型检验效能相同。随着样本含量的增加，四种统计分析方法检验效能达到 1 的阶段逐渐延长。选取样本含量为 100，coe=2 时的数据集

线图,统计分析方法,效应关系,组间

图 3-2 四种样本含量下四种统计分析方法检验效能与组间效应关系的普通线图选取样本含量为 400，coe=4 时模拟的 1000 个数据集，其中 96 个数据集 y=1g=1、c=0 或 1 对应的两个单元格的频数都为 0 时，这时 logistic 回归模型和对数线性模型不能正确分析模型中 g 因素的效应。说明空单元的存在严重影响了logistic 回归模型、对数线性模型和加权卡方检验的检验效能。当设定样本含量为 10000 时，没有空单元，四种统计分析方法的检验效能相等，coe=0.2 时，检验效能为 0.997，其余均为 1。事实上，仅当不存在空单元时，四种统计分析方法处理结果变量为二值变量三维列联表资料的检验效能相同。换句话说，无论总样本量有多大，只要存在空单元格，四种统计分析方法所对应的检验效能就不会完全相同。若将检验水准a 改为 0.01，四种统计分析方法检验效能的分析会发生改变图 3-3 是a =0.01、样本含量为 100 和 400 时四种统计分析方法处理结果变量为二值变量的三维列联表的检验效能与组间效应关系的普通线图，当样本含量为100 时，四种统计分析方法检验效能差距增大，大小顺序未发生变化。增大样本

线图,统计分析方法,效应关系,组间

图 3-3 显著性水准为 0.01 时四种统计分析方法检验效能与组间效应关系的普通线图3.2.3 参数估计值的比较结果四种统计分析方法均可估计模型中 g 因素的效应，logistic 回归模型可直接对 coe 进行估计。对数线性模型可估计 g 与 y 的交互效应( )gcag ， ( )01coe = 4ag。CMH 检验和加权2c 检验可得到 g 因素的优势比 OR，ln(OR)=coe。当样本含量为 400，coe 取值在 1.2 到 2.8 之间时，四种统计分析方法检验效能都为 1，在该条件下对四种方法参数估计进行比较，结果见表 3-2 和 3-3。表 3-2 四种统计分析方法对 g 因素效应估计的均值均数coe方法 A B C1 C2 D1.2 1.2132 1.2132 1.2101 1.2028 1.21011.4 1.4214 1.4215 1.4179 1.4074 1.41791.6 1.6237 1.6227 1.6199 1.6060 1.61881.8 1.8307 1.8294 1.8265 1.8080 1.8250

【参考文献】