语言学定量研究中的稳健统计方法
发布时间:2019-10-28 20:42
【摘要】:稳健统计学的进展为研究者探索数据、发现模式和检验研究假设提供了有价值的技术。本文介绍稳健统计学的基本原理和基本概念。举例说明在常规的方差分析统计假设不满足的情况下如何使用Welch型方差分析等几种稳健统计方法,在皮尔逊相关分析统计假设不满足的情况下如何开展百分数弯曲相关和跳跃相关分析。本文建议语言学定量研究者重视常规统计分析假设,学会使用稳健统计方法,提高研究的质量。
【图文】:
图1:标准正态分布和污染正态分布征的任一参数,记作θ(F)。Fε是另一个分布,与分布F的柯尔莫可洛夫距离(Kolmogorovdistance,两个分布最大差异绝对值)为ε。使θ(Fε)任意变大或变小的最小值ε即为θ的崩溃点。常用的总体平均数μ和标准差σ的崩溃点为0。估计量X(样本平均数)和s(样本标准差)的有限样本崩溃点(finitesamplebreakdownpoint)是1/n(n是样本量),即一个异常值就可能会使它们任意变大或变校换句话说,μ、σ及其估计量X和s不具有稳健性。当小幅度偏离正态分布导致σ膨胀时,基于样本平均数的常规统计检验方法(如t检验和方差分析)就会丧失统计分析的有效性。使用平均数的另外一个问题是,当数据分布偏离正态时,μ可能偏向分布的尾巴,样本平均数X不能很好地反映典型的被试特征会是什么样子。在此情况下,平均数失去了应有的价值。为了便于理解数据分布的变化对统计结果的影响,下面通过模拟方法探讨在正态分布和污染正态分布(contaminatednormaldistribution)情况下采用独立样本t检验的统计效力。图1比较标准正态分布和污染正态分布曲线。图1中的左分图显示μ1=0和σ1=1的标准正态分布,右图为μ2=0和σ2=3.3的污染正态分布(即由一个平均数为0、标准差为1、概率为0.9的标准正态分布与平均数为0、标准差为10、概率为0.1的正态分布混合而成)。横坐标为随机变量值,纵坐标为概率密度值。这两幅图都是对称的,且为钟形(bell-shaped)。除了标准正态分布峰顶比污染正态分布稍陡峭外,几乎看不出其他区别,因为图中这两个分布的柯尔莫可洛夫距离为0.04。但是,污染正态分布为重尾巴分布,小幅度地偏离标准正态分布使方差增至10.9。假设有两个正态分布总体,一个总体的μ1
?,11,8,9,10,10,11,10,8,5,10,11,9,12,8,12,8,10;组二(T2):9,8,9,8,7,8,9,6,7,7,8,5,9,9,8,9,8,4,4,6,8,,4,7,6,7,6,7,8,4,8;组三(T3):9,5,8,7,8,13,6,9,6,10,7,6,14,5,8,7,17,6,22,11,6,13,7,6,10,8,6,7,8,5。3.2.1数据分布性质诊断本例在实验设计和因变量的性质上似乎适合使用常规的单因素方差分析。但是,常规的方差分析要求因变量数据满足正态分布和方差齐性假设,因此在开展推理统计之前,需要诊断数据分布的性质。图2是利用以上三组数据绘制的小提琴图(violinplot)。小提琴图由箱图(boxplot)与核密度图(kerneldensityplot)组合而成。两个对称的核密度图置于箱图2:三组数据分布小提琴图·24·
【作者单位】: 南京工业大学外国语言文学学院;
【基金】:国家社科基金项目“英语语言学研究生实验研究能力系统评价研究”(编号:13BYY079) 南京工业大学哲学社会科学科研创新团队资助项目(编号:SKTD201505),南京工业大学高等教育发展专项(编号:HED2016013)的阶段性成果
【分类号】:H08
本文编号:2553203
【图文】:
图1:标准正态分布和污染正态分布征的任一参数,记作θ(F)。Fε是另一个分布,与分布F的柯尔莫可洛夫距离(Kolmogorovdistance,两个分布最大差异绝对值)为ε。使θ(Fε)任意变大或变小的最小值ε即为θ的崩溃点。常用的总体平均数μ和标准差σ的崩溃点为0。估计量X(样本平均数)和s(样本标准差)的有限样本崩溃点(finitesamplebreakdownpoint)是1/n(n是样本量),即一个异常值就可能会使它们任意变大或变校换句话说,μ、σ及其估计量X和s不具有稳健性。当小幅度偏离正态分布导致σ膨胀时,基于样本平均数的常规统计检验方法(如t检验和方差分析)就会丧失统计分析的有效性。使用平均数的另外一个问题是,当数据分布偏离正态时,μ可能偏向分布的尾巴,样本平均数X不能很好地反映典型的被试特征会是什么样子。在此情况下,平均数失去了应有的价值。为了便于理解数据分布的变化对统计结果的影响,下面通过模拟方法探讨在正态分布和污染正态分布(contaminatednormaldistribution)情况下采用独立样本t检验的统计效力。图1比较标准正态分布和污染正态分布曲线。图1中的左分图显示μ1=0和σ1=1的标准正态分布,右图为μ2=0和σ2=3.3的污染正态分布(即由一个平均数为0、标准差为1、概率为0.9的标准正态分布与平均数为0、标准差为10、概率为0.1的正态分布混合而成)。横坐标为随机变量值,纵坐标为概率密度值。这两幅图都是对称的,且为钟形(bell-shaped)。除了标准正态分布峰顶比污染正态分布稍陡峭外,几乎看不出其他区别,因为图中这两个分布的柯尔莫可洛夫距离为0.04。但是,污染正态分布为重尾巴分布,小幅度地偏离标准正态分布使方差增至10.9。假设有两个正态分布总体,一个总体的μ1
?,11,8,9,10,10,11,10,8,5,10,11,9,12,8,12,8,10;组二(T2):9,8,9,8,7,8,9,6,7,7,8,5,9,9,8,9,8,4,4,6,8,,4,7,6,7,6,7,8,4,8;组三(T3):9,5,8,7,8,13,6,9,6,10,7,6,14,5,8,7,17,6,22,11,6,13,7,6,10,8,6,7,8,5。3.2.1数据分布性质诊断本例在实验设计和因变量的性质上似乎适合使用常规的单因素方差分析。但是,常规的方差分析要求因变量数据满足正态分布和方差齐性假设,因此在开展推理统计之前,需要诊断数据分布的性质。图2是利用以上三组数据绘制的小提琴图(violinplot)。小提琴图由箱图(boxplot)与核密度图(kerneldensityplot)组合而成。两个对称的核密度图置于箱图2:三组数据分布小提琴图·24·
【作者单位】: 南京工业大学外国语言文学学院;
【基金】:国家社科基金项目“英语语言学研究生实验研究能力系统评价研究”(编号:13BYY079) 南京工业大学哲学社会科学科研创新团队资助项目(编号:SKTD201505),南京工业大学高等教育发展专项(编号:HED2016013)的阶段性成果
【分类号】:H08
【相似文献】
相关期刊论文 前10条
1 苏新春;汉语词汇定量研究的运用及其特点——兼谈《语言学方法论》的定量研究观[J];厦门大学学报(哲学社会科学版);2001年04期
2 张少林;;效应幅度:外语定量研究不能忽视的测度值[J];外语教学理论与实践;2009年03期
3 魏日宁;;再谈外语定量研究中的效应幅度[J];现代外语;2012年04期
4 李德鹏;;定量研究的反思与重构——以语言学为例[J];社会科学研究;2013年03期
5 沈榕秋;谈汉语方言的定量研究[J];语文研究;1994年02期
6 梅晴;;语言教育研究中的定量与定性的研究方法[J];考试周刊;2010年29期
7 龚嵘;;二/外语教育研究范式的哲学思考:定性与定量研究设计决策的交互制约[J];外语教学理论与实践;2013年03期
8 李凤兰;;来华巴基斯坦留学生汉语学习与自我认同变化定量研究[J];经营管理者;2014年05期
9 邝霞;“有没有”反复问句的定量研究——对经典作家白话文作品的定量研究[J];汉语学习;2000年03期
10 姚霖霜;阙紫江;;浅谈异化论与归化论的困境和出路[J];外语教育;2003年00期
相关硕士学位论文 前1条
1 邢杰;翻译研究中的定性与定量研究[D];广东外语外贸大学;2006年
本文编号:2553203
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2553203.html