敏感性问题9种RRT模型下(分层)三阶段抽样调查设计的统计方法及其应用
本文关键词:敏感性问题9种RRT模型下(分层)三阶段抽样调查设计的统计方法及其应用
更多相关文章: 敏感性问题 随机应答技术(RRT) (分层)三阶段抽样 样本量 艾滋病 女性性工作者 蒙特卡洛模拟 信度 效度
【摘要】:目的 抽样调查在医学科研领域是非常重要的研究方法。在实际应用中,若关心的特征或变量是具有高度隐私或难以在公开场合表态、陈述的敏感性问题,采用传统的调查方式,例如直接询问法、观察法等,部分调查对象出于自我保护的心理需求拒绝回答或故意错答,会产生无应答偏倚或者说谎偏倚,从而调查结果难以真实反映总体的状况和特征。1965年,美国统计学家Warner利用随机化装置成功实现了在有效地保护调查对象隐私的前提下得到二项选择敏感性问题的统计数据,开创了随机化应答技术(Randomized Response technique,RRT)的先河。 自Warner开始,国内外的统计学者沿着随机化的思路不断探寻,在四十多年的时间里,提出一系列Warner模型的改进模型以及一些新的调查方法,推动了敏感性问题抽样调查的快速发展。然而在本课题组研究之前,国内外研究较多的敏感性问题类型为二分类敏感性问题和数量特征敏感性问题,对于多分类敏感性问题关注较少;研究较多的敏感性问题抽样调查的统计方法主要局限于简单随机抽样,实际应用也主要局限于小范围内特殊人群小样本的简单随机抽样调查,或在大规模调查中将复杂抽样调查方法获取的敏感性问题资料误用简单随机抽样调查有关公式来统计分析。应用抽样调查进行科学研究时,抽样设计是抽样调查的重要内容,样本量的估计是抽样设计的关键步骤。但对于敏感性问题随机应答模型在各种复杂抽样方法下如何估计各阶段的样本量,相关文献报道较少。 因此,本文拟对9种随机应答模型与实际调查中常常采用的三阶段、分层三阶段抽样2种抽样方法组合的18种调查方法,在给出敏感问题特征相关统计量计算公式的基础上,当限定抽样误差的大小使调查费用达到最小及限定调查费用的大小使抽样误差达到最小两种情况下,推导出估计敏感问题特征总体比例、总体均数时的最优样本量计算公式,为适用于各类型敏感性问题较大规模调查的复杂抽样方法提供了科学的样本量估计公式;通过初步调查分析西昌市女性性工作者(Female Sex Workers,FSW)人群敏感问题特征,为掌握西昌市性病、艾滋病的流行状况提供了初步的数据资料,并估计出样本量计算公式中相关统计量的数值;针对本团队拟于2015年开展的国家自然科学基金项目(编号:81273188)研究中西昌市女性性工作者人群敏感问题特征的三阶段抽样调查,按照本文所推导的计算公式估计出各阶段的样本量,完成了该国家自然科学基金项目研究中的调查设计;为科学估计艾滋病高危行为人群敏感性问题的特征提供统计方法,为卫生行政部门制订预防控制性病、艾滋病策略、规划、措施提供科学依据。分别对3种RRT模型与三阶段、分层三阶段抽样组合的6种调查方法:以西昌市实际调查的统计量数值作为模拟总体参数,采用SAS编程建立模拟总体并做模拟抽样预调查100次,利用本文推导的样本量计算公式,估计出模拟抽样正式调查时所需最优样本量,按照估计出的最优样本量,做模拟抽样正式调查100个样本,利用本文推导的有关统计公式对100个正式模拟调查样本进行总体参数的点值估计和区间估计,通过与模拟总体参数的比较,来评价本文研究的调查方法及其统计量、最优样本量计算公式的信度与效度。 方法 一、对二项选择敏感性问题Warner随机应答模型、二项选择敏感性问题Simmons随机应答模型、二项选择敏感性问题双无关问题模型和二项选择敏感性问题改进的随机应答模型,多项选择敏感性问题单一样本随机应答模型、多项选择敏感性问题随机间接应答模型以及数量特征敏感性问题无关联问题模型、数量特征敏感性问题加法模型、数量特征敏感性问题乘法模型9种随机应答模型,与三阶段抽样、分层三阶段抽样2种抽样方法组合的共18种调查方法,根据Cochran的抽样理论、全概率公式、均数与方差的基本性质等概率论与数理统计学理论方法,给出了敏感性问题总体比例、总体均数的估计量及其方差与估计方差的计算公式。 二、分别对以上18种调查方法,在限定抽样误差的大小使调查费用达到最小及限定调查费用的大小使抽样误差达到最小两种情况下,使用哥西不等式、求条件极小值点等高等数学与高等代数的理论方法,推导估计敏感性问题特征总体比例、总体均数时各层各阶段的最优样本量计算公式。 三、设计RRT的随机化装置,制定敏感性问题的调查问卷,在三阶段抽样下采用二项选择敏感性问题Simmons模型、多项选择敏感性问题随机应答模型、数量特征敏感性问题加法模型,于2011年5月至2011年7月对西昌市女性性工作者人群的10个敏感性问题进行了初步调查;并按本文给出的统计公式,初步统计分析调查资料,并估计出样本量计算公式中的有关统计量的数值。 四、根据本文推导的敏感性问题复杂抽样方法下的样本量计算公式和初步调查得到的相关统计量的数值,对二项选择敏感性问题Simmons模型、多项选择敏感性问题随机应答模型、数量特征敏感性问题加法模型共10个敏感性问题的三阶段抽样,分别计算在限定抽样误差的大小使调查费用达到最小时所需各阶段最优样本量和限定调查费用的大小使抽样误差达到最小时所需各阶段最优样本量。 五、按照西昌市女性性工作者人群敏感特征实际调查的样本比例、或各类别样本比例、或样本均数作为总体参数,基于蒙特卡洛方法,用SAS编程建立模拟总体。分别对二项选择敏感性问题Simmons随机应答模型、多项选择敏感性问题单一样本随机回答模型以及数量特征敏感性问题加法模型3种RRT模型与三阶段、分层三阶段2种抽样方法组合的6种敏感性问题调查方法:用SAS编程模拟抽样预调查100个样本,按本文推导的最优样本量估计公式,计算100组模拟抽样正式调查时所需各层各阶段的样本量;按照估计出的100组最优样本量,SAS编程实现模拟抽样正式调查100个样本;按本文推导的相应统计公式计算总体比例、各类别总体比例或总体均数的估计量及其估计方差;分别对100个模拟抽样正式调查样本,进行总体比例或总体均数的点值估计和95%区间估计,来评价本文研究的调查方法及其统计量、最优样本量计算公式的准确性(效度)和精确度(信度)。若100个95%置信区间几乎都包含总体比例(或总体均数),可认为100个样本比例(或样本均数)几乎均接近总体比例(或总体均数),说明本文研究的(分层)三阶段抽样下RRT调查方法及其统计量、最优样本量计算公式具有良好的效度;又因为100个样本比例(或样本均数)均接近相同水平,同时也说明本文研究的(分层)三阶段抽样下RRT调查方法及其统计量、最优样本量计算公式具有良好的信度。 结果 一、本文设计了9种随机应答模型与三阶段、分层三阶段2种抽样方法组合的18种调查方法,分别对18种调查方法,给出了敏感性问题总体比例、总体均数的估计量及其方差与估计方差的计算公式。 二、本文分别对9种随机应答模型与2种复杂抽样方法组合的18种调查方法,当限定抽样误差的大小使调查费用达到最小及限定调查费用的大小使抽样误差达到最小两种情况下,推导出估计敏感问题特征总体比例、总体均数的所需各阶段最优样本量计算公式。 三、本文对西昌市女性性工作者人群进行了敏感性问题3种随机应答模型下三阶段抽样的10个敏感性问题的初步调查。初步调查分析结果如下:西昌市女性性工作者首次性服务的年龄均数为21.45岁,标准误为0.8162岁;月人均性服务的次数为41.66次,标准误为1.4550次;性服务的次均费用为213.67元,标准误为8.2475元;除收费的性服务对象外,拥有配偶或其它固定性伴侣的比例为55.94%,标准误为3.87%;被医生诊断患某种性病后停止从事性服务的比例为75.85%,标准误为3.00%;同意卖淫合法化的比例为56.77%,标准误为4.12%;最近一年性病检测结果没有检查过、无性病、有性病的比例分别为62.12%、21.36%、5.57%,标准误分别为4.00%、3.87%、2.24%;最近一年艾滋病没有检查过、检查结果阴性、检查结果阳性的比例分别为57.11%,23.54%,2.35%,标准误分别为4.00%,4.00%,1.00%;最近一次性服务时,安全套有破损的比例为8.27%,标准误为2.65%;最近一个月性服务时,从未全程使用安全套、有时全程使用安全套、一直全程使用安全套的比例分别为11.40%、14.21%、74.40%,标准误分别为2.65%、3.16%、4.69%。 四、针对本团队拟于2015年开展的国家自然科学基金项目(编号:81273188)研究中西昌市女性性工作者人群敏感问题特征的三阶段抽样调查,根据本文推导的公式,综合10个敏感性问题的初步调查结果,估计出抽样调查各阶段所需样本量。第一阶段需随机抽取的区数n15(个),第二阶段平均每个区需随机抽取的活动场所数n26(个),第三阶段平均每个区每个活动场所需随机抽取的女性性工作者人数n329(人)。 五、对3种RRT模型与三阶段、分层三阶段2种抽样方法组合的6种敏感性问题调查方法,进行100次计算机模拟抽样预调查和模拟抽样正式调查,模拟抽样正式调查结果如下: 1.模拟二分类敏感性问题Simmons模型分层三阶段抽样调查FSW人群拥有配偶或者固定性伴侣的比例,由样本统计量和样本方差推断的100个总体比例的95%可信区间有96个包含总体比例,且各样本比例均接近总体比例(模拟真值),说明本文研究的二分类敏感性问题Simmons模型下(分层)三阶段抽样的调查方法、统计公式及最优样本量计算公式具有良好的信度与效度。 2.模拟多分类敏感性问题单一样本RRT模型分层三阶段抽样调查FSW人群性服务时全程使用安全套的情况,模拟结果显示:对于类别一(从未全程使用安全套),100次模拟中有97次得到的该类别总体比例95%可信区间包含其总体比例。对于类别二(有时全程使用安全套),100次模拟中有97次得到的该类别总体比例95%可信区间包含其总体比例。对于类别三(一直全程使用安全套),100次模拟中有96次得到的该类别总体比例95%可信区间包含其总体比例。说明本文研究的多分类敏感性问题单一样本RRT模型下(分层)三阶段抽样的调查方法、统计公式及最优样本量计算公式具有良好的信度与效度。 3.对数量特征敏感性问题加法模型,100个总体均数的95%可信区间有99个都包含总体均数,且各样本均数都接近总体均数(模拟真值),说明本文研究的数量特征敏感性问题加法模型下(分层)三阶段抽样的调查方法、统计公式及最优样本量计算公式具有良好的信度与效度。 结论 一、本文对敏感性问题9种随机应答模型与三阶段、分层三阶段2种抽样方法组合的共18种调查方法,给出了敏感问题特征总体比例、总体均数的估计量及其估计方差的统计公式,并将其中三种随机应答模型的三阶段抽样调查方法成功应用于西昌市女性性工作者这一性病、艾滋病高危人群的敏感性问题预调查,并取得了满意的实际应用效果。说明本文提供的调查方法及其统计公式科学、可靠、有效、实用性强、适用范围广,,具有较广阔的应用前景和重要的应用价值。 二、初步调查结果提示西昌市女性性工作者人群存在每月进行性服务的次数较多、每次性服务收费偏低、同意卖淫合法化比例高、从未到正规医疗机构进行性病与艾滋病检查比例高、性服务时安全套破损比例高等性病、艾滋病高危行为方式,性病、艾滋病防治工作形势仍不容乐观,应引起政府、卫生部门的高度重视,寻找合理的应对措施,把预防与控制性病、艾滋病工作作为一项刻不容缓、复杂而长期的艰巨任务,为人民群众创造安全的卫生环境。 三、本文对敏感性问题9种随机应答模型与三阶段、分层三阶段2种抽样方法组合的共18种调查方法,在限定抽样误差的值使调查费用达到最小及限定调查费用的值使抽样误差达到最小两种情况下,推导出估计敏感问题特征总体比例、总体均数的各层各阶段最优样本量计算公式,为敏感性问题的抽样调查设计提供了科学的新方法。采用3种随机应答模型三阶段抽样调查方法及本文推导的样本量计算公式,对西昌市女性性工作者人群敏感特征调查估计出各阶段所需的最优样本量,具有积极的推广意义和广泛的应用价值。 四、分别对3种RRT模型与三阶段、分层三阶段2种抽样方法组合的6种敏感性问题调查方法,先进行100个样本的计算机模拟抽样预调查估计样本量,再进行100个样本的模拟抽样正式调查,模拟抽样正式调查结果显示100个95%置信区间几乎都包含总体参数,说明本文研究的敏感性问题调查方法及其统计量、最优样本量计算公式具有良好的信度和效度。
【关键词】:敏感性问题 随机应答技术(RRT) (分层)三阶段抽样 样本量 艾滋病 女性性工作者 蒙特卡洛模拟 信度 效度
【学位授予单位】:苏州大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:R181.2
【目录】:
- 中文摘要4-10
- Abstract10-18
- 引言18-24
- 第一部分 敏感性问题 9 种 RRT 模型下(分层)三阶段抽样调查样本量估计公式的推导24-98
- 1. 二项选择敏感性问题 Warner 模型的三阶段抽样24-28
- 2. 二项选择敏感性问题 Simmons 模型的三阶段抽样28-31
- 3. 二项选择敏感性问题双无关问题模型的三阶段抽样31-36
- 4. 二项选择敏感性问题改进的随机回答模型的三阶段抽样36-40
- 5. 多项选择敏感性问题单一样本随机回答模型的三阶段抽样40-43
- 6. 多项选择敏感性问题随机间接回答模型的三阶段抽样43-47
- 7. 数量特征敏感性问题无关联问题模型的三阶段抽样47-51
- 8. 数量特征敏感性问题加法模型的三阶段抽样51-55
- 9. 数量特征敏感性问题乘法模型的三阶段抽样55-59
- 10. 二分类敏感性问题 Warner 模型的分层三阶段抽样59-63
- 11. 二分类敏感性问题 Simmons 模型的分层三阶段抽样63-67
- 12. 二分类敏感性问题双无关问题模型的分层三阶段抽样67-72
- 13. 二分类敏感性问题改进的随机回答模型的分层三阶段抽样72-76
- 14. 多项选择敏感性问题单一样本随机回答模型的分层三阶段抽样76-80
- 15. 多项选择敏感性问题随机间接回答模型的分层三阶段抽样80-84
- 16. 数量特征敏感性问题无关联问题模型分层三阶段抽样84-89
- 17. 数量特征敏感性问题加法模型分层三阶段抽样89-93
- 18. 数量特征敏感性问题乘法模型分层三阶段抽样93-98
- 第二部分 西昌市女性性工作者 RRT 模型下三阶段抽样的初步调查98-128
- 1. 前言98-99
- 2. 调查设计99-105
- 3. 调查和结果分析105-128
- 第三部分 西昌市女性性工作者敏感特征研究中现场调查的样本量估计128-146
- 1. 前言128-129
- 2. 女性性工作者首次性服务年龄的三阶段抽样调查129-130
- 3. 女性性工作者月人均性服务次数的三阶段抽样调查130-131
- 4. 女性性工作者性服务次均费用的三阶段抽样调查131-132
- 5. 女性性工作者拥有固定性伴侣比例的三阶段抽样调查132-133
- 6. 女性性工作者患性病时停止性服务比例的三阶段抽样调查133-134
- 7. 女性性工作者同意卖淫合法化比例的三阶段抽样调查134-135
- 8. 女性性工作者性病检查结果类别的三阶段抽样调查135-138
- 9. 女性性工作者艾滋病检测结果类别的三阶段抽样调查138-140
- 10. 女性性工作者安全套破损情况各类别三阶段抽样调查140-142
- 11. 女性性工作者安全套使用情况各类别的三阶段抽样调查142-144
- 12. 最终样本量的确定144-146
- 第四部分 敏感性问题 RRT 模型下(分层)三阶段抽样调查统计方法的信度与效度评价146-230
- 1. 蒙特卡洛方法简介146-149
- 2. 计算机模拟敏感性问题 RRT 模型下(分层)三阶段抽样调查统计方法的效度信度评价思路149-151
- 3. 建立模拟总体151-153
- 4. 敏感性问题 RRT 模型的(分层)三阶段模拟抽样调查153-222
- 5. 敏感性问题 RRT 模型(分层)三阶段抽样调查统计方法的效度信度评价结果222-230
- 讨论230-238
- 总结与展望238-241
- 参考文献241-249
- 综述249-273
- 参考文献262-273
- 攻读博士学位期间主要科研成果273-274
- 附录 随机应答技术方法(RRT)调查表274-278
- 致谢278-280
【参考文献】
中国期刊全文数据库 前10条
1 俞宗尧;;抽样调查应用问题及对策[J];数据;2008年11期
2 赵馨;闫在在;张景;魏福红;丁立刚;唐俊;;Warner模型中方差估计的随机组方法[J];内蒙古科技大学学报;2010年03期
3 赵馨;闫在在;魏福红;唐俊;;刀切法在Warner模型中的应用[J];内蒙古科技大学学报;2011年03期
4 杨莉军,赵贤淑;蒙特卡洛方法及在二维随机游动问题中的应用初探[J];北京印刷学院学报;2001年03期
5 聂书云,王建宏;社会敏感问题统计调查方法研究[J];川北教育学院学报;2002年04期
6 高歌;范玉波;王冕;;敏感问题随机应答技术模型分层整群抽样下参数的估计[J];第二军医大学学报;2009年02期
7 马海云;齐小军;;蒙特卡罗仿真机及其应用[J];电脑与信息技术;2006年03期
8 饶贤清;;数量特征敏感性问题随机化回答的改进模型[J];大学数学;2011年06期
9 孙长福;陈昒;冯彩欣;;浅析新疆职业卫生服务机构资质认证工作[J];中国公共卫生管理;2006年03期
10 王居一;;浅议我国公共卫生管理中对艾滋病的防控[J];河南职工医学院学报;2010年04期
中国博士学位论文全文数据库 前1条
1 李婧;同伴推动抽样法和基于场所的抽样方法在女性性工作者中的比较研究[D];北京协和医学院;2011年
本文编号:725625
本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/725625.html