基于百度搜索引擎的诺如病毒感染监测研究
发布时间:2020-10-23 17:16
目的:诺如病毒是一种常见的肠道病毒,已在世界范围内引起了广泛的流行。但在我国尚未建立针对诺如病毒的专病监测系统。本研究尝试通过互联网监测的新方法探索对诺如病毒预警预测的可行性与有效性。方法:本研究以浙江省嘉兴市2014年诺如疫情作为切入点,收集并分析疫情相关信息;同时利用文本挖掘技术和百度大数据平台获取诺如相关搜索词的百度搜索指数;通过相关分析获取不同滞后期的相关搜索词词组,并构建不同滞后期的复合百度指数;利用统计指标筛选最优滞后期和最终模型,收集并计算全国各省与浙江省各地级市复合百度指数,基于最优模型绘制同期浙江省近年来诺如病毒感染的潜在疫情地图。并选取若干疫情,观察疫情期间复合百度指数的变化情况,并对模型进行验证,探讨互联网监测的有效性与模型实际应用的可能性。结果:1.本次研究选择2014年2月17日发生于嘉兴的诺如疫情,该疫情主要聚集于海盐县和海宁市的13所学校,以腹泻和呕吐为主要症状;通过现场调查,识别首例病例,其发病于2014年2月12日。该起疫情共持续10天,此次暴发共有924例病例,男女性别比为1:1.2。2.通过百度大数据平台和数据挖掘网收集诺如相关的检索词,获取相关百度搜索指数,通过Spearman等级相关,筛选滞后期为0,1,2,3,4的搜索词。结果显示滞后期为0天的纳入关键词有“诺如病毒”、“诺如”、“呕吐出血”;滞后期为1天的纳入关键词有“诺如病毒”、“诺如”;滞后期为2天的纳入关键词有“诺如病毒”、“诺如”、“呕吐腹泻”、“婴儿病毒性腹泻”、“恶心想吐”;滞后期为3天的纳入关键词有“诺如病毒”、“诺如”、“头痛恶心是怎么回事”、“头晕恶心是怎么回事”,滞后期为4天的纳入关键词有“头痛恶心是怎么回事”。3.研究显示复合百度指数最优的时间节点为滞后期为2天(ρ=0.945,P0.001)和滞后期为1天(ρ=0.924,P0.001);这两个时间滞后分别被纳入最终的模型构建。进一步的研究显示指数曲线模型是滞后期为1天的最优模型,而增长曲线模型为滞后期为2天的最优模型。为了评估拟合效果,研究构建了总体符合率来评估总体预测效果,结果显示指数曲线模型的总体符合率值为90.69%,而增长曲线模型的值为66.00%,最终滞后期为1天的指数曲线模型被认定为最优模型,在这个模型中复合百度指数每增加1个单位提示诺如感染数增加2.15倍。4.基于最优模型,计算全国与浙江省的舆情分布,并估算浙江省的潜在诺如疫情,结果显示在2014年疫情暴发期间,在浙江省范围内,杭州与嘉兴的舆情指数明显高于省内其他地区;而全国范围内,除浙江省外,江苏省和广东省同样对此次疫情有较高的关注度,在2013、2014、2015、2016和2017年的同期中,浙江省诺如疫情以2014年最高,此外杭州,湖州、衢州和舟山等地也可能存在潜在的诺如疫情。四起疫情暴发期间,复合百度指数均在同期呈现上升趋势并随即出现高峰,对疫情有一定程度的预警作用。利用突发公共卫生事件管理信息系统上的疫情数据对模型进行验证后发现,模型虽然会在一定程度上低估疫情规模,但仍可识别出2015年金华,2017年杭州及湖州的三起聚集性疫情。结论:本研究结果显示在缺乏有效专病监测系统的情况下,基于网络舆情的诺如疫情预警预测具有一定意义。研究以百度大数据技术作为支撑,通过对诺如疫情暴发期间人群网络行为特征的定量采集与分析,识别中国人群对诺如疫情关注度的网络流行特征分布。根据本研究建立的滞后1天的指数曲线模型,复合百度指数每增加1个单位,提示诺如感染数增加2.15倍,这为基于百度搜索引擎关键词的监测和暴发期诺如病毒感染之间提供了定量关系的探索。基于百度搜索引擎开展诺如病毒感染聚集性疫情的监测和预警预测具有可行性,可为现有传染病监测系统提供新的思路和手段。
【学位单位】:宁波大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R512.5;R181.8
【文章目录】:
摘要
abstract
引言
1 材料与方法
1.1 研究对象
1.2 研究内容
1.3 研究方法
1.3.1 建立关键词库及关键词的纳入排除标准
1.3.2 选取并收集疫情的数据与舆情数据
1.3.3 构建不同滞后期的诺如相关关键词词组集
1.3.4 构建并选择诺如预测模型
1.3.5 开展不同地区舆情及疫情评估
1.3.6 选取若干诺如疫情对模型的验证
1.3.7 隐私保护与质量控制
1.4 统计分析
1.5 技术路线
2 结果
2.1 诺如疫情的暴发特征
2.2 各滞后期纳入的诺如疫情相关关键词
2.3 构建基于百度指数的诺如预警预测模型
2.4 诺如舆情的复合百度指数及诺如预测病例的空间展示
2.5 疫情预警预测与模型验证
2.5.1 疫情预警预测
2.5.2 模型的验证
3 讨论
3.1 开展互联网监测的意义
3.1.1 互联网及搜索引擎的发展
3.1.2 传染病监测的目的及意义
3.1.3 开展互联网监测的优点及本研究的意义
3.2 关键词的选择
3.3 滞后期的选择的探讨
3.4 对最优模型选择的探讨
3.5 对潜在发病的探讨
3.6 局限性
4 结论
参考文献
附录A 综述
参考文献
附录B 2013年浙江省分地市网民规模及互联网普及率
在学研究成果
致谢
【参考文献】
本文编号:2853315
【学位单位】:宁波大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R512.5;R181.8
【文章目录】:
摘要
abstract
引言
1 材料与方法
1.1 研究对象
1.2 研究内容
1.3 研究方法
1.3.1 建立关键词库及关键词的纳入排除标准
1.3.2 选取并收集疫情的数据与舆情数据
1.3.3 构建不同滞后期的诺如相关关键词词组集
1.3.4 构建并选择诺如预测模型
1.3.5 开展不同地区舆情及疫情评估
1.3.6 选取若干诺如疫情对模型的验证
1.3.7 隐私保护与质量控制
1.4 统计分析
1.5 技术路线
2 结果
2.1 诺如疫情的暴发特征
2.2 各滞后期纳入的诺如疫情相关关键词
2.3 构建基于百度指数的诺如预警预测模型
2.4 诺如舆情的复合百度指数及诺如预测病例的空间展示
2.5 疫情预警预测与模型验证
2.5.1 疫情预警预测
2.5.2 模型的验证
3 讨论
3.1 开展互联网监测的意义
3.1.1 互联网及搜索引擎的发展
3.1.2 传染病监测的目的及意义
3.1.3 开展互联网监测的优点及本研究的意义
3.2 关键词的选择
3.3 滞后期的选择的探讨
3.4 对最优模型选择的探讨
3.5 对潜在发病的探讨
3.6 局限性
4 结论
参考文献
附录A 综述
参考文献
附录B 2013年浙江省分地市网民规模及互联网普及率
在学研究成果
致谢
【参考文献】
相关期刊论文 前6条
1 洪荣涛;吴生根;李群;欧剑鸣;陈武;严延生;;中国大陆传染病监测与展望[J];疾病监测;2015年12期
2 鲁琴宝;林君芬;李傅冬;吴昊澄;吴晨;王臻;刘碧瑶;徐旭卿;;浙江省学校诺如病毒胃肠炎暴发疫情流行病学分析[J];中国学校卫生;2015年10期
3 邹晓辉;朱闻斐;杨磊;舒跃龙;;谷歌流感预测——大数据在公共卫生领域的尝试[J];中华预防医学杂志;2015年06期
4 裴迎新;刘慧慧;;对中国传染病监测发展方向的思考[J];疾病监测;2014年04期
5 徐旭卿;王臻;郑亚明;刘碧瑶;;浙江省诺如病毒引起急性胃肠炎暴发的流行病学研究[J];疾病监测;2011年09期
6 徐旭卿;鲁琴宝;王臻;赖圣杰;李中杰;;浙江省传染病自动预警系统暴发预警效果评价[J];中华流行病学杂志;2011年05期
本文编号:2853315
本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/2853315.html
最近更新
教材专著