基于互联网搜索数据的流感预警模型比较与优化
本文关键词:基于互联网搜索数据的流感预警模型比较与优化
更多相关文章: 流感 搜索引擎 百度指数 预警模型 模型比较
【摘要】:流行性感冒是由流感病毒引起的急性呼吸道感染,也是一种传染性强、传播速度快的流行病。传统流行病监测系统的数据源为手工收集的临床数据,对于报告新兴疾病来说有一定延迟。而对于突发疫情,实时反馈和快速响应至关重要。利用开源的网络数据监测流行病趋势是对传统监测手段的有效补充,它可以提供关于疫情严重程度的早期预警并降低监测费用。2008年,Google发现,搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切关系,他们依据这种数量关系提出了谷歌流感趋势,受到广泛关注。在我国,网民对搜索引擎的使用率可达到80%,其中国内渗透率最高的综合搜索引擎品牌为百度。在流感预警方面,虽然以往的研究对搜索引擎数据进行了一定程度上的应用,但多数研究的数据源于谷歌,而少数利用百度搜索数据进行国内流感预测的研究也并不系统,且很少有学者专门比较各个模型的预测效果并进行模型优化。基于此,本文拟通过百度搜索数据,分析中文网络关键词和我国流行性疾病监测结果的相关性,拟合并比较各种预测模型,探讨利用网络搜索数据辅助流行病监测的应用可能。本文的主要研究内容和结果如下:(1)从信息行为、信息搜寻行为等理论概念出发,对网络搜索数据与流感病例数据之间的逻辑关系进行探讨,建立理论框架模型,认为个体健康情况可能会激发其对健康信息的需求,从而进一步驱使个体实施健康信息搜寻行为。(2)根据搜索数据与流感病例数的关联框架图,用范围选词法从流感预防、流感症状、流感治疗和流感常用词四个维度对关键词进行初步筛选,得到79个初始搜索词;然后利用互相关,分析出初始搜索关键词与流感病例数之间的相关关系和时差关系,最后得到22个关键词用于构建模型。在实证研究的过程中,时差分析结果与本文给出的关联框架大致相同,先行十周左右的关键词内容都和流感疫苗相关,先行一周左右的关键词多涉及到流感的症状表现,而同步类关键词多为常用搜索词或治疗方法,在一定程度上印证了理论基础的可行性。(3)根据时差关系和模型原理的不同,拟合了8个模型,通过比较拟合优度和预测效果,发现多元线性回归和人工神经网络模型具有更好的拟合优度,但拟合效果好并不一定代表预测精度准;主成分回归模型虽然在理论上可以减少变量之间的共线性,但实践证明无论是其拟合效果还是预测效果相对于多元回归模型来说都有所下降。(4)对仅基于搜索数据的模型进行优化,引入流感监测的历史信息,形成结合历史信息与网络数据两个变量的综合模型。通过比较该优化模型与仅基于历史信息的时间序列模型、基于搜索数据的最优模型,发现历史数据和搜索数据包含的信息具有一定程度的互补性,联合使用两种数据进行预测具有最好的预测效果。
【关键词】:流感 搜索引擎 百度指数 预警模型 模型比较
【学位授予单位】:南开大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R511.7
【目录】:
- 中文摘要3-5
- Abstract5-9
- 第一章 绪论9-17
- 第一节 研究背景9-13
- 一、流行病与“流行病情报学”9-11
- 二、中国互联网及搜索引擎的普及11-12
- 三、互联网技术在流行病监测领域中的应用和影响12-13
- 第二节 研究意义、目的与内容13-15
- 一、研究意义13-14
- 二、研究目的14
- 三、研究内容14-15
- 第三节 研究方法与技术路线15-17
- 一、研究方法15-16
- 二、技术路线16-17
- 第二章 文献综述17-24
- 第一节 基于网络搜索数据的应用研究17-20
- 一、经济金融领域的应用研究17-18
- 二、社会心理领域的应用研究18-19
- 三、旅游管理领域的应用研究19
- 四、消费者行为领域的应用研究19-20
- 第二节 基于网络搜索数据的流行病监测应用研究20-24
- 一、流感监测的应用研究20-22
- 二、其它流行病监测的应用研究22-24
- 第三章 理论框架与模型原理24-34
- 第一节 理论基础与框架24-26
- 第二节 关键词选择原理26-29
- 一、关键词初选26-27
- 二、互相关分析27-29
- 第三节 预测模型原理29-34
- 一、一元线性回归29-30
- 二、多元线性回归30-31
- 三、主成分回归31-32
- 四、人工神经网络模型32-33
- 五、时间序列分析33-34
- 第四章 实证分析34-63
- 第一节 数据来源34-35
- 一、中国国家流感中心流感周报34
- 二、百度指数34-35
- 第二节 关键词选择结果35-40
- 一、关键词初选结果35-38
- 二、互相关分析结果38-40
- 第三节 基于搜索数据的流感预警模型拟合与检验40-51
- 一、一元线性回归模型40-43
- 二、多元线性回归模型43-46
- 三、主成份回归模型46-50
- 四、BP神经网络模型50-51
- 第四节 基于搜索数据的模型效果比较51-58
- 一、模型拟合效果比较52-54
- 二、模型预测能力比较54-58
- 第五节 优化模型的建立与比较58-63
- 一、模型建立58-60
- 二、模型比较60-63
- 第五章 结论63-67
- 第一节 讨论63-65
- 第二节 研究发现65-66
- 第三节 研究局限与未来展望66-67
- 参考文献67-72
- 致谢72-73
- 个人简历、在学期间发表的学术论文与研究成果73
【相似文献】
中国期刊全文数据库 前4条
1 张敏;杜燮yN;朱彩云;刘国华;;高危作业有害因素预防控制水平预警模型[J];中国安全生产科学技术;2009年02期
2 万欢英;过依;;慢性阻塞性肺疾病预警模型研究[J];内科理论与实践;2012年06期
3 刘如春;陈田木;;长沙市流感/甲型H1N1流感预警模型建立与评价[J];医学动物防制;2010年04期
4 ;[J];;年期
中国重要会议论文全文数据库 前6条
1 张国兴;刘鹏;汪应洛;郭菊娥;;银行集中信用违约预警模型[A];社会经济发展转型与系统工程——中国系统工程学会第17届学术年会论文集[C];2012年
2 郑伯峰;张锦;李司铎;刘潇;;基于贝叶斯网络的大客户离网预警模型研究[A];第四届中国智能计算大会论文集[C];2010年
3 应江勇;周宇;;决策树在我国通信行业用户预警模型中的研究应用[A];第十三届中国管理科学学术年会论文集[C];2011年
4 翟东升;张金宝;王明吉;张书杰;;基于财务指标的上市公司信用预警模型研究[A];中国现场统计研究会第12届学术年会论文集[C];2005年
5 文柯;;基于Logistic的上市公司产融结合风险预警模型研究[A];第十四届中国管理科学学术年会论文集(上册)[C];2012年
6 潘洁珠;吴共庆;胡学钢;;基于关联规则的成绩预警模型研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国重要报纸全文数据库 前4条
1 本报通讯员 宋娟 严明良;构建预警模型 降低路网风险[N];中国气象报;2013年
2 广发证券股份有限公司 何沛俐 章早立;立体空间下的全新财务危机远期预警模型[N];证券时报;2003年
3 记者 谢柳;合众人寿完成信用风险预警模型[N];中国保险报;2011年
4 张宪邋郝力平 涂春辉 王法力 洪明 刘年财;全流通后警惕公司财务危机[N];中国证券报;2007年
中国博士学位论文全文数据库 前9条
1 董鹤云;大型施工项目目标偏差适时监控方法及预警模型研究[D];华北电力大学;2015年
2 刘彦文;上市公司财务危机预警模型研究[D];大连理工大学;2009年
3 朱钧钧;主权违约风险的评估方法和预警模型[D];复旦大学;2011年
4 丁宝成;煤矿安全预警模型及应用研究[D];辽宁工程技术大学;2010年
5 张云波;工程项目工期延误原因及预警模型研究[D];天津大学;2004年
6 赵军;基于GIS空间统计分析的区域房地产动态预警模型[D];中国地质大学(北京);2011年
7 张加强;中国农业类上市公司可持续发展预警模型研究[D];华中农业大学;2011年
8 汪冬华;我国上市公司行业分析方法及违约风险预警模型研究[D];华中科技大学;2004年
9 马辉;中国金融风险指标体系构建与预警研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 冷静;秦皇岛旅游业可持续发展预警模型建立[D];燕山大学;2015年
2 陈小志;输电线路鸟害预警模型及系统的设计与实现[D];电子科技大学;2014年
3 汪旭颖;基于支持向量回归机的油田异常井预警模型研究[D];东北石油大学;2015年
4 刘若辰;我国建筑业上市公司财务危机预警模型研究[D];山东建筑大学;2016年
5 王敏虾;基于逻辑回归关联规则的疾病预警模型[D];山东大学;2016年
6 明杰;企业安全生产预警模型与应用研究[D];首都经济贸易大学;2016年
7 王若佳;基于互联网搜索数据的流感预警模型比较与优化[D];南开大学;2016年
8 潘志兵;我国上市公司财务失败预警模型的实证研究及应用[D];西北工业大学;2002年
9 尚红超;金融危机预警模型的系统研究[D];东北财经大学;2010年
10 张海兰;基于平衡计分卡的企业预警模型构建研究[D];首都经济贸易大学;2006年
,本文编号:820585
本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/820585.html