当前位置:主页 > 科技论文 > 软件论文 >

基于网络爬虫技术的健康医疗大数据采集整理系统

发布时间:2018-08-18 20:39
【摘要】:目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。
[Abstract]:Objective to obtain and collate the medical data of public health service system quickly and accurately so as to provide the data basis for the establishment of population health risk assessment model. Methods using focused web crawler technology, the algorithm was designed and programmed. The algorithm was improved in three aspects: automatic recording and correction of URL anomalies, archiving of raw data, and keeping logon mode. The designed crawler is applied to crawl the medical data of the authorized website. Through the medical database system, the data are analyzed, sorted and exported. Results the data of several public health service bases were obtained, and the data analysis reports were provided for local government departments, and a number of health risk assessment models were built by collating and analyzing the data. Conclusion the data collection and finishing system based on web crawler technology can solve the problem of obtaining and collating the network license data, and this technology can be applied to the field of medicine and health. It can make full use of the abundant medical data resources and improve the utilization efficiency.
【作者单位】: 山东大学公共卫生学院生物统计学系;山东大学齐鲁生物医学大数据研究中心;康评健康医疗大数据科技有限公司;山东大学计算机科学与技术学院;
【基金】:国家自然科学基金(81273177)
【分类号】:R-05;TP311.13;TP391.3

【相似文献】

相关会议论文 前4条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

相关硕士学位论文 前10条

1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年

2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年

3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年

4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年

5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年

6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年

7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年

8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年

9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年

10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年



本文编号:2190614

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2190614.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户329c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com