当前位置:主页 > 管理论文 > 移动网络论文 >

基于生物医学文献数据的分布式爬虫项目设计与实现

发布时间:2018-05-11 19:23

  本文选题:生物医学 + PubMeb ; 参考:《宁夏大学》2017年硕士论文


【摘要】:随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。
[Abstract]:With the rapid development of Internet , people ' s exploration and application of mass data portend the growth of new wave productivity and the arrival of consumer surplus .

【学位授予单位】:宁夏大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【参考文献】

相关期刊论文 前9条

1 陈利婷;;大数据时代的反爬虫技术[J];电脑与信息技术;2016年06期

2 宁康;陈挺;;生物医学大数据的现状与展望[J];科学通报;2015年Z1期

3 康宏宇;李姣;;生物医学文献的知识发现与数据整合[J];中华医学图书情报杂志;2015年02期

4 周中华;张惠然;谢江;;基于Python的新浪微博数据爬虫[J];计算机应用;2014年11期

5 张艳;;大数据背景下的生物医学信息处理[J];生命科学仪器;2014年05期

6 肖毅;张林;聂笑一;;基于WEB挖掘的网络爬虫设计与实现[J];计算机系统应用;2013年09期

7 徐速;;国内生物医学文献服务系统比较研究[J];大学图书情报学刊;2011年06期

8 黄凯峰;何洁月;;基于生物医学文献的知识发现研究[J];计算机技术与发展;2008年02期

9 胡文丰,张正国;生物医学数据挖掘[J];国外医学(生物医学工程分册);2003年01期

相关博士学位论文 前1条

1 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年

相关硕士学位论文 前9条

1 郭一峰;分布式在线图书爬虫系统的设计与实现[D];北京交通大学;2016年

2 刘群;我国入选PubMed数据库的生物医学期刊文献计量学分析[D];南方医科大学;2016年

3 魏少鹏;基于Chrome浏览器插件的爬虫系统[D];东华大学;2016年

4 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年

5 吕阳;分布式网络爬虫系统的设计与实现[D];电子科技大学;2013年

6 黎鑫;关于生物医学数据的聚类与分类算法研究及应用[D];武汉科技大学;2012年

7 张晓雷;面向Web挖掘的主题网络爬虫的研究与实现[D];西安电子科技大学;2012年

8 尚华;基于Web的医学文献数据库的设计与实现[D];武汉科技大学;2011年

9 曾伟辉;支持AJAX的网络爬虫系统设计与实现[D];中国科学技术大学;2009年



本文编号:1875258

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1875258.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae17c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com