当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式元搜索数据采集系统的设计与实现

发布时间:2018-04-19 09:58

  本文选题:信息爆炸 + 爬虫技术 ; 参考:《华中科技大学》2014年硕士论文


【摘要】:网络媒体的普及,提供了越来越多的信息发布平台。每天,各色各样的网站都在源源不断地制造新的内容,这些内容通过网络的形式在人群中四处传播。信息产生的速度已经远远超过人们消费它的速度。由此带来的结果是,信息无处不在,但是人们却缺乏一种行之有效的收集方式,大量数据并未被加以利用而浪费掉。这种信息四处泛滥而人们却无法有效获取到自己需要信息的矛盾将长期存在着。庆幸的是,爬虫技术的出现和搜索引擎的普及,可以极大地缓解这类矛盾。 本文研究与实现的是一套分布式的元搜索数据采集系统。它的目标在于快速大量地获取到涉及产品质量安全的网络信息,从而为进行质量安全的预警与监控提供数据分析的基础。它基于Master/Slave的主从分布式架构,主控节点与采集节点有着不同的分工:主控节点主要负责抓取任务的定义与调度管理,采集节点负责网页数据的请求与获取。节点间通过网络通信进行数据的交换,主控节点将定义好的任务按照一定的调度策略分配给不同的采集节点,采集节点收到分配的任务之后,,启动爬虫程序下载网页,然后通过XQuery模板对获得的网页进行解析,再将结构化信息统一保存于HBase数据库中。同时,采集节点会对自己的运行状态进行统计,并提供外部接口给主控节点进行调用,从而实现对下载行为的控制。考虑到网页数据的分散性以及抓取成本的控制,本文提出采用元搜索技术手段,将现有的主流搜索引擎的数据作为本次数据抓取的入口,通过综合不同引擎的数据,为用户提供更全面更有针对性的数据。 本文最后完成系统的搭建与部署,整个程序运行稳定,通过一些实验对系统的功能特性以及数据采集情况进行测试,并对结果进行了分析,从而验证了系统的可行性,同时对系统存在的不足提出改进建议。
[Abstract]:With the popularity of network media, more and more information publishing platforms are provided.Every day, a wide variety of websites create new content that spreads through the Internet.Information has been generated much faster than people consume it.As a result, information is everywhere, but people lack an effective way to collect it, and a lot of data is not used and wasted.This kind of information flooding and people can not effectively access to their own information will exist for a long time.Fortunately, the emergence of crawler technology and the popularity of search engines, can greatly alleviate such contradictions.This paper studies and implements a distributed meta-search data acquisition system.Its goal is to obtain network information about product quality and safety quickly and in large quantities, thus providing the basis of data analysis for early warning and monitoring of quality and safety.It is based on the master-slave distributed architecture of Master/Slave. The master node and the acquisition node have different division of labor: the master node is mainly responsible for the definition and scheduling management of the grab task, and the acquisition node is responsible for the request and acquisition of the web page data.The main control node distributes the defined tasks to different collection nodes according to a certain scheduling strategy. After receiving the assigned task, the acquisition node starts the crawler program to download the web page.Then the web pages are parsed by XQuery template, and the structured information is stored in the HBase database.At the same time, the collection node will count its own running state, and provide external interface to the main control node to call, so as to control the download behavior.Considering the dispersion of web page data and the cost control of crawling, this paper proposes to use meta-search technology to use the existing mainstream search engine data as the entry point of this data capture, by synthesizing the data of different engines.Provide users with more comprehensive and targeted data.Finally, the system is constructed and deployed, and the whole program runs stably. The functional characteristics and data acquisition of the system are tested through some experiments, and the results are analyzed to verify the feasibility of the system.At the same time, some suggestions to improve the system are put forward.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP274.2;TP391.3

【相似文献】

相关期刊论文 前10条

1 陈勃红;压频转换式数据采集系统[J];沈阳大学学报;2003年04期

2 贾湘楠;施工数据采集系统在跨海大桥建设中的应用[J];石家庄铁道学院学报;2005年S1期

3 赵俊红,瞿中;数据采集系统的计数逻辑研究[J];计算机工程与设计;2005年02期

4 郭亮;叶海华;吉海彦;;大气探测器数据采集系统的开发[J];微计算机信息;2006年13期

5 陈睿;王欢;李炳法;文扬;;烟草制造行业中的数据采集系统[J];计算机应用;2007年S1期

6 孙汉明;董静薇;李欣;;掌形识别数据采集系统介绍[J];电子产品世界;2007年11期

7 储跃伟;姚晓东;;汽车电动空调的数据采集系统的研究[J];微计算机信息;2009年26期

8 黄志一;周园春;常青玲;沈志宏;侯元生;阎保平;;可定制移动数据采集系统的研究和实现[J];计算机系统应用;2009年11期

9 彭敏;;基于嵌入式的数据采集系统设计[J];信息技术;2010年09期

10 王永志;林燕;李忠军;;全国矿业权实地核查属性数据采集系统[J];国土资源情报;2010年10期

相关会议论文 前10条

1 刘力强;马瑾;雷兴林;;多通道、高速声发射数据采集系统[A];第四届全国构造物理、第二届全国高温高压联合学术讨论会论文摘要[C];1989年

2 严宗睿;陆勤夫;陈勇;;基于智能设备的海军演习数据采集系统[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年

3 武东升;郭达永;;卷接包车间数据采集系统现状发展方向和应用的研究[A];河南省烟草学会2008年学术交流获奖论文集(上)[C];2008年

4 张文栋;董海峰;;微型爆破缓冲抗高过载数据采集系统设计[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年

5 冯莉;曹宁翔;梁川;;基于以太网的示波器数据采集系统[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年

6 袁晴晴;周皓峰;陈宇达;施伯乐;;一个基于系统重建思想的数据采集系统的设计与实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

7 柴春生;;线性拟合在数据采集系统中的应用[A];2011航空试验测试技术学术交流会论文集[C];2010年

8 袁学文;谢川林;高学燕;季云松;关有光;何均章;傅淑珍;周山;;384单元强快靶高集成度数据采集系统的设计与研制[A];中国工程物理研究院科技年报(2003)[C];2003年

9 王万东;张伟;王洋;;出租车税务数据采集系统在税收征管工作中的应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年

10 李万昌;王翔;黎源;;数据采集系统的构建及软件编制[A];2004全国测控、计量与仪器仪表学术年会论文集(下册)[C];2004年

相关重要报纸文章 前10条

1 王志田邋通讯员 唐皖君;数据采集系统在大庆采八全面启用[N];中国石油报;2007年

2 记者 郑欣;福建移动 水文数据采集系统服务防旱[N];人民邮电;2009年

3 鲁总;山东总队启用农价手持数据采集系统[N];中国信息报;2012年

4 王战芹;中钢邢机自行研制“高速数据采集系统”[N];世界金属导报;2008年

5 曹改英 曹红茜;PDA雨量数据采集系统的研制及应用[N];黄河报;2008年

6 焦克强;邢钢开发线材轧制生产线DCS数据采集系统[N];中国冶金报;2007年

7 ;iPAQ条码数据采集系统[N];计算机世界;2002年

8 记者 陈青 何晓龙;西仪总厂井间地震装备研制取得突破 井下多级数据采集系统使用效果显著[N];中国石油报;2002年

9 记者 程瑞云 通讯员 陆阳;通钢能源网络系统实现预定功能目标[N];中国冶金报;2007年

10 北京 蔡德聪 孙宇瑞;BS2系列微功耗数据采集系统[N];电子报;2001年

相关博士学位论文 前4条

1 田楷云;地球物理勘探设备中数据采集部分若干关键技术研究[D];中国科学技术大学;2015年

2 向冬;基于CC的工业数据采集系统开发方法研究[D];西北工业大学;2006年

3 赵志刚;大面积高分辨率数字X射线探测器关键技术的研究[D];华中科技大学;2010年

4 刘列峰;一种可扩展的大规模地球物理勘探数据采集系统研究[D];中国科学技术大学;2014年

相关硕士学位论文 前10条

1 范昊;小型水质数据采集系统及改进的kNN预警算法研究[D];浙江大学;2015年

2 候彬彬;存储式井下数据采集系统设计[D];西安石油大学;2015年

3 付敏;基于分布式光纤振动传感的采集系统分析[D];复旦大学;2014年

4 聂小伟;基于ARM与GPRS的油烟机数据采集系统的设计与实现[D];华中师范大学;2015年

5 王s

本文编号:1772622


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1772622.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e0a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com