当前位置:主页 > 科技论文 > 搜索引擎论文 >

改进型实时爬虫的建模研究及其实现

发布时间:2018-03-30 00:34

  本文选题:搜索引擎 切入点:网络爬虫 出处:《吉林大学》2012年硕士论文


【摘要】:本文首先简单介绍搜索引擎以及实时搜索引擎产生的背景,然后详细描述了搜索引擎的模块之一——网络爬虫的原理、结构、分类等,并简要介绍近年来实时爬虫领域的一些研究成果。在现有的一些网络爬虫技术的基础上,针对目前它们存在的问题和不足之处,,本文提出了一个实时爬虫的模型,详尽阐述了该模型的推导过程、模型工作流程以及模型的各个组成模块等。在理论描述后,本文设计了实验用于验证和分析该爬虫的效果和性能。最后对本文的工作总结并展望。
[Abstract]:This paper first introduces the background of search engine and real-time search engine, then describes in detail the principle, structure, classification of web crawler, one of the modules of search engine. Some research achievements in the field of real-time crawler in recent years are briefly introduced. On the basis of some existing web crawler technologies, a real-time crawler model is proposed in this paper, aiming at their existing problems and shortcomings. The derivation process of the model, the workflow of the model and the components of the model are described in detail. In this paper, experiments are designed to verify and analyze the effect and performance of the reptile. Finally, the work of this paper is summarized and prospected.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 斌子;织网酷软 网页文件压缩助理——HTML Shrinker[J];网络与信息;2003年02期

2 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期

3 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期

4 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期

5 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

6 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期

7 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

8 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期

9 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期

10 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期

相关会议论文 前10条

1 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

3 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

5 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

7 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

8 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

9 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年

10 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

相关重要报纸文章 前10条

1 陶秋丰;万事俱备,只欠东风[N];电脑报;2007年

2 李一鑫;搜索排名的红与黑[N];财经时报;2007年

3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

相关博士学位论文 前10条

1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

5 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

6 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年

2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年

3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年

4 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年

5 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年

6 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年

7 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年

8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年

9 孙鹏;网页水印技术研究[D];上海交通大学;2010年

10 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年



本文编号:1683601

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1683601.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b5c21***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com