主题网络爬虫的定义_网络爬虫有什么_《北京邮电大学》2013年硕士论文
本文关键词:主题网络爬虫的分析与设计,由笔耕文化传播整理发布。
《北京邮电大学》 2013年
主题网络爬虫的分析与设计
王洪威
【摘要】:随着互联网技术的不断发展,浩瀚的网络信息资源给人类的生活造成了深刻的影响。于是如何合理利用,并且怎么去完善它们成为了现在的主题关键,因为人们更加注重于如何从互联网上搜索到自己想要的信息,这就需要搜索引擎的支持。然而,正是由于互联网上信息成千上万,信息过于膨胀,才‘使得如何通过网页便捷地查询到目标信息变得很重要。以往的通用搜索引擎很大程度上帮助人们在互联网查找信息更加方便,然而,慢慢地也暴露了很多弊端,大部分情况下不能提供个性化专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域和人群的要求,更适应于社会形势。主题网络爬虫由此作为一种工具,在主题搜索引擎领域,发挥着越来越重要的作用,正因如此,以主题网络爬虫为核心的主题搜索引擎成为研究的重中之重,并且对于主题网络爬虫的研究,也逐渐成为目前信息挖掘领域的热点。 本文就是通过自己对现有搜索引擎发展的基本了解,针对性地开展对主题网络爬虫进行的研究,本文主要通过六个章节来分析主题爬虫的设计和实现。主要研究内容如下: 1.主要阐述了课题研究的背景,并对国内外的对主题爬虫的研究现状以及课题的研究意义进行了综述; 2.通过介绍搜索引擎的发展,阐述了搜索引擎的基本原理并由此引入了对于网络爬虫的相关介绍,随后还进行了两者之间的对比,重点研究了两种爬虫的体系结构和基本工作原理; 3.对主题爬虫领域关键技术进行了详细介绍和对比,同时对于网络中普遍存在的隧道现象也进行了针对性的算法改进并进行了编码实现,最后还对于不同的算法也说明了其相关度计算方式; 4.探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词、管理等模块等; 5.重点对主题爬虫系统的实施办法进行了研究和详细设计,利用该系统主要的数据分析方式,集合实验数据得出分析结果,证明了前述章节中各个理论的合理性与有效性。 6.最后对前面章节内容进行的总结与归纳,并提出本文的创新点与局限性。 实验表明:对于本人提出的详细改进策略应用到主题爬虫实际工作中具有明显的优越性,不仅保证了较高的收获比,而且极大减少了存储空间和爬取时间。保证了网页的及时更新,此外大量分析还表明’对于用户使用过程中会剔除更多的冗余信息,具有较高的查准率。
【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
3 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
4 李丽;朱国同;陈秀娟;井西利;;模拟退火算法的改进及在静校正中的应用[J];大庆石油地质与开发;2008年05期
5 徐家树;邢立新;覃征;;超链接文本相关度的PageRank算法[J];哈尔滨工业大学学报;2009年01期
6 王福昌;张艳芳;;一种改进模拟退火算法在非线性方程组求解中的应用[J];航空计算技术;2007年06期
7 刘向东 ,骆斌 ,陈兆乾;支持向量机最优模型选择的研究[J];计算机研究与发展;2005年04期
8 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
9 赵仲孟;张蓓;沈均毅;;对搜索引擎未来发展的探讨[J];计算机科学;2001年03期
10 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
中国重要会议论文全文数据库 前1条
1 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前3条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
3 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
【共引文献】
中国期刊全文数据库 前10条
1 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
2 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
3 张宏达;王晓丹;徐海龙;;用于RBF-SVM参数搜索的伪梯度动态步长算法[J];电子科技大学学报;2010年04期
4 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
5 敖东阳;刘好杰;;Larbin分析与Windows平台下移植[J];电脑学习;2009年04期
6 丁伟;谢彦峰;张忠林;;一种基于用户兴趣的搜索引擎输入信息处理方法[J];电脑与信息技术;2008年05期
7 蒋明亮;李志清;;网站内容检索系统的设计[J];电脑知识与技术;2009年05期
8 熊馨;康国磊;胡光武;巩建伟;;基于Web Service的分布式网站内容监控系统设计[J];电脑知识与技术;2009年18期
9 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
10 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
中国重要会议论文全文数据库 前5条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 吴东辰;;比较国内外几种主要的搜索引擎[A];福建省图书馆学会2005年学术年会论文集[C];2005年
3 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
5 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
2 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
5 高雅田;基于MAS的数据挖掘模型自动选择方法研究[D];东北石油大学;2011年
6 贾磊;核方法模型选择与模型组合的谱方法[D];天津大学;2010年
7 金珠;改进的支持向量机分类算法及其在煤矿人因事故安全评价中的应用[D];中国矿业大学;2011年
8 申文武;无结构P2P网络中基于语义和节点存储能力的搜索关键技术研究[D];北京邮电大学;2011年
9 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
10 牟少敏;核方法的研究及其应用[D];北京交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
3 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
4 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
5 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
6 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
7 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
8 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
9 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
10 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘长河;汪元伦;;求非线性方程组的数值解的MRV迭代法的特殊应用[J];北京建筑工程学院学报;2006年03期
2 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
3 赵晶;唐焕文;朱训芝;;模拟退火算法的一种改进及其应用研究[J];大连理工大学学报;2006年05期
4 纪晨,姚振兴;用于地球物理反演的均匀设计优化算法[J];地球物理学报;1996年02期
5 师学明,王家映,张胜业,胡祥云;多尺度逐次逼近遗传算法反演大地电磁资料[J];地球物理学报;2000年01期
6 刘伊克,常旭,王辉,李福中;三维复杂地形近地表速度估算及地震层析静校正[J];地球物理学报;2001年02期
7 林依华,张中杰,尹成,周熙襄;复杂地形条件下静校正的综合寻优[J];地球物理学报;2003年01期
8 井西利;杨长春;;求解地震静校正问题的双尺度反演方法[J];地球物理学报;2006年05期
9 师学明;王家映;易远元;苑新喜;王晓明;张云姝;;一种新的地球物理反演方法——模拟原子跃迁反演法[J];地球物理学报;2007年01期
10 姚姚;地球物理非线性反演模拟退火法的改进[J];地球物理学报;1995年05期
中国硕士学位论文全文数据库 前2条
1 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
2 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
2 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期
3 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期
4 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
5 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期
6 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期
7 石柯;周利兵;陶文兵;;基于移动代理的MAISE爬虫的设计与实现[J];华中科技大学学报(自然科学版);2005年S1期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
10 谢娟文;秦淑娟;焦爱胜;;人工智能在搜索引擎资源获取中的应用[J];机械研究与应用;2009年02期
中国重要会议论文全文数据库 前10条
1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年
6 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 李一鑫;[N];财经时报;2007年
2 周文林;[N];经济参考报;2007年
3 惠正一;[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年
5 陈珊;[N];人民邮电;2005年
6 赵法忠;[N];中国经营报;2005年
7 金朝力;[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;[N];中国证券报;2006年
9 孙琎;[N];第一财经日报;2006年
10 姜蕊;[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
2 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
3 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
4 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年
5 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年
6 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
7 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
8 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
9 周旭;BBS热点分析系统研究[D];北京交通大学;2007年
10 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
本文关键词:主题网络爬虫的分析与设计,,由笔耕文化传播整理发布。
本文编号:73552
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/73552.html