当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎的主题网页抓取策略研究

发布时间:2016-10-31 13:06

  本文关键词:垂直搜索引擎的主题网页抓取策略研究,由笔耕文化传播整理发布。


《重庆理工大学》 2012年

垂直搜索引擎的主题网页抓取策略研究

谢治军  

【摘要】:随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入口和指南并受到广大用户的青睐。然而,传统的搜索引擎正面临着网页索引规模、更新速度、个性化需求和查询结果精度低等多方面的严峻挑战。为解决传统搜索引擎所面临的突出问题,,面向特定主题的垂直搜索引擎便应运而生。主题网页抓取技术是构建垂直搜索引擎的核心技术,它的目标是尽可能多地抓取与特定主题内容相关的网页,同时最大限度地避免无关网页的抓取。因此,对主题网页抓取策略的研究具有十分重要的意义。 本文主要以垂直搜索引擎的主题网页抓取策略作为研究内容,从提高主题网页抓取的准确率和效率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。重点分析了基于隐马尔科夫模型的主题网页抓取策略的实现和优缺点,以此为基础,提出了一种改进的主题网页抓取策略。为了使特征词权重更能代表网页的真实内容,改进了网页预处理后的特征词权重的计算方式,对网页中不同位置的特征词赋予不同的权重。为了提高主题网页抓取的准确率,改进了待爬行队列中URL优先权值的计算方法,综合考虑了隐马尔科夫模型方法和网页内容相关度方法。 为了验证改进算法的性能和效率,本文将改进后的方法与隐马尔科夫方法和Best-First方法进行对比,实验结果表明,在抓取大量主题网页时,改进后的方法能抓取大量与给定主题相关的高质量网页,主题爬行性能优于改进前的隐马尔科夫方法和Best-First方法。

【关键词】:
【学位授予单位】:重庆理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前8条

1 宋宇;孟祥增;;基于改进Fish-search算法的多媒体检索[J];计算机工程;2008年11期

2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

3 连浩;刘悦;许洪波;程学旗;;改进的基于布尔模型的网页查重算法[J];计算机应用研究;2007年02期

4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

5 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期

6 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期

7 陈军;陈竹敏;;基于网页分块的Shark-Search算法[J];山东大学学报(理学版);2007年09期

8 谢治军;杨武;李稚楹;宋静静;;基于HMM的主题爬虫研究[J];重庆工商大学学报(自然科学版);2012年02期

中国博士学位论文全文数据库 前2条

1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

中国硕士学位论文全文数据库 前5条

1 向虹;基于HMM的协议异常检测技术研究[D];北京交通大学;2007年

2 倪贤贵;聚焦爬虫技术研究[D];江南大学;2008年

3 朱克峰;基于隐马尔科夫模型的人脸认证算法研究[D];北京交通大学;2009年

4 吴世杰;基于支持向量机分类算法的主题爬虫的研究与实现[D];华中师范大学;2009年

5 彭乐;基于HMM的定题信息采集研究与实践[D];东华大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期

2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

5 谢能付;王文生;段延娥;;基于概念空间的领域信息爬虫设计研究[J];江西师范大学学报(自然科学版);2008年02期

6 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

7 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期

8 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

9 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期

10 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期

中国重要会议论文全文数据库 前5条

1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

中国博士学位论文全文数据库 前10条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

3 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年

4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

8 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

10 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

中国硕士学位论文全文数据库 前10条

1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年

2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

5 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年

6 钟锐;基于隐马尔科夫模型的入侵检测系统研究[D];江西理工大学;2010年

7 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

8 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

9 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 王玲;穆志纯;郭辉;;一种基于聚类的支持向量机增量学习算法[J];北京科技大学学报;2007年08期

3 徐光美;杨炳儒;秦奕青;张伟;;基于互信息的多关系朴素贝叶斯分类器[J];北京科技大学学报;2008年08期

4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期

5 张明卫;王波;张斌;朱志良;;基于相关系数的加权朴素贝叶斯分类算法[J];东北大学学报(自然科学版);2008年07期

6 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期

7 傅明,史长琼,彭玉旭;基于Internet的空间数据搜索引擎的研究与设计[J];电脑与信息技术;2000年04期

8 卢微;;隐马尔可夫模型在自然语言理解研究中的应用[J];电脑与信息技术;2007年01期

9 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期

10 柳征;王明阳;姜文利;周一宇;;一种新的贝叶斯调制分类算法[J];电子与信息学报;2006年07期

中国博士学位论文全文数据库 前4条

1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年

2 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年

3 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年

4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

中国硕士学位论文全文数据库 前3条

1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年

2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年

3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年

【相似文献】

中国期刊全文数据库 前10条

1 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

2 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

3 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

4 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

5 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

7 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期

9 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

10 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期

中国重要会议论文全文数据库 前10条

1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

4 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

7 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年

8 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

9 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

10 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国重要报纸全文数据库 前10条

1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

2 王艳;[N];中国旅游报;2000年

3 赛迪网 方刚;[N];中国计算机报;2000年

4 王靖;[N];人民日报海外版;2000年

5 记者 王浒;[N];中国旅游报;2009年

6 本报记者 王宏;[N];中国计算机报;2001年

7 徐瑾 张玉;[N];人民邮电;2009年

8 ;[N];计算机世界;2005年

9 本报记者 王晓雁;[N];法制日报;2009年

10 记者 吴德群;[N];深圳特区报;2009年

中国博士学位论文全文数据库 前10条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年

5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

6 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年

7 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年

8 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年

9 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年

10 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

中国硕士学位论文全文数据库 前10条

1 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

2 刘建明;垂直搜索引擎中的主题爬虫技术研究[D];广东工业大学;2013年

3 刘相琴;大豆主题垂直搜索引擎关键技术的研究与设计[D];东北农业大学;2013年

4 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年

5 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年

6 陈高维;基于垂直搜索引擎的旅游线路评价推荐系统的设计与实现[D];电子科技大学;2010年

7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

8 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年

9 王延臣;基于高校信息垂直搜索引擎的研究与实现[D];沈阳建筑大学;2012年

10 张斌;基于本体的食品安全垂直搜索引擎研究[D];浙江工业大学;2013年


  本文关键词:垂直搜索引擎的主题网页抓取策略研究,由笔耕文化传播整理发布。



本文编号:159927

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/159927.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b17c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com