主题爬虫关键技术研究
本文关键词:主题爬虫关键技术研究
【摘要】:互联网是一个含有海量信息资源的共享平台,用户从该平台上查找信息需要借助搜索引擎,但是随着用户专业性、个性化需求的提高,只能提供粗略、普遍查询结果的通用搜索引擎已经不能满足用户的搜索需求,因此出现了另一种搜索引擎——垂直搜索引擎。主题爬虫作为垂直搜索引擎的重要组成部分,为垂直搜索引擎提供专业的网页资源,主题爬虫的性能直接影响了垂直搜索引擎的优劣。论文主要围绕主题爬虫的关键技术进行研究,主要内容包括:(1)传统的基于关键词的主题描述方法关键词数量多、缺乏关联性,降低了主题描述的准确性,针对传统方法的这一不足,通过训练主题文档获得主题关键词集合,然后通过上下位词、同义词的替换整合,在降低向量维度的同时,提高主题描述的准确性。(2)分析了传统的TF-IDF权重计算方法,针对该方法“一视同仁”与类间高频词项提取不佳的不足,将位置函数和调节因子引入权重计算方法,提出了一种改进的权重计算方法M-TFIDF,提高了权重计算的精度。通过构建主题向量与网页向量,根据两个向量的夹角判断网页的主题相关性。(3)重点研究了基于文本内容的网页搜索策略Shark-Search与基于链接的网页搜索策略HITS,针对前者缺乏全局性与后者容易发生主题漂移现象的不足,提出了一种两者结合的网页搜索策略(M-SH)。同时该策略改善了Shark-Search与HITS的局限性,增加了URL地址并改进了锚文本等主题相关度预测,并将主题相关网页的URL加入扩展集合。改进的网页搜索策略M-SH提高了预测URL主题相关度的准确性。(4)从线下与线上两方面进行了对比实验,一方面进行主题相关性判断实验,另一方面对开源网络爬虫NWeb Crawler进行了二次开发,进行综合爬取实验。通过将词项整合、M-TFIDF、M-SH分别与原有方法进行对比实验,从收获率、召回率、F值三个方面验证了改进方法具有良好的性能。
【关键词】:主题爬虫 主题描述 相关度计算 主题预测
【学位授予单位】:石家庄铁道大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-9
- 第一章 绪论9-16
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-14
- 1.2.1 搜索引擎国内外研究现状10-12
- 1.2.2 主题爬虫国内外研究现状12-14
- 1.3 主要研究内容14-15
- 1.4 论文组织结构15-16
- 第二章 主题爬虫概述16-29
- 2.1 通用爬虫16-18
- 2.1.1 通用爬虫的基本原理16-17
- 2.1.2 通用爬虫的结构17-18
- 2.2 主题爬虫18-22
- 2.2.1 主题爬虫的概念与原理18-20
- 2.2.2 主题爬虫的系统结构20-22
- 2.3 主题爬虫相关技术22-28
- 2.3.1 网页的获取22-24
- 2.3.2 网页解析24-26
- 2.3.3 网页搜索策略26-28
- 2.4 本章小结28-29
- 第三章 主题描述及网页主题相关度计算29-45
- 3.1 主题描述及主题表示模型29-32
- 3.1.1 主题描述29-30
- 3.1.2 主题表示模型30-32
- 3.2 网页主题相关度计算32-44
- 3.2.1 相关度计算流程32-33
- 3.2.2 构建主题词项33-37
- 3.2.3 主题词项赋权37-43
- 3.2.4 构建网页向量43
- 3.2.5 相关度计算43-44
- 3.3 本章小结44-45
- 第四章 网页搜索策略45-62
- 4.1 基于文本内容的搜索策略45-49
- 4.1.1 Fish-Search45-47
- 4.1.2 Shark-Search47-49
- 4.2 基于链接关系的搜索策略49-54
- 4.2.1 PageRank49-50
- 4.2.2 HITS50-52
- 4.2.3 HillTop52-54
- 4.3 搜索策略的比较54-55
- 4.4 网页搜索策略M-SH55-61
- 4.4.1 改进Shark-Search55-57
- 4.4.2 改进HITS57-58
- 4.4.3 M-SH58-61
- 4.5 本章小结61-62
- 第五章 实验分析62-77
- 5.1 实验环境62
- 5.2 实验评价指标62-64
- 5.3 主题相关性判断实验64-69
- 5.3.1 词项的获取64-65
- 5.3.2 主题相关度计算65-68
- 5.3.3 阈值的确定68-69
- 5.4 综合爬取实验69-76
- 5.4.1 NWeb Crawler与主题爬虫69-73
- 5.4.2 初始种子与参数的确定73
- 5.4.3 实验与分析73-76
- 5.5 本章小结76-77
- 第六章 总结77-78
- 参考文献78-81
- 致谢81-82
- 个人简历、在学期间的研究成果及发表的学术论文82
【相似文献】
中国期刊全文数据库 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
3 张W,
本文编号:905703
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/905703.html