基于WEB页面的主题搜索的研究与实现
发布时间:2017-05-17 22:04
本文关键词:基于WEB页面的主题搜索的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着网络时代的到来,互联网的发展十分迅猛,网络中的信息资源越来越丰富,用户主要通过搜索引擎来获取所需的网络信息。由于WEB网页信息的爆炸式增长以及实时更新等特点,如何在海量的网络信息中获取人们搜索的特定主题信息,成为人们研究的重点课题。 本论文的主要研究内容是在设计实现考研信息采集系统的基础上,基于WEB页面、针对考研信息采集的主题搜索,着重研究了主题搜索的关键技术,重点介绍了主题网络爬虫的搜索算法、主题相关度判定、网页文本分类算法在该系统的设计与实现。本文的主要工作和创新点在于: 1.主题爬虫的搜索算法设计与实现:在设计考研信息采集系统的主题爬虫时,通过遗传算法能够从全局中选择最优化来控制考研主题爬虫的爬行方向,避免其陷入局部最优中。同时,非贪婪策略对URL链接对应的页面有选择的进行采集,将二者相结合,提出了非贪婪搜索遗传算法,这样既能保证主题爬虫爬行方向的正确性,又能保证采集页面的主题相关性。 2.主题相关度判定设计与实现:通过建立向量空间模型对采集页面包含的信息进行主题相关度的判定,本系统利用超链接所处的页面、对应的锚文本、链接自身来计算主题的相关度。 3.网页文本分类算法设计与实现:通过K-均值算法对初始数据的完整数据集进行聚类,计算缺失数据集中的记录与簇的相似性,将其加入对应的簇中,然后通过朴素贝叶斯分类算法进行分类。经过实验测试,改进后的K-均值朴素贝叶斯算法的性能得到明显的改善。 综合以上的各项研究,详细描述了主题网络爬虫在考研信息采集系统的设计及实现过程。通过对主题爬虫的性能测试,验证了本系统设计的主题爬虫搜索算法的有效性。
【关键词】:主题网络爬虫 搜索算法 主题搜索 主题相关度
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-16
- 1.1 研究背景和意义10-11
- 1.2 搜索引擎概述11-13
- 1.2.1 搜索引擎的概念11
- 1.2.2 搜索引擎分类11-12
- 1.2.3 主题搜索引擎12-13
- 1.3 主题搜索引擎的发展及研究现状13
- 1.4 研究内容和组织结构13-16
- 1.4.1 本文的研究内容13-14
- 1.4.2 本文的组织结构14-16
- 第二章 搜索引擎工作原理16-22
- 2.1 搜索引擎工作原理16-17
- 2.2 搜索引擎关键技术17-18
- 2.3 通用搜索引擎的不足18-19
- 2.4 搜索引擎核心技术19-21
- 2.4.1 网络爬虫19-20
- 2.4.2 网页排名算法20-21
- 2.5 本章小结21-22
- 第三章 主题搜索引擎技术22-30
- 3.1 主题搜索引擎概述22-24
- 3.1.1 产生背景22-23
- 3.1.2 基本体系结构23
- 3.1.3 主题搜索引擎的关键技术23-24
- 3.2 主题网络爬虫24-29
- 3.2.1 通用网络爬虫概述24-26
- 3.2.2 主题网络爬虫的工作原理26
- 3.2.3 主题网络爬虫的设计26-28
- 3.2.4 主题网络爬虫的关键技术28-29
- 3.3 本章小结29-30
- 第四章 系统关键技术研究30-49
- 4.1 主题网络爬虫的非贪婪遗传算法30-35
- 4.1.1 基于网络搜索的遗传算法30-31
- 4.1.2 基于超链接的非贪婪选择策略31-32
- 4.1.3 非贪婪遗传搜索算法的介绍32-33
- 4.1.4 相关性能分析33-35
- 4.2 HTML网页解析35-37
- 4.2.1 HTML网页的基本结构35-36
- 4.2.2 HTML网页的树型结构36
- 4.2.3 HTML网页解析36-37
- 4.3 WEB网页信息分析37-40
- 4.3.1 网页文本信息预处理37
- 4.3.2 网页文本中文分词方法37-39
- 4.3.3 特征向量权重计算39-40
- 4.4 页面主题相关度判定40-44
- 4.4.1 网页文本内容与主题相关度的判定40-42
- 4.4.2 URL超链接与主题相关度的判定42-44
- 4.5 WEB网页文本分类算法44-47
- 4.5.1 WEB网页文本分类概述44
- 4.5.2 朴素贝叶斯分类算法介绍44-45
- 4.5.3 基于改进的K-均值的朴素贝叶斯分类算法介绍45-47
- 4.5.4 性能分析47
- 4.6 本章小结47-49
- 第五章 主题搜索在考研信息采集系统中的应用设计49-69
- 5.1 系统概述49-51
- 5.1.1 系统的设计原则49
- 5.1.2 系统的基本结构49-51
- 5.2 初始种子URL链接选取模块的设计51-53
- 5.3 URL超链接调度模块的设计53-56
- 5.3.1 URL链接的类型53-54
- 5.3.2 URL链接的调度54-56
- 5.4 页面采集模块的设计56-57
- 5.5 页面解析模块的设计57-62
- 5.5.1 页面结构解析57-59
- 5.5.2 网页文本分析59-62
- 5.6 主题相关性判定模块的设计62-65
- 5.7 数据存储模块的设计65-66
- 5.7.1 存储数据类型65-66
- 5.7.2 数据库的设计66
- 5.8 信息查询模块的设计66-68
- 5.9 本章小结68-69
- 第六章 系统测试与分析69-76
- 6.1 实验环境设置69
- 6.2 系统实现69-72
- 6.3 性能指标72-73
- 6.4 结果分析73-75
- 6.5 本章小结75-76
- 第七章 总结与展望76-78
- 7.1 研究工作的总结76
- 7.2 下一步的工作展望76-78
- 参考文献78-81
- 致谢81
【参考文献】
中国期刊全文数据库 前10条
1 陆锋;最短路径算法:分类体系与研究进展[J];测绘学报;2001年03期
2 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
3 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
4 王熙照,王亚东,湛燕,袁方;学习特征权值对K-均值聚类算法的优化[J];计算机研究与发展;2003年06期
5 石晶,龚震宇,裘杭萍,张毓森;一种更稳定的链接分析算法——子空间HITS算法[J];吉林大学学报(理学版);2003年01期
6 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
7 秦锋;任诗流;程泽凯;罗慧;;基于属性加权的朴素贝叶斯分类算法[J];计算机工程与应用;2008年06期
8 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
9 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
10 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
本文关键词:基于WEB页面的主题搜索的研究与实现,由笔耕文化传播整理发布。
,本文编号:374565
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/374565.html