面向教育舆情的主题网络爬虫设计与实现
本文关键词:面向教育舆情的主题网络爬虫设计与实现,由笔耕文化传播整理发布。
【摘要】:伴随互联网的快速发展,互联网逐渐成为大众获取各类型信息的主要渠道。同时当今互联网信息分类也在不断进行细化,网络信息的主题化也日益明显。针对目前通用搜索引擎搜所搜索到的结果过多,与主题相关性不强等情况,本文提出设计一个面向教育舆情的的主题网络爬虫,也是主题舆情监测系统的重要组成部分。当前主题网络爬虫的研究已成为热点,但针对教育舆情的主题网络爬虫研究还较少,因此针对教育舆情数据采集的主题网络爬虫研究是具有一定意义的。本文从当前我国互联网教育舆情监测为背景出发,通过分析当前搜索引擎相关知识、主题网络爬虫系统的主要工作模式、搜索算法、主题信息识别等相关技术。设计了一个面向教育舆情主题网络爬虫,通过该主题网络爬虫可以对互联网教育舆情信息进行高效的采集与识别。搜索算法是主题网络爬虫关键技术之一,因此本文主要对主题网络爬虫的搜索算法进行分析与改进,通过对传统主题网络爬虫搜索算法的分析,提出了一种基于云计算平台下的主题价值判断搜索算法,该算法主要包括了基于云平台的搜索任务调度算法、基于云节点下网站搜索算法、基于向量空间模型的主题识别算法和基于布隆过滤器的去重算法等。并利用了云平台的高效性和稳定性等特点,将主题网络爬虫的搜索算法与云平台相结合,解决了传统主题网络爬虫在单机模式下采集数据效率低下的问题。通过对该主题网络爬虫测试和相关实验数据分析表明,改进后的搜索算法与传统的主题网络爬虫搜索算法在采集网页效率上和搜索、发现网页比例上有着明显的提高。基于以上的研究,在今后的工作中,主要的研究方向是如何将该主题网络爬虫全面部署到云计算平台当中,解决主题网络爬虫在云平台中运行的其他关键性技术与算法,从而实现一个真正意义上的基于云平台的教育舆情主题网络爬虫。
【关键词】:主题网络爬虫 教育舆情 信息采集 C/S 蚁群算法
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要7-9
- Abstract9-14
- 第1章 绪论14-20
- 1.1 研究背景14-16
- 1.1.1 网络舆情14-15
- 1.1.2 教育舆情15-16
- 1.2 研究现状16-18
- 1.3 研究内容18-20
- 第2章 主题网络爬虫相关知识20-34
- 2.1 搜索引擎20-23
- 2.1.1 搜索引擎的概念20-21
- 2.1.2 搜索引擎的分类21-22
- 2.1.3 搜索引擎的工作原理22-23
- 2.2 相关技术23-29
- 2.2.1 云计算平台23-25
- 2.2.2 并行计算25-27
- 2.2.3 虚拟化技术27-28
- 2.2.4 Robots协议28-29
- 2.3 主题网络爬虫29-34
- 2.3.1 主题网络爬虫概述29-32
- 2.3.2 主题网络爬虫组成结构32-33
- 2.3.3 主题网络爬虫分类33-34
- 2.4 本章小结34
- 第3章 一种基于云平台的教育主题搜索算法分析与改进34-53
- 3.1 传统主题网络爬虫搜索算法分析34-40
- 3.1.1 基于深度优先搜索算法35
- 3.1.2 基于广度优先搜索算法35-36
- 3.1.3 基于最佳优先搜索算法36-40
- 3.2 基于云平台的教育主题搜索算法分析与改进40-50
- 3.2.1 云平台下的搜索模型分析40-41
- 3.2.2 云平台下的搜索任务调度算法分析与改进41-44
- 3.2.3 基于云平台的教育主题搜索算法分析与改进44-50
- 3.3 改进后搜索算法的性能比较50-52
- 3.3.1 改进后搜索算法采集网页能力比较分析50-51
- 3.3.2 改进后搜索算法性能比较分析51-52
- 3.4 本章小结52-53
- 第4章 面向教育舆情主题网络爬虫系统的设计与实现53-68
- 4.1 开发运行环境简介53-57
- 4.1.1 Embarcadero Delphi XE7介绍53-54
- 4.1.2 Microsoft SQL Server 2012介绍54-56
- 4.1.3 Windows Azure云计算平台介绍及搭建56-57
- 4.2 系统目标与需求分析57-59
- 4.2.1 系统目标57-58
- 4.2.2 系统需求分析58-59
- 4.3 系统总体设计59-62
- 4.3.1 系统模块设计59-61
- 4.3.2 系统流程设计61-62
- 4.4 基于云平台的教育主题搜索算法的实现62-65
- 4.4.1 云平台下的搜索任务调度算法实现62-64
- 4.4.2 向量空间模型算法实现64-65
- 4.5 基于贝叶斯分类算法的教育主题识别的实现65-67
- 4.5.1 贝叶斯分类算法实现流程65
- 4.5.2 贝叶斯分类算法部分函数实现65-67
- 4.6 本章小结67-68
- 第5章 系统测试和实验数据分析68-76
- 5.1 系统测试环境68-69
- 5.2 系统测试理论知识69-70
- 5.3 系统测试结果及分析70-74
- 5.4 本章小结74-76
- 第6章 结束语76-77
- 6.1 工作总结76
- 6.2 问题与展望76-77
- 参考文献77-82
- 作者攻读学位期间的科研成果82-83
- 致谢83
【相似文献】
中国期刊全文数据库 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年
本文关键词:面向教育舆情的主题网络爬虫设计与实现,由笔耕文化传播整理发布。
,本文编号:253427
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/253427.html