基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发
发布时间:2017-09-09 03:34
本文关键词:基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发
更多相关文章: 主题爬虫 正文提取 相似度计算 热点话题提取 single-pass聚类 舆情分析
【摘要】:近年来“食品安全”问题屡见不鲜,严重影响到人们的日常生活,为了能够及时的从网络新闻中发现可能会爆发的热点话题,尤其是具有负面影响的食品安全事件,帮助政府相关部门及时了解事件的发展动向和社会舆论,本文对其进行了方法研究和实现。本文的主要研究内容可以分为三个部分:主题爬虫的改进和实现、舆情分析及话题提取、食品安全舆情分析系统的开发。对于主题爬虫部分,在主题爬虫技术的基本原理和关键技术的基础上,提出了一种改进的主题爬虫方法:将传统的网页正文获取技术进行了改进,得到一种基于HTML代码解析和文字密度相结合的正文抽取方法,可以一定程度提高正文抽取的准确率;将文本相似度计算中的向量空间模型方法进行了改进,得到一种降维VSM的多参考因素的相似度计算方法,并结合网页内容与主题内容进行相似度的计算;与此同时,优化了爬虫的初始种子模块和动态阈值调整模块;对大规模URL的排序、去重和多线程也进行了相应的改进。经过对各个模块的优化,实现了-个面向特定主题的爬虫系统,通过实验对比,证明改进后的主题爬虫在效率和精确度方面都得到了较大的提高。在舆情分析及话题提取部分,通过比较几种常用聚类算法的优缺点,最终选择使用single-pass聚类算法;并对single-pass聚类算法进行了改进,将聚类过程中的簇中心向量确定方法进行了修正,得到一种基于时间参考因素的多层single-pass聚类算法;对传统的话题提取过程进行了改进,得到一种基于向量空间模型的改进single-pass聚类方法的话题提取技术。最后通过实验对比验证改进后的聚类算法以及话题提取方法的效率以及准确度都得到了一定的提高。本文最后实现了一个食品安全舆情分析系统,通过主题爬虫将互联网上的相关数据下载下来,经过相应的数据整理,使用single-pas s聚类算法进行热点话题提取,可以及时发现近期发生的食品安全热点事件。
【关键词】:主题爬虫 正文提取 相似度计算 热点话题提取 single-pass聚类 舆情分析
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TS201.6;TP391.1
【目录】:
- 学位论文数据集3-4
- 摘要4-6
- ABSTRACT6-14
- 第一章 绪论14-20
- 1.1 研究背景14-15
- 1.2 国内外研究现状15-18
- 1.2.1 主题爬虫的研究现状15-16
- 1.2.2 聚类方法的研究现状16-17
- 1.2.3 网络舆情及话题提取的研究现状17-18
- 1.3 本文的主要研究内容18-19
- 1.4 论文组织结构19-20
- 第二章 爬虫相关技术20-32
- 2.1 搜索引擎简介20-22
- 2.2 通用爬虫技术22-24
- 2.2.1 通用爬虫简介22-23
- 2.2.2 通用爬虫的常用搜索策略23-24
- 2.3 主题爬虫技术24-28
- 2.3.1 主题爬虫简介24-25
- 2.3.2 主题爬虫的常用搜索策略25-28
- 2.4 主题爬虫与通用爬虫的比较28
- 2.5 文本聚类算法28-31
- 2.5.1 划分聚类算法28-29
- 2.5.2 层次聚类算法29-30
- 2.5.3 密度聚类算法30
- 2.5.4 single-pass聚类算法30
- 2.5.5 几种聚类算法的比较30-31
- 2.6 本章小结31-32
- 第三章 主题爬虫的改进与实现32-58
- 3.1 主题爬虫系统结构32-33
- 3.2 爬虫主题的确定33-34
- 3.3 初始种子的优化改进34-36
- 3.4 基于文字密度的网页正文提取36-41
- 3.4.1 机器人协议36
- 3.4.2 http协议和socket通信36-37
- 3.4.3 基于文字密度的网页正文提取37-41
- 3.5 基于向量空间模型的文本相似度计算41-46
- 3.5.1 中文分词及预处理技术41-42
- 3.5.2 向量空间模型42-46
- 3.6 降维度VSM的多参考因素相似度改进算法46-47
- 3.6.1 VSM的优缺点46
- 3.6.2 降维的改进向量空间模型46-47
- 3.6.3 改进VSM的多参考因素相似度计算47
- 3.7 动态阈值的调整47-49
- 3.8 URL的优先级排序49-50
- 3.9 爬虫过程中存在的其他问题50-53
- 3.9.1 多线程50-52
- 3.9.2 大规模URL的去重52
- 3.9.3 大规模URL的存储52-53
- 3.10 改进后主题爬虫的流程图53-54
- 3.11 对比实验设计54-57
- 3.11.1 改进后的主题爬虫与Heritrix爬虫的比较55
- 3.11.2 准确率和召回率的比较55-57
- 3.12 本章小结57-58
- 第四章 基于主题爬虫的舆情监测和话题提取58-68
- 4.1 网络舆情监测概述58-59
- 4.2 single-pass聚类算法59-60
- 4.3 聚类算法实验对比60-61
- 4.4 话题检测和提取61-64
- 4.4.1 话题提取的过程61-62
- 4.4.2 single-pass聚类算法改进62-63
- 4.4.3 single-pass聚类算法实验对比63-64
- 4.5 热点话题提取过程64-66
- 4.5.1 改进single-pass聚类算法的话题提取过程64
- 4.5.2 话题提取实验比较64-66
- 4.6 本章小结66-68
- 第五章 舆情分析原型系统开发68-76
- 5.1 舆情分析系统的总体设计68-69
- 5.1.1 舆情分析系统的系统架构68-69
- 5.1.2 舆情分析系统的开发环境69
- 5.2 食品安全舆情分析系统主要功能69-70
- 5.3 食品安全舆情分析系统展示70-74
- 5.3.1 主题爬虫界面70-72
- 5.3.2 舆情分析系统界面72-74
- 5.4 本章小结74-76
- 第六章 总结与展望76-78
- 6.1 总结76
- 6.2 展望76-78
- 参考文献78-82
- 致谢82-84
- 作者和导师简介84-85
- 附件85-86
本文编号:818047
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/818047.html