互联网舆情监控系统的关键技术研究与实现
本文关键词:互联网舆情监控系统的关键技术研究与实现
【摘要】:基于互联网的舆情分析已被广泛应用,但随着新的交流平台的出现,互联网舆情分析也在不断的扩充与完善。如今互联网舆情监控已经覆盖到微博、微信、论坛、博客、贴吧、新闻等各个方面。微博作为近年来最流行的网络社交工具之一,其传播快、互动性强等特点,已发展为重要的互联网信息交流共享平台。目前微博舆情监控尚存在一些不足之处,本文着重从微博出发,对微博舆情监控相关技术进行分析与研究。本论文的主要研究工作及研究成果如下:针对微博短文本的特点,分析了微博短文本信息预处理方案,并对微博中的“未登录词”进行识别。根据微博文本的特殊形式,提取微博话题内文本,经过过滤并计算互信息值等步骤识别微博新词。建立未登录词词库,从而提高微博文本分词效果。对传统舆情监控中所涉及到的相关理论和技术进行了研究,对比传统文本与微博短文本之间的差异。深入分析传统文本聚类算法在微博短文本聚类中的局限性,借助VSM向量空间模型和LDA文档主题生成模型对K-means聚类算法性能进行优化,优化了K-means初始中心的确立方法和文本相似度计算公式,提高了聚类的准确率。互联网媒体早已深入广大人民的日常生活中,网友的高度活跃导致对国内外任何热点事件都能立马产生舆情。在给人们的交流带来了巨大的方便的同时,也已经成为了社会舆情传播的重要载体。因此,舆情监测对于国家政府及网络监管部门来说是十分必要的。
【关键词】:互联网 舆情监控 微博 未登录词 文本聚类
【学位授予单位】:东华理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-9
- 第一章 绪论9-13
- 1.1 课题背景及研究意义9-10
- 1.1.1 舆情概述9
- 1.1.2 研究的目的和意义9-10
- 1.2 国内外研究现状10-11
- 1.3 学位论文的主要内容11-13
- 第二章 相关理论与技术研究13-29
- 2.1 舆情监控技术框架13-15
- 2.1.1 舆情监控系统概述13
- 2.1.2 系统框架结构13-14
- 2.1.3 舆情监控系统关键技术14-15
- 2.1.4 舆情监控系统存在的问题15
- 2.2 微博Web文本信息获取技术15-17
- 2.2.1 基于网络爬虫的数据获取技术15-17
- 2.2.2 基于微博开放平台的数据获取技术17
- 2.3 中文分词技术17-18
- 2.4 特征降维18-21
- 2.4.1 特征选择18-20
- 2.4.2 特征权重计算20-21
- 2.5 文本表示21-24
- 2.5.1 空间向量模型21-23
- 2.5.2 布尔模型23-24
- 2.5.3 概率模型24
- 2.5.4 语言模型24
- 2.6 相似度计算24-25
- 2.7 文本聚类的主要方法25-28
- 2.8 本章小结28-29
- 第三章 微博文本预处理及未登录词识别29-39
- 3.1 短文本数据特点分析29
- 3.2 微博短文本预处理29-32
- 3.2.1 符号预处理30-31
- 3.2.2 中文分词31-32
- 3.3 未登录词识别算法32-36
- 3.3.1 未登录词识别32-33
- 3.3.2 微博未登录词识别算法33-36
- 3.4 实验与结果分析36-38
- 3.4.1 实验环境36
- 3.4.2 数据采集36
- 3.4.3 实验结果36-37
- 3.4.4 结果分析37-38
- 3.5 本章小结38-39
- 第四章 微博短文本聚类技术研究与优化39-55
- 4.1 向量空间模型39-40
- 4.2 文档主题生成模型40-42
- 4.3 基于LDA的传统K-means算法42-44
- 4.3.1 算法思想描述43-44
- 4.3.2 存在的局限44
- 4.4 优化的K-means算法44-48
- 4.4.1 初始中心的确定优化45-46
- 4.4.2 文本相似度计算优化46-47
- 4.4.3 整体优化的K-means聚类算法47-48
- 4.5 实验与结果分析48-53
- 4.5.1 实验环境48
- 4.5.2 文本聚类评价标准48-49
- 4.5.3 实验相关参数设定49-51
- 4.5.4 微博文本聚类结果与分析51-53
- 4.6 本章小结53-55
- 第五章 舆情监控系统设计与实现55-67
- 5.1 系统总体设计55-57
- 5.1.1 系统需求分析55
- 5.1.2 系统设计目标55-57
- 5.2 功能模块详细设计与实现57-63
- 5.2.1 数据采集模块57-59
- 5.2.2 文本预处理59-60
- 5.2.3 短文本聚类60
- 5.2.4 微博舆情分析模块60-63
- 5.3 系统功能描述63-65
- 5.3.1 系统设置63-64
- 5.3.2 数据采集64
- 5.3.3 监控设置64-65
- 5.3.4 门户管理65
- 5.4 本章小结65-67
- 第六章 总结与展望67-69
- 6.1 总结67
- 6.2 展望67-69
- 致谢69-71
- 参考文献71-73
【参考文献】
中国期刊全文数据库 前10条
1 于海欢;;大数据时代的网络舆情管理和应对[J];视听;2016年02期
2 王雨;;事业单位财务管理的科学化与精细化趋势分析[J];价值工程;2016年04期
3 吴青林;周天宏;;基于话题聚类及情感强度的中文微博舆情分析[J];情报理论与实践;2016年01期
4 李玲;刘华文;徐晓丹;赵建民;;基于信息增益的多标签特征选择算法[J];计算机科学;2015年07期
5 潘舒;祁云嵩;;多重假设检验及其在大数据特征降维中的应用[J];计算机科学;2015年S1期
6 崔保国;何丹嵋;;互联网驱动传媒产业增长——2014年中国传媒产业发展报告[J];中国报业;2015年11期
7 刘晋胜;;基于平均互信息的混合条件属性聚类算法[J];计算机科学;2015年03期
8 李纲;王丹丹;;社交网站用户个人信息披露意愿影响因素研究——以新浪微博为例[J];情报资料工作;2015年01期
9 徐涛;于洪志;加羊吉;;基于改进卡方统计量的藏文文本表示方法[J];计算机工程;2014年06期
10 丁兆云;贾焰;周斌;;微博数据挖掘研究综述[J];计算机研究与发展;2014年04期
中国博士学位论文全文数据库 前1条
1 董坚峰;面向公共危机预警的网络舆情分析研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 邹妍;网络舆情监控与分析系统的设计与实现[D];吉林大学;2015年
2 佟林;基于Hadoop平台的网络舆情分析系统的研究与实现[D];吉林大学;2015年
3 傅饶;基于中文分词的舆情监控系统分析模块的设计与实现[D];南京大学;2015年
4 贺伟;互联网舆情监控软件的设计开发[D];华南理工大学;2015年
5 姜朋;山东大学舆情分析系统的设计与实现[D];山东大学;2015年
6 刘峰;基于数据挖掘技术的舆情监控系统的设计与实现[D];电子科技大学;2015年
7 高天宏;互联网舆情分析中信息采集技术的研究与设计[D];北京邮电大学;2015年
8 冯金刚;网络舆情中文信息情感倾向分析研究[D];华北电力大学;2015年
9 毛立鹏;互联网舆情监控分析系统的设计与实现[D];西安电子科技大学;2014年
10 郭永辉;面向短文本分类的特征扩展方法[D];哈尔滨工业大学;2013年
,本文编号:682020
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/682020.html