当前位置:主页 > 科技论文 > 软件论文 >

互联网舆情监控系统的关键技术研究与实现

发布时间:2017-08-16 07:21

  本文关键词:互联网舆情监控系统的关键技术研究与实现


  更多相关文章: 互联网 舆情监控 微博 未登录词 文本聚类


【摘要】:基于互联网的舆情分析已被广泛应用,但随着新的交流平台的出现,互联网舆情分析也在不断的扩充与完善。如今互联网舆情监控已经覆盖到微博、微信、论坛、博客、贴吧、新闻等各个方面。微博作为近年来最流行的网络社交工具之一,其传播快、互动性强等特点,已发展为重要的互联网信息交流共享平台。目前微博舆情监控尚存在一些不足之处,本文着重从微博出发,对微博舆情监控相关技术进行分析与研究。本论文的主要研究工作及研究成果如下:针对微博短文本的特点,分析了微博短文本信息预处理方案,并对微博中的“未登录词”进行识别。根据微博文本的特殊形式,提取微博话题内文本,经过过滤并计算互信息值等步骤识别微博新词。建立未登录词词库,从而提高微博文本分词效果。对传统舆情监控中所涉及到的相关理论和技术进行了研究,对比传统文本与微博短文本之间的差异。深入分析传统文本聚类算法在微博短文本聚类中的局限性,借助VSM向量空间模型和LDA文档主题生成模型对K-means聚类算法性能进行优化,优化了K-means初始中心的确立方法和文本相似度计算公式,提高了聚类的准确率。互联网媒体早已深入广大人民的日常生活中,网友的高度活跃导致对国内外任何热点事件都能立马产生舆情。在给人们的交流带来了巨大的方便的同时,也已经成为了社会舆情传播的重要载体。因此,舆情监测对于国家政府及网络监管部门来说是十分必要的。
【关键词】:互联网 舆情监控 微博 未登录词 文本聚类
【学位授予单位】:东华理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-13
  • 1.1 课题背景及研究意义9-10
  • 1.1.1 舆情概述9
  • 1.1.2 研究的目的和意义9-10
  • 1.2 国内外研究现状10-11
  • 1.3 学位论文的主要内容11-13
  • 第二章 相关理论与技术研究13-29
  • 2.1 舆情监控技术框架13-15
  • 2.1.1 舆情监控系统概述13
  • 2.1.2 系统框架结构13-14
  • 2.1.3 舆情监控系统关键技术14-15
  • 2.1.4 舆情监控系统存在的问题15
  • 2.2 微博Web文本信息获取技术15-17
  • 2.2.1 基于网络爬虫的数据获取技术15-17
  • 2.2.2 基于微博开放平台的数据获取技术17
  • 2.3 中文分词技术17-18
  • 2.4 特征降维18-21
  • 2.4.1 特征选择18-20
  • 2.4.2 特征权重计算20-21
  • 2.5 文本表示21-24
  • 2.5.1 空间向量模型21-23
  • 2.5.2 布尔模型23-24
  • 2.5.3 概率模型24
  • 2.5.4 语言模型24
  • 2.6 相似度计算24-25
  • 2.7 文本聚类的主要方法25-28
  • 2.8 本章小结28-29
  • 第三章 微博文本预处理及未登录词识别29-39
  • 3.1 短文本数据特点分析29
  • 3.2 微博短文本预处理29-32
  • 3.2.1 符号预处理30-31
  • 3.2.2 中文分词31-32
  • 3.3 未登录词识别算法32-36
  • 3.3.1 未登录词识别32-33
  • 3.3.2 微博未登录词识别算法33-36
  • 3.4 实验与结果分析36-38
  • 3.4.1 实验环境36
  • 3.4.2 数据采集36
  • 3.4.3 实验结果36-37
  • 3.4.4 结果分析37-38
  • 3.5 本章小结38-39
  • 第四章 微博短文本聚类技术研究与优化39-55
  • 4.1 向量空间模型39-40
  • 4.2 文档主题生成模型40-42
  • 4.3 基于LDA的传统K-means算法42-44
  • 4.3.1 算法思想描述43-44
  • 4.3.2 存在的局限44
  • 4.4 优化的K-means算法44-48
  • 4.4.1 初始中心的确定优化45-46
  • 4.4.2 文本相似度计算优化46-47
  • 4.4.3 整体优化的K-means聚类算法47-48
  • 4.5 实验与结果分析48-53
  • 4.5.1 实验环境48
  • 4.5.2 文本聚类评价标准48-49
  • 4.5.3 实验相关参数设定49-51
  • 4.5.4 微博文本聚类结果与分析51-53
  • 4.6 本章小结53-55
  • 第五章 舆情监控系统设计与实现55-67
  • 5.1 系统总体设计55-57
  • 5.1.1 系统需求分析55
  • 5.1.2 系统设计目标55-57
  • 5.2 功能模块详细设计与实现57-63
  • 5.2.1 数据采集模块57-59
  • 5.2.2 文本预处理59-60
  • 5.2.3 短文本聚类60
  • 5.2.4 微博舆情分析模块60-63
  • 5.3 系统功能描述63-65
  • 5.3.1 系统设置63-64
  • 5.3.2 数据采集64
  • 5.3.3 监控设置64-65
  • 5.3.4 门户管理65
  • 5.4 本章小结65-67
  • 第六章 总结与展望67-69
  • 6.1 总结67
  • 6.2 展望67-69
  • 致谢69-71
  • 参考文献71-73

【参考文献】

中国期刊全文数据库 前10条

1 于海欢;;大数据时代的网络舆情管理和应对[J];视听;2016年02期

2 王雨;;事业单位财务管理的科学化与精细化趋势分析[J];价值工程;2016年04期

3 吴青林;周天宏;;基于话题聚类及情感强度的中文微博舆情分析[J];情报理论与实践;2016年01期

4 李玲;刘华文;徐晓丹;赵建民;;基于信息增益的多标签特征选择算法[J];计算机科学;2015年07期

5 潘舒;祁云嵩;;多重假设检验及其在大数据特征降维中的应用[J];计算机科学;2015年S1期

6 崔保国;何丹嵋;;互联网驱动传媒产业增长——2014年中国传媒产业发展报告[J];中国报业;2015年11期

7 刘晋胜;;基于平均互信息的混合条件属性聚类算法[J];计算机科学;2015年03期

8 李纲;王丹丹;;社交网站用户个人信息披露意愿影响因素研究——以新浪微博为例[J];情报资料工作;2015年01期

9 徐涛;于洪志;加羊吉;;基于改进卡方统计量的藏文文本表示方法[J];计算机工程;2014年06期

10 丁兆云;贾焰;周斌;;微博数据挖掘研究综述[J];计算机研究与发展;2014年04期

中国博士学位论文全文数据库 前1条

1 董坚峰;面向公共危机预警的网络舆情分析研究[D];武汉大学;2013年

中国硕士学位论文全文数据库 前10条

1 邹妍;网络舆情监控与分析系统的设计与实现[D];吉林大学;2015年

2 佟林;基于Hadoop平台的网络舆情分析系统的研究与实现[D];吉林大学;2015年

3 傅饶;基于中文分词的舆情监控系统分析模块的设计与实现[D];南京大学;2015年

4 贺伟;互联网舆情监控软件的设计开发[D];华南理工大学;2015年

5 姜朋;山东大学舆情分析系统的设计与实现[D];山东大学;2015年

6 刘峰;基于数据挖掘技术的舆情监控系统的设计与实现[D];电子科技大学;2015年

7 高天宏;互联网舆情分析中信息采集技术的研究与设计[D];北京邮电大学;2015年

8 冯金刚;网络舆情中文信息情感倾向分析研究[D];华北电力大学;2015年

9 毛立鹏;互联网舆情监控分析系统的设计与实现[D];西安电子科技大学;2014年

10 郭永辉;面向短文本分类的特征扩展方法[D];哈尔滨工业大学;2013年



本文编号:682020

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/682020.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6772f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com