基于Web信息抽取的网络舆情统计与分析
本文关键词:基于Web信息抽取的网络舆情统计与分析
【摘要】:自1994年中国正式接入Internet起,中国网民规模呈逐年持续快速增长的趋势。据2015年12月统计数据显示,中国网民已达6.88亿,超过半数的中国人已经开始使用互联网。互联网代替传统信息以纸质文字材料传播的形式,成为群众思想、文化、信息获取和交流的主要方式,又因为其传播速度快,波及范围广,参与人员多的特点,它也成为社会舆论的主要聚集地。大到震惊世界的朝鲜核问题、轰动全国的天津大爆炸事件,小到某明星参加奥斯卡颁奖典礼摔倒、某高校推出玉米炒提子菜系等,网络舆情的传播越来越牵动全社会人们的心。如何从数量庞大的网络信息中获取舆情信息,从而第一时间掌握舆情现状,预测舆情走势,及时正确引导舆情走向,对社会健康稳定的发展具有非常重要的意义。本文的研究思路就是在这个背景下产生的,具体的研究内容如下:(1)首先对在本文研究过程中使用到的理论知识进行介绍,如Web信息抽取方法、文本表示方法,数据降维方法、聚类方法等。(2)针对网络信息(以新浪微博为例),主要是通过网络爬虫技术,大量爬取所需信息。本文采用的是企业开发并已投入使用的新闻爬取系统,该系统可以针对不同网页结构进行合适的DOM解析模板配置,从而方便快捷的进行数据爬取。(3)针对短文本的特征,采用具有针对性的处理方式,对表情符号、转发链接、标点符号、图片的预处理,主要借助网络语料库并辅助以人工标注的方式。对预处理后的数据进行切词处理,本文采用的中文分词工具是R语言中的Rwordseg程序包。(4)为了使实验数据达到理想聚类效果,本文提出一种基于词项关联关系的FCM聚类算法,并对该算法的实际可操作性进行的验证;在舆情分析方面,本论文使用基于支持向量机的情感倾向性方法进行研究,并给出实例分析。
【关键词】:信息抽取 聚类分析 词项关联关系 舆情分析
【学位授予单位】:安庆师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;F49
【目录】:
- 摘要6-8
- ABSTRACT8-15
- 第一章 绪论15-20
- 1.1 研究背景15-18
- 1.1.1 研究目的及意义15-16
- 1.1.2 国内外研究现状16-18
- 1.2 本文的主要研究内容18-20
- 第二章 相关概念与技术描述20-30
- 2.1 网络舆情概念及组成要素20-22
- 2.1.1 网络舆情的概念20
- 2.1.2 网络舆情的组成要素20-22
- 2.2 文本聚类算法描述22-25
- 2.2.1 支持向量机算法22-23
- 2.2.2 K近邻算法23-24
- 2.2.3 层次聚类算法24-25
- 2.3 文本表示模型25-28
- 2.3.1 文本表示方法25-27
- 2.3.2 数据降维方法27-28
- 2.4 小结28-30
- 第三章 网络数据采集及舆情语料库构建30-44
- 3.1 微博数据采集30-38
- 3.1.1 微博用户情况30-31
- 3.1.2 微博数据采集31
- 3.1.3 网络爬虫-企业版新闻抓取系统31-38
- 3.2 网络舆情语料库构建38-43
- 3.2.1 舆情语料的人工分类38-41
- 3.2.2 数据预处理41-42
- 3.2.3 网络舆情语料的文本表示42-43
- 3.3 小结43-44
- 第四章 基于词项关联关系的FCM微博聚类算法44-54
- 4.1 引言44-46
- 4.2 词项关联关系46-48
- 4.2.1 互信息向量46-47
- 4.2.2 同一文档内关联关系47
- 4.2.3 不同文档间关联关系47-48
- 4.3 FCM聚类算法48-49
- 4.4 基于词项关联关系的FCM聚类算法49-51
- 4.5 实验结果与分析51-53
- 4.5.1 数据来源51
- 4.5.2 实验结果与分析51-53
- 4.6 小结53-54
- 第五章 网络舆情情感倾向性分析实例研究54-62
- 5.1 我国房地产网络舆情现状54-56
- 5.2 情感倾向分析-以合肥市房地产为例56-60
- 5.2.1 网络舆情数据准备56-57
- 5.2.2 基于SVM的网络舆情的情感分析方法57-58
- 5.2.3 房地产舆情文本情感倾向性分类58-60
- 5.3 合肥房地产网络舆情情感倾向分析60-61
- 5.3.1 合肥房地产网络舆情分析60-61
- 5.3.2 网络舆情预警建议61
- 5.4 小结61-62
- 第六章 结论与展望62-64
- 致谢64-65
- 参考文献65-71
- 作者读研期间所取得的读研成果71
【相似文献】
中国期刊全文数据库 前10条
1 陶建杰;;网络舆情联动应急机制初探[J];青年记者;2007年15期
2 胡圣方;杨文德;;网络舆情管理的问题及对策[J];甘肃政法成人教育学院学报;2007年04期
3 吴明友;;校园网络舆情的应对策略分析[J];中国教育信息化;2008年24期
4 张丽红;;试论网络舆情传播对文化的影响[J];前沿;2008年04期
5 姜胜洪;;网络舆情热点的形成与发展、现状及舆论引导[J];理论月刊;2008年04期
6 李子德;;论和谐社会视野中不良网络舆情的预警[J];中国石油大学学报(社会科学版);2008年04期
7 刘军;;互联网时代网络舆情的应急处理[J];理论学习;2009年01期
8 周志强;;网络舆情与“口香糖思想”[J];人民论坛;2009年04期
9 许鑫;章成志;李雯静;;国内网络舆情研究的回顾与展望[J];情报理论与实践;2009年03期
10 陈婴虹;;论网络舆情对司法的影响[J];中共浙江省委党校学报;2009年02期
中国重要会议论文全文数据库 前10条
1 任铭;陈俊鑫;;我国网络舆情及管理策略研究[A];2011年全国通信安全学术会议论文集[C];2011年
2 潘崇霞;;网络舆情演化的阶段分析[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
3 潘庆芳;周萍;;涉路网络舆情的现状及应对建议[A];中国公路学会高速公路运营管理分会2011年度年会暨第十八次全国高速公路运营管理工作研讨会论文集[C];2011年
4 李大鹏;;加强新形势下检察机关网络舆情体系建设[A];第27次全国计算机安全学术交流会论文集[C];2012年
5 曹俊喜;刘云;徐希源;;电力行业网络舆情监测分析技术研究与系统设计[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
6 冉治平;;提高网络舆情应对能力的几点思考[A];浙江烟草(2012年第3期总第122期)[C];2012年
7 疏学明;郑魁;张辉;袁宏永;;突发事件中网络舆情信息管理方式探讨[A];中国突发事件防范与快速处置优秀成果选编[C];2009年
8 耿骞;刘颖;;网络舆情的形成、传播及监测方法[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
9 韩伟;张洪涛;;网络舆情与青少年媒介认知能力构建[A];网络时代的青少年和青少年工作研究报告——第六届中国青少年发展论坛暨中国青少年研究会优秀论文集(2010)[C];2010年
10 曾华艺;;网络舆情危机事件指标体系探讨[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 记者 刘自贤 通讯员 吴涛;网络舆情助推汉江中院司法为民[N];湖北日报;2010年
2 通讯员 王宏杰;注重网络舆情监督 网上网下良性互动[N];检察日报;2010年
3 四川省地税局直属分局 韦一新 胡晓驰;正确应对征纳纠纷引发的网络舆情危机[N];中国税务报;2010年
4 唐莉 记者 郭树仁;梅河口检察院加强涉检网络舆情研判与应对工作[N];北方法制报;2010年
5 记者 卢志坚 通讯员 胡连芳;江苏大丰:征聘百名“网络舆情监督员”[N];检察日报;2009年
6 见习记者 施燕燕;应对网络舆情与三项重点工作息息相关[N];检察日报;2010年
7 记者 吴汉松;提升引导网络舆情能力[N];石狮日报;2010年
8 四川省内江市工商局 吴明显 杨晓彬;建议加强网络舆情收集分析及引导工作(下)[N];中国工商报;2010年
9 吴明显;内江积极加强网络舆情监测[N];中国工商报;2010年
10 本报记者 白真智;探秘网络舆情市场[N];人民日报;2010年
中国博士学位论文全文数据库 前10条
1 张玉强;网络舆情危机的政府适度反应研究[D];中央民族大学;2011年
2 何健;高校大学生网络舆情特征与管理对策研究[D];西南大学;2015年
3 石新宇;当代大学生网络舆情分析及对策研究[D];辽宁大学;2015年
4 曹学艳;突发事件动态网络舆情挖掘与应对研究[D];电子科技大学;2013年
5 方付建;突发事件网络舆情演变研究[D];华中科技大学;2011年
6 张伟;基于复杂社会网络的网络舆情演化模型研究[D];哈尔滨工业大学;2014年
7 陈t熀,
本文编号:682641
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/682641.html