中文微博数据净化与情感倾向分析技术的研究与实现
发布时间:2021-02-04 04:20
微博客(即微博,Microblog)作为一种新的传播载体,已经迅速进入了人们的生活,其中包含了大量针对人物、事件、产品等有价值的评论信息,表达了人们的各种情感倾向,因而在网络舆情发起和传播中起着重要作用。本文针对中文微博的特点,研究数据净化及情感倾向分析技术和相关问题。首先,针对微博的噪音和近似重复问题,研究微博数据的净化方法。近来噪音微博和近似重复微博迅猛蔓延到微博空间的各个角落,这类微博的存在严重影响到了信息检索的准确性,大大降低了分析的可信性。基于此,本文根据统计数据,分析了噪音微博和近似重复微博的特点,提出一种面向微博文本的噪音检测与近似重复内容过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过构建向量空间模型的分段过滤和基于缓冲池的内容索引过滤的双重过滤,检测和剔除掉近似重复的微博。实验表明该方法能有效地对微博数据进行净化,高效准确地过滤掉近似重复微博和噪音微博,提高了微博数据处理的质量和效率。其次,针对微博的直抒性特点,研究微博的情感倾向分析方法。“直抒性”即微博用户习惯利用表情符号、感叹词和程度副词等来“直抒己见”。目前对于中文微博的情感分析,虽然面向...
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 微博客研究现状
1.3 本文研究目的与研究内容
1.3.1 研究目的
1.3.2 研究内容
1.3.3 课题来源
1.4 本文的组织结构
第2章 相关理论与技术
2.1 情感倾向性分析
2.2 情感词典构建
2.3 数据净化
2.3.1 向量空间模型
2.3.2 相似度计算
2.4 本章小结
第3章 微博噪音检测与近似重复内容过滤
3.1 问题的提出
3.2 中文微博噪音与近似重复文本的特点
3.2.1 噪音微博文本特点
3.2.2 近似重复微博文本的特点
3.3 噪音微博和近似重复微博的过滤算法
3.3.1 噪音微博和近似重复微博过滤框架
3.3.2 基于特征判别的噪音微博检测与过滤
3.3.3 特殊类型微博文本的预处理
3.3.4 基于内容计算的近似重复微博双重检测与过滤
3.4 实验与结果分析
3.4.1 实验数据与评价标准
3.4.2 数据集大小对噪音微博过滤效果的影响
3.4.3 噪音微博阈值β对判别性能的影响
3.4.4 阈值γ双重过滤对近似重复微博判断算法性能影响
3.4.5 近似重复微博双重过滤的时间性能
3.5 本章小结
第4章 基于微博表情符号的新情感词典构建
4.1 问题的提出
4.2 微博表情符号统计分析
4.2.1 表情符号统计
4.2.2 表情符号分类
4.3 词典构建理论基础
4.4 基础情感词典构建
4.5 情感词典的优化
4.6 实验与结果分析
4.6.1 实验数据来源
4.6.2 实验评价方式
4.6.3 实验结果与分析
4.7 本章小结
第5章 基于扩展情感词典的微博情感倾向分析
5.1 问题的提出
5.2 情感词典的扩展
5.3 微博情感倾向分析算法设计
5.3.1 微博句子统计分析
5.3.2 中文微博情感分析算法
5.4 实验与结果分析
5.4.1 实验方案设计与评价标准
5.4.2 实验结果与分析
5.5 本章小结
第6章 微博数据净化与情感倾向分析原型系统设计与实现
6.1 系统框架
6.2 系统功能模块
6.3 系统结果展示
6.3.1 数据下载的实现
6.3.2 数据净化的实现
6.3.3 情感分析的实现
6.4 系统评价
6.5 本章小结
第7章 总结及未来工作
7.1 总结
7.2 未来工作
参考文献
致谢
攻硕期间参与项目、发表论文及获奖情况
【参考文献】:
期刊论文
[1]一种面向情感分析的微博表情情感词典构建及应用[J]. 王文远,王大玲,冯时,李任斐,王琳. 计算机与数字工程. 2012(11)
[2]EDM:高效的微博事件检测算法[J]. 童薇,陈威,孟小峰. 计算机科学与探索. 2012(12)
[3]基于语境歧义词的句子情感倾向性分析[J]. 宋艳雪,张绍武,林鸿飞. 中文信息学报. 2012(03)
[4]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[5]网络表情符号分析[J]. 姚沂婕,安宏玉. 校园心理. 2011(05)
[6]Twitter中近似重复消息的判定方法研究[J]. 曹鹏,李静远,满彤,刘悦,程学旗. 中文信息学报. 2011(01)
[7]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
[8]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
硕士论文
[1]面向中文评论文本的情感倾向性研究[D]. 吕韶华.大连理工大学 2010
[2]中文词语情感倾向研究[D]. 朱力.哈尔滨工业大学 2009
本文编号:3017713
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 微博客研究现状
1.3 本文研究目的与研究内容
1.3.1 研究目的
1.3.2 研究内容
1.3.3 课题来源
1.4 本文的组织结构
第2章 相关理论与技术
2.1 情感倾向性分析
2.2 情感词典构建
2.3 数据净化
2.3.1 向量空间模型
2.3.2 相似度计算
2.4 本章小结
第3章 微博噪音检测与近似重复内容过滤
3.1 问题的提出
3.2 中文微博噪音与近似重复文本的特点
3.2.1 噪音微博文本特点
3.2.2 近似重复微博文本的特点
3.3 噪音微博和近似重复微博的过滤算法
3.3.1 噪音微博和近似重复微博过滤框架
3.3.2 基于特征判别的噪音微博检测与过滤
3.3.3 特殊类型微博文本的预处理
3.3.4 基于内容计算的近似重复微博双重检测与过滤
3.4 实验与结果分析
3.4.1 实验数据与评价标准
3.4.2 数据集大小对噪音微博过滤效果的影响
3.4.3 噪音微博阈值β对判别性能的影响
3.4.4 阈值γ双重过滤对近似重复微博判断算法性能影响
3.4.5 近似重复微博双重过滤的时间性能
3.5 本章小结
第4章 基于微博表情符号的新情感词典构建
4.1 问题的提出
4.2 微博表情符号统计分析
4.2.1 表情符号统计
4.2.2 表情符号分类
4.3 词典构建理论基础
4.4 基础情感词典构建
4.5 情感词典的优化
4.6 实验与结果分析
4.6.1 实验数据来源
4.6.2 实验评价方式
4.6.3 实验结果与分析
4.7 本章小结
第5章 基于扩展情感词典的微博情感倾向分析
5.1 问题的提出
5.2 情感词典的扩展
5.3 微博情感倾向分析算法设计
5.3.1 微博句子统计分析
5.3.2 中文微博情感分析算法
5.4 实验与结果分析
5.4.1 实验方案设计与评价标准
5.4.2 实验结果与分析
5.5 本章小结
第6章 微博数据净化与情感倾向分析原型系统设计与实现
6.1 系统框架
6.2 系统功能模块
6.3 系统结果展示
6.3.1 数据下载的实现
6.3.2 数据净化的实现
6.3.3 情感分析的实现
6.4 系统评价
6.5 本章小结
第7章 总结及未来工作
7.1 总结
7.2 未来工作
参考文献
致谢
攻硕期间参与项目、发表论文及获奖情况
【参考文献】:
期刊论文
[1]一种面向情感分析的微博表情情感词典构建及应用[J]. 王文远,王大玲,冯时,李任斐,王琳. 计算机与数字工程. 2012(11)
[2]EDM:高效的微博事件检测算法[J]. 童薇,陈威,孟小峰. 计算机科学与探索. 2012(12)
[3]基于语境歧义词的句子情感倾向性分析[J]. 宋艳雪,张绍武,林鸿飞. 中文信息学报. 2012(03)
[4]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[5]网络表情符号分析[J]. 姚沂婕,安宏玉. 校园心理. 2011(05)
[6]Twitter中近似重复消息的判定方法研究[J]. 曹鹏,李静远,满彤,刘悦,程学旗. 中文信息学报. 2011(01)
[7]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
[8]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
硕士论文
[1]面向中文评论文本的情感倾向性研究[D]. 吕韶华.大连理工大学 2010
[2]中文词语情感倾向研究[D]. 朱力.哈尔滨工业大学 2009
本文编号:3017713
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3017713.html