基于机器学习的中文微博情感分类技术研究
发布时间:2021-01-05 13:43
进入21世纪,蓬勃发展的互联网科学与技术,为社会的进步与发展掀开了新的改革篇章。其中一大批社交软件映入大众的视野中,包括博客、社区论坛、微博等知识交互型社交媒体、软件,随之而来的还有这些媒体平台产生了巨大数量的文本数据。如何充分利用如此庞大的数据集并挖掘出其中的价值,已成为一项任重而道远的研究课题。微博作为一种新型的社交网络平台,因其简单、易操作的风格,受到越来越多致力于研究文本情感分类领域的学者们的厚爱。用户可通过电脑端或者移动终端登录微博,可以对事件、人物、物品发表带有主观性的情感文本,通过计算机识别出这些主观性文本,并准确分类为正面或负面态度,在实际社会的许多应用领域中都有广泛的研究前景。本文将新浪微博作为研究对象,通过网络爬虫采集到相关领域的数据集,首先讨论了情感词典方法下的中文文本情感分类,接着在此基础上,采用基于机器学习方法对中文文本进行情感分类,并根据最终的实验结果,验证实验过程中提出的改进算法的可行性。本文主要研究内容包括如下三个方面:(1)情感词典的扩展自构建。构建情感词典的过程中,将三种开源情感词典去重标记后融合为基础情感词典,并就实际微博中存在的未登录词、新词,给...
【文章来源】:江苏科技大学江苏省
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 情感分析研究现状
1.2.2 基于情感知识的情感研究
1.2.3 基于机器学习的情感研究
1.3 论文研究内容与创新
1.4 论文的结构安排
1.5 本章小结
第2章 相关理论与技术
2.1 微博的文本特征
2.2 文本预处理
2.2.1 中文分词
2.2.2 停用词处理
2.2.3 词性标注
2.2.4 句法分析
2.3 文本表示
2.3.1 向量空间模型
2.3.2 特征选择方法
2.3.3 特征权重计算
2.4 文本情感分类
2.4.1 基于情感词典的情感分类
2.4.2 基于机器学习的情感分类
2.5 本章小结
第3章 表情特征与规则下的情感计算研究
3.1 情感词典的构建
3.1.1 基础情感词典介绍
3.1.2 情感词典扩展算法
3.1.3 算法有效性验证
3.2 微博情感影响因子
3.2.1 词语级影响因子
3.2.2 句子级影响因子
3.3 语义规则
3.3.1 句型规则
3.3.2 句间关系规则
3.4 表情特征加权
3.5 微博情感计算公式
3.6 实验验证
3.6.1 数据来源
3.6.2 评测指标
3.6.3 实验结果与分析
3.7 本章小结
第4章 融合语义规则下基于机器学习的情感分析
4.1 机器学习算法介绍
4.1.1 朴素贝叶斯
4.1.2 k近邻
4.1.3 支持向量机
4.2 基于机器学习的情感分析流程
4.3 基于支持向量机的情感分类
4.3.1 文本表示格式
4.3.2 文本缩放操作
4.3.3 核函数选择
4.3.4 相关参数调整
4.4 针对特征权重算法的改进
4.5 实验验证
4.5.1 数据准备
4.5.2 实验测评指标
4.5.3 实验结果与分析
4.6 本章小结
第5章 总结与展望
5.1 全文总结
5.2 学习展望
参考文献
攻读硕士学位期间发表论文
致谢
【参考文献】:
期刊论文
[1]基于句法路径的中文评论细粒度情感分析[J]. 胡征,陈尔希,曾献辉,蔡一. 信息技术. 2018(09)
[2]基于《知网》概念定义的情感词典构建研究[J]. 张森,曹晖. 计算机工程与应用. 2015(17)
[3]基于主题模型和统计机器翻译方法的中文格律诗自动生成[J]. 蒋锐滢,崔磊,何晶,周明,潘志庚. 计算机学报. 2015(12)
[4]基于文本语义和表情倾向的微博情感分析方法[J]. 王文,王树锋,李洪华. 南京理工大学学报. 2014(06)
[5]基于词典与机器学习的中文微博情感分析研究[J]. 孙建旺,吕学强,张雷瀚. 计算机应用与软件. 2014(07)
[6]中文分词算法综述[J]. 张丹. 黑龙江科技信息. 2012(08)
[7]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[8]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
[9]基于情感词典扩展技术的网络舆情倾向性分析[J]. 杨超,冯时,王大玲,杨楠,于戈. 小型微型计算机系统. 2010(04)
[10]基于汉语情感词表的句子情感倾向分类研究[J]. 王素格,杨安娜,李德玉. 计算机工程与应用. 2009(24)
博士论文
[1]文本倾向性分析中的情感词典构建技术研究[D]. 杜伟夫.哈尔滨工业大学 2010
硕士论文
[1]基于微博的突发事件检测方法研究[D]. 张玉.兰州大学 2016
[2]中文微博情感分析[D]. 张俊.西北民族大学 2015
[3]基于MapReduce的分布式网络舆情聚类方法的研究[D]. 赵阳阳.北京交通大学 2015
[4]基于向量空间的文本聚类方法与实现[D]. 邬启为.北京交通大学 2014
[5]基于PAD模型的中文微博情感分析研究[D]. 曹海涛.大连理工大学 2013
[6]基于语义情感空间模型的微博情感倾向性研究[D]. 游建平.暨南大学 2012
[7]KNN文本分类中基于遗传算法的特征提取技术研究[D]. 刘亚南.中国石油大学 2011
[8]搜索引擎中文分词技术研究[D]. 任丽芸.重庆理工大学 2011
[9]基于用户行为的面向领域搜索引擎研究[D]. 马妍.东北大学 2009
[10]支持向量机中若干优化算法研究[D]. 邵小健.山东科技大学 2005
本文编号:2958771
【文章来源】:江苏科技大学江苏省
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 情感分析研究现状
1.2.2 基于情感知识的情感研究
1.2.3 基于机器学习的情感研究
1.3 论文研究内容与创新
1.4 论文的结构安排
1.5 本章小结
第2章 相关理论与技术
2.1 微博的文本特征
2.2 文本预处理
2.2.1 中文分词
2.2.2 停用词处理
2.2.3 词性标注
2.2.4 句法分析
2.3 文本表示
2.3.1 向量空间模型
2.3.2 特征选择方法
2.3.3 特征权重计算
2.4 文本情感分类
2.4.1 基于情感词典的情感分类
2.4.2 基于机器学习的情感分类
2.5 本章小结
第3章 表情特征与规则下的情感计算研究
3.1 情感词典的构建
3.1.1 基础情感词典介绍
3.1.2 情感词典扩展算法
3.1.3 算法有效性验证
3.2 微博情感影响因子
3.2.1 词语级影响因子
3.2.2 句子级影响因子
3.3 语义规则
3.3.1 句型规则
3.3.2 句间关系规则
3.4 表情特征加权
3.5 微博情感计算公式
3.6 实验验证
3.6.1 数据来源
3.6.2 评测指标
3.6.3 实验结果与分析
3.7 本章小结
第4章 融合语义规则下基于机器学习的情感分析
4.1 机器学习算法介绍
4.1.1 朴素贝叶斯
4.1.2 k近邻
4.1.3 支持向量机
4.2 基于机器学习的情感分析流程
4.3 基于支持向量机的情感分类
4.3.1 文本表示格式
4.3.2 文本缩放操作
4.3.3 核函数选择
4.3.4 相关参数调整
4.4 针对特征权重算法的改进
4.5 实验验证
4.5.1 数据准备
4.5.2 实验测评指标
4.5.3 实验结果与分析
4.6 本章小结
第5章 总结与展望
5.1 全文总结
5.2 学习展望
参考文献
攻读硕士学位期间发表论文
致谢
【参考文献】:
期刊论文
[1]基于句法路径的中文评论细粒度情感分析[J]. 胡征,陈尔希,曾献辉,蔡一. 信息技术. 2018(09)
[2]基于《知网》概念定义的情感词典构建研究[J]. 张森,曹晖. 计算机工程与应用. 2015(17)
[3]基于主题模型和统计机器翻译方法的中文格律诗自动生成[J]. 蒋锐滢,崔磊,何晶,周明,潘志庚. 计算机学报. 2015(12)
[4]基于文本语义和表情倾向的微博情感分析方法[J]. 王文,王树锋,李洪华. 南京理工大学学报. 2014(06)
[5]基于词典与机器学习的中文微博情感分析研究[J]. 孙建旺,吕学强,张雷瀚. 计算机应用与软件. 2014(07)
[6]中文分词算法综述[J]. 张丹. 黑龙江科技信息. 2012(08)
[7]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松. 中文信息学报. 2012(01)
[8]基于机器学习的中文微博情感分类实证研究[J]. 刘志明,刘鲁. 计算机工程与应用. 2012(01)
[9]基于情感词典扩展技术的网络舆情倾向性分析[J]. 杨超,冯时,王大玲,杨楠,于戈. 小型微型计算机系统. 2010(04)
[10]基于汉语情感词表的句子情感倾向分类研究[J]. 王素格,杨安娜,李德玉. 计算机工程与应用. 2009(24)
博士论文
[1]文本倾向性分析中的情感词典构建技术研究[D]. 杜伟夫.哈尔滨工业大学 2010
硕士论文
[1]基于微博的突发事件检测方法研究[D]. 张玉.兰州大学 2016
[2]中文微博情感分析[D]. 张俊.西北民族大学 2015
[3]基于MapReduce的分布式网络舆情聚类方法的研究[D]. 赵阳阳.北京交通大学 2015
[4]基于向量空间的文本聚类方法与实现[D]. 邬启为.北京交通大学 2014
[5]基于PAD模型的中文微博情感分析研究[D]. 曹海涛.大连理工大学 2013
[6]基于语义情感空间模型的微博情感倾向性研究[D]. 游建平.暨南大学 2012
[7]KNN文本分类中基于遗传算法的特征提取技术研究[D]. 刘亚南.中国石油大学 2011
[8]搜索引擎中文分词技术研究[D]. 任丽芸.重庆理工大学 2011
[9]基于用户行为的面向领域搜索引擎研究[D]. 马妍.东北大学 2009
[10]支持向量机中若干优化算法研究[D]. 邵小健.山东科技大学 2005
本文编号:2958771
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2958771.html
最近更新
教材专著