当前位置:主页 > 科技论文 > 自动化论文 >

基于词典和机器学习组合的情感分析

发布时间:2021-04-20 10:46
  情感是人类智能表现的一种特征。情感既可以是身体上生理状态发生变化的反映,也可通过文本加以表达。目前研究情感分析的语料资源大部分来源于用户评论文本。评论文本已成为消费者购买商品的重要参考。从文本中获取情感信息,首先要从文本中抽取语义特征信息并加以分类。因为无法及时提取到信息丰富的评论,且基于词典的方法或基于机器学习的方法量化得到的情感特征过于片面,无法很好的辅助消费者进行决策,所以提取评论文本的情感特征及对评论文本进行主客观分类的研究就有现实意义。但基于词典的研究依赖于情感词典,由于新的词汇以及未登录词较多,情感词典的构建难度较大,且词语缺少强度量化。机器学习的方法不能较好解决多个情感词时引发的情感发散问题。本文提出了结合词典和机器学习的情感分析方法,得到可以提高预测评论主客观性的正确率的情感特征组合。本文将手机评论文本作为研究对象进行相关情感分析研究工作,将基于词典与主题模型结合方法、基于机器学习方法以及词典和机器学习组合方法得到的情感特征进行量化表示。实验比较量化的情感特征对主客观分类的影响。本文的研究工作如下:(1)词典扩充与极性计算研究。在基于词典的情感分析中,针对目前通用情感词典无法满足特定领域情感分析的要求,本文基于SO-PMI算法构建了由通用词典、扩展词典和专用领域词典组合的手机领域的专属情感词库。并利用其情感词抽取和主题模型特征表示的结合方法对相应情感特征进行量化表示。实验得出,与基于词典的方法相比,词典与主题模型相结合的方法进一步优化了情感特征的量化表示。(2)机器学习的情感特征挖掘。在特征选择和组合、特征维度和分类算法选择方面进行最优化,最大化情感分类准确率。手机评论领域的情感分类时采用贝叶斯、逻辑回归、支持向量机这三种分类算法,实验得贝叶斯分类效果最好。以所有词、双词搭配、所有词和双词搭配、信息量丰富的词、信息丰富的词和双词搭配作为特征选择组合方式,实验得出信息丰富的词和双词搭配为特征在1000维时取得最优分类效果。(3)特征选择与分类算法研究。将基于词典的方法得到的情感权值、均值、标准差与基于机器学习的方法得到的积极、消极情感概率作为情感特征候选项,并结合信息特征、属性特征、语言特征进行随机森林构造,通过随机森林分类器对评论文本主客观分类预测,研究不同情感特征候选项组合对主客观分类预测的影响,得到结合词典和机器学习的情感分析方法得到的情感特征组合分类准确率最高,且随机森林分类算法比支持向量机和贝叶斯分类算法的准确率有很大的提升。
【学位授予单位】:西安邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP181
文章目录
摘要
ABSTRACT
主要符号表
第1章 绪论
    1.1 研究背景与意义
    1.2 研究现状
    1.3 主要研究内容
    1.4 论文组织结构
第2章 文本情感分析相关技术
    2.1 情感分析流程
    2.2 文本预处理
        2.2.1 中文分词
        2.2.2 词性标注
    2.3 文本表示模型
    2.4 文本特征与权重计算
        2.4.1 文本特征选择
        2.4.2 特征权重计算
    2.5 情感词典
    2.6 文本分类算法与性能
        2.6.1 贝叶斯
        2.6.2 逻辑回归
        2.6.3 支持向量机
        2.6.4 随机森林
    2.7 分类性能
        2.7.1 正确率、召回率和F-测度值
        2.7.2 微平均和宏平均
    2.8 本章小结
第3章 基于情感词典和LDA的情感特征提取
    3.1 基于SO-PMI算法的情感词典扩充
    3.2 情感词典的构建
        3.2.1 通用基础词典
        3.2.2 扩充词典
        3.2.3 领域词典的构建
    3.3 基于LDA的文本主题模型的构造与改进
        3.3.1 潜在狄利克雷分配主题模型构造
        3.3.2 改进LDA模型的文本主题分类
    3.4 基于词典和LDA的文本情感值计算
    3.5 实验结果及分析
        3.5.1 特征权重选择
        3.5.2 特基于词典与LDA结合的情感分类实验
    3.6 本章小结
第4章 基于评论文本的机器学习分类算法研究
    4.1 基本流程
    4.2 特征选择
    4.3 情感分类
    4.4 实验结果及分析
    4.5 本章小结
第5章 基于情感特征的主客观分类预测
    5.1 基本流程
    5.2 特征选择与验证
    5.3 基于随机森林的主客观分类算法
    5.4 实验环境及数据
        5.4.1 实验环境
        5.4.2 实验数据
    5.5 实验结果及分析
        5.5.1 实验结果
        5.5.2 实验结果分析
    5.6 本章小结
第6章 总结与展望
    6.1 相关工作总结
    6.2 下一步研究方向
参考文献
攻读学位期间取得的研究成果
致谢

【相似文献】

相关期刊论文 前10条

1 夏润海,王开颜;机器学习与智能决策支持系统[J];潍坊学院学报;2003年02期

2 张明玉,倪志伟;基于机器学习的智能决策支持系统[J];淮南师范学院学报;2005年03期

3 杨凌霄;武建平;;机器学习方法在人脸检测中的应用[J];计算机与数字工程;2008年03期

4 ;第十一届中国机器学习会议[J];智能系统学报;2008年02期

5 ;第14届中国机器学习会议[J];智能系统学报;2012年06期

6 费宗铭;吕建;王志坚;陈道蓄;徐家福;;机器学习[J];计算机科学;1991年01期

7 赵沁平;魏华;王军玲;;机器学习技术与机器学习系统[J];计算机科学;1993年05期

8 姚敏;机器学习及其发展方向[J];计算机时代;1994年04期

9 ;第31届机器学习国际会议(英文)[J];智能系统学报;2014年01期

10 黄海滨;机器学习及其主要策略[J];河池师范高等专科学校学报(自然科学版);2000年04期

相关博士学位论文 前10条

1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年

2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年

3 Maxim Pecionchin;[D];对外经济贸易大学;2016年

4 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年

5 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年

6 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年

7 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

8 胡巍;面向格结构的机器学习[D];上海交通大学;2009年

9 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年

10 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年

相关硕士学位论文 前10条

1 毛海斌;基于半监督机器学习的情感分类领域适应问题研究[D];南京理工大学;2015年

2 安军辉;基于微博数据的微博用户性别判断研究[D];华中师范大学;2015年

3 陈召阳;基于机器学习的改性麦槽吸附重金属构效关系模型研究[D];江西理工大学;2014年

4 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年

5 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

6 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年

7 张蕾;基于机器学习的网络舆情采集技术研究与设计[D];电子科技大学;2014年

8 施宇;基于数据挖掘和机器学习的木马检测系统设计与实现[D];电子科技大学;2014年

9 施应敏;基于机器学习的Femtocell信道频谱与功率资源分配算法的研究[D];南京邮电大学;2015年

10 裴松年;基于机器学习的分类算法研究[D];中北大学;2016年



本文编号:1444741

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1444741.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户28446***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com