电子商务中的中文评论挖掘技术及应用的研究
本文关键词:电子商务中的中文评论挖掘技术及应用的研究,由笔耕文化传播整理发布。
【摘要】:中文商品评论作为网购消费者意见的重要载体,对于潜在的消费者的购买决策和产品生产厂家的产品改善,都起着重要的参考作用。因此,论文紧紧围绕提高情感极性判别准确率,对中文产品评论挖掘技术展开分析和研究。论文先分别阐述属性提取和情感分析的研究现状。通过发展现状总结出现有中文产品评论挖掘技术还存在没有充分考虑属性词对用户的不同重要程度、程度副词不在基准程度副词库中无法赋值权重和基于分类器的评论挖掘算法提取特征不够全面的问题。针对以上问题,论文设计一种结合属性词和程度副词权重的中文产品评论挖掘方法,采取由细粒度到粗粒度的句子分析的思想,对评论的倾向性进行判定。该方法以基于消费者关注程度的属性词权重计算为基础,充分考虑消费者对不同属性的关注程度来设置不同属性词的权重,提高同一整句中正反极性同时存在情形下的极性判别准确率;设计一种基于基准程度副词词库进行语义相似度计算求得程度副词权重的方法,改善现有基于基准程度副词表匹配的权重赋值方法无法对所有程度副词赋值权重的缺点,降低了极性判别句的漏检率。论文也进一步探索了该方法在评论多极性判定上的有效性。实验结果表明,结合属性词和程度副词权重的情感分析方法能够降低极性判别句的漏检率,提高了算法的极性判别准确率。为了进一步提高结合属性词和副词权重的情感倾向分析方法的准确率,论文还设计了利用评论短句计算特征的中文评论挖掘方法。先利用基于属性词和副词权重的情感分析方法得到评论短句计算特征,结合一般统计特征和基本统计特征作为分类器的输入,对评论整句进行粗粒度的情感倾向分析。实验结果表明结合评论短句计算特征的情感分析方法进一步改善了结合属性词和程度副词权重方法的准确率。最后,对本文的研究内容进行了总结,并对以后的研究方向进行了展望。总之,论文以提高中文评论挖掘算法的极性判别准确率为最终目标,分别设计了基于属性词和程度副词权重、利用评论短句特征的中文评论挖掘算法,并利用实验对算法在不同数据集上的有效性进行验证和分析,以提高算法的实际应用能力。
【关键词】:情感分析 语义相似度 属性词提取 观点挖掘 权重
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-18
- 1.1 研究背景和意义11-12
- 1.2 相关概念定义及解释12
- 1.3 国内外研究现状12-15
- 1.3.1 属性提取13-14
- 1.3.2 情感倾向判别14-15
- 1.3.3 产品评论挖掘的应用15
- 1.4 本文的研究内容和贡献15-17
- 1.5 论文的组织结构17-18
- 第2章 相关技术介绍18-26
- 2.1 词汇语义相似度计算方法18-21
- 2.1.1 知网(Hownet)简介18
- 2.1.2 利用知网计算词汇的语义相似度18-21
- 2.2 分类算法概述21-23
- 2.2.1 朴素贝叶斯算法21-22
- 2.2.2 决策树算法22
- 2.2.3 支持向量机SVM(Support Vector Machine)22-23
- 2.2.4 分类算法的优缺点比较23
- 2.3 分类器的衡量指标23-25
- 2.3.1 评估方法24
- 2.3.2 评价指标24-25
- 2.4 本章小结25-26
- 第3章 Web产品评论挖掘框架设计及预处理26-36
- 3.1 Web评论挖掘总体框架设计26
- 3.2 构造商品评论数据集26-27
- 3.3 商品评论数据预处理27-29
- 3.3.1 评论内容的初步去噪28
- 3.3.2 中文分词及词性标注28-29
- 3.4 属性词的提取29-31
- 3.4.1 属性词的提取方法29-31
- 3.4.2 属性词的提取结果示例31
- 3.5 评论中的情感词提取31-32
- 3.6 评论短句的提取32-35
- 3.6.1 评论短句fs(feature sentence)的概念32-33
- 3.6.2 规则模板提取评论短句33-34
- 3.6.3 提取过程实现及结果34-35
- 3.7 本章小结35-36
- 第4章 结合属性词及程度副词权重的情感倾向分析36-58
- 4.1 属性词的权重设置37-38
- 4.1.1 常用权重设置方法37
- 4.1.2 本文属性词权重设置方式37-38
- 4.2 情感词的极性计算38-43
- 4.2.1 极性词典的构建39
- 4.2.2 基于极性词典和语义相似度的情感极性计算39-41
- 4.2.3 情感词极性计算实现及结果41-43
- 4.3 程度副词的权重设置43-45
- 4.4 评论短句及整句的情感倾向45-46
- 4.5 属性词权重和副词权重改进实验结果分析46-52
- 4.5.1 实验使用的数据集46-47
- 4.5.2 属性词权重改进结果分析47-50
- 4.5.3 程度副词权重改进结果对比50-52
- 4.6 整句极性判定结果52-57
- 4.6.1 不同权重设置时二极性判定结果对比52-54
- 4.6.2 多极性判定的实验54-57
- 4.7 本章小结57-58
- 第5章 利用评论短句计算特征的情感倾向分析58-65
- 5.1 分类器特征分析58-59
- 5.1.1 一般统计特征58-59
- 5.1.2 基本统计特征59
- 5.1.3 评论短句fs(feature sentence)计算特征59
- 5.2 利用评论短句计算特征的情感分析实现59-60
- 5.3 实验设置60-62
- 5.3.1 实验使用的数据集60-61
- 5.3.2 Dataset 2上的分类结果分析61
- 5.3.3 Dataset 3上上的分类结果分析61-62
- 5.4 论文两种倾向性分析方法的对比62-63
- 5.5 论文方法与其他文献方法的对比63-64
- 5.6 本章小结64-65
- 第6章 总结与展望65-67
- 6.1 总结65
- 6.2 展望65-67
- 致谢67-68
- 参考文献68-73
- 攻读硕士学位期间发表的论文73
【参考文献】
中国期刊全文数据库 前10条
1 杨静;徐蔚然;谭松波;;COAE2014情感关键句评测任务和评测数据设计[J];山西大学学报(自然科学版);2015年01期
2 刘丽珍;刘昊;王函石;宋巍;赵新蕾;;Generating Domain-Specific Affective Ontology from Chinese Reviews for Sentiment Analysis[J];Journal of Shanghai Jiaotong University(Science);2015年01期
3 张林;钱冠群;樊卫国;华琨;张莉;;轻型评论的情感分析研究[J];软件学报;2014年12期
4 董丽丽;赵繁荣;张翔;;基于领域本体、情感词典的商品评论倾向性分析[J];计算机应用与软件;2014年12期
5 李泽魁;赵妍妍;秦兵;刘挺;;中文微博情感倾向性分析特征工程[J];山西大学学报(自然科学版);2014年04期
6 王祖辉;姜维;李一军;;在线评论情感分析中固定搭配特征提取方法研究[J];管理工程学报;2014年04期
7 肖正;刘辉;李兵;;一种基于语义距离的Web评论SVM情感分类方法[J];计算机科学;2014年09期
8 钟将;杨思源;孙启干;;基于文本分类的商品评价情感分析[J];计算机应用;2014年08期
9 杨慧;刘红岩;何军;;中文产品评论结构化引擎[J];计算机与现代化;2014年07期
10 戴敏;王荣洋;李寿山;朱珠;周国栋;;基于句法特征的评价对象抽取方法研究[J];中文信息学报;2014年04期
中国重要会议论文全文数据库 前1条
1 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
本文关键词:电子商务中的中文评论挖掘技术及应用的研究,,由笔耕文化传播整理发布。
本文编号:276050
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/276050.html