基于注意力模型的汉语意见解释分类方法研究与实现
发布时间:2021-06-14 05:07
意见解释分类问题是解释性意见挖掘研究领域的基础问题,对后续的研究工作有着极其重要的影响。本文收集并整理了手机和酒店领域的在线评论语料,构建了一个大规模、高质量的意见解释分类语料库。通过分析语料库中意见解释的表达特点和不同意见-解释之间的语义逻辑关系,探索意见解释分类新方法。本文将从以下三个方面开展研究:(1)构建大规模汉语意见解释分类语料库。本文面向手机和酒店领域的在线评论,通过分析意见解释的语义特点和规律,将意见解释划分为三个类别,分别是意见原因、意见建议和意见条件,并在此分类体系的基础上构建了一个大规模、高质量的汉语意见解释分类语料库。通过对语料的分析,我们发现不同意见解释具有多样的表达方式,不同意见和解释之间存在潜在的联系。(2)基于注意力模型的汉语意见解释分类方法。根据不同意见解释和意见之间蕴含的语义逻辑关系,尝试将Self Attention、Vanilla Attention和Contextualized Attention三种注意力模型应用于意见解释分类任务,探索不同的注意力机制对分类性能的影响。针对语料库中存在的类别不平衡问题,尝试使用Focal Loss损失函数调节模...
【文章来源】:黑龙江大学黑龙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
论文框架
第二个意见原因类的意见解释“手机屏幕太大”,并没有很明显的类别标记词。本文对意见解释内部是否含有明显的高频标记词对意见解释进行了统计,统计结果如图2-3和图2-4所示。由统计结果可知,语料库中存在一部分不包含明显关键词的意见解释片段,其中手机领域中占比达到了百分之五十,酒店领域占比则接近三分之二。对于这种意见解释,由于没有明显的关键词,模型区分会有一定的难度,所以,本文提出利用意见解释片段的上下文信息提取特征用于分类,希望能进一步提升分类性能。图2-3 手机领域包含类别关键词和不包含类别关键词的意见解释的分布情况Figure 2-3 Distribution of opinion explanations containing category keywords and no markers in themobile phone area
第 2 章 基于 LSTM 的汉语意见解释分类- 17 -图2-4 酒店领域包含类别关键词和不包含类别关键词的意见解释的分布情况Figure 2-4 Distribution of opinion explanations containing category keywords and no markers in thehotel area通过分析,我们发现不同的意见解释与上下文之间蕴含着不同的关联。意见原因类的意见解释与其上文或下文之间存在着因果关系或是相关关系,例如,表2-1中第(2)句,“手机屏幕太大”是造成“握着不方便”的原因信息,两个语句之间存在一种时序上的关联,是明显的因果关系。对于意见条件类的意见解释,它与上文和下文之间则存在着条件关系,例如,表2-1中第(7)句,“相比其他的锦江来说”是消费者得到评价“房间空间有点小了”的前提条件,没有这个条件可能就得不出这样的评价。然而
【参考文献】:
期刊论文
[1]基于词语情感隶属度特征的情感极性分类[J]. 宋佳颖,黄旭,付国宏. 北京大学学报(自然科学版). 2016(01)
[2]基于自动编码特征的汉语解释性意见句识别[J]. 贺宇,潘达,付国宏. 北京大学学报(自然科学版). 2015(02)
[3]网络意见挖掘、摘要与检索研究综述[J]. 侯锋,王传廷,李国辉. 计算机科学. 2009(07)
硕士论文
[1]面向在线评论的汉语意见解释分类方法研究[D]. 张柳影.黑龙江大学 2017
本文编号:3229130
【文章来源】:黑龙江大学黑龙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
论文框架
第二个意见原因类的意见解释“手机屏幕太大”,并没有很明显的类别标记词。本文对意见解释内部是否含有明显的高频标记词对意见解释进行了统计,统计结果如图2-3和图2-4所示。由统计结果可知,语料库中存在一部分不包含明显关键词的意见解释片段,其中手机领域中占比达到了百分之五十,酒店领域占比则接近三分之二。对于这种意见解释,由于没有明显的关键词,模型区分会有一定的难度,所以,本文提出利用意见解释片段的上下文信息提取特征用于分类,希望能进一步提升分类性能。图2-3 手机领域包含类别关键词和不包含类别关键词的意见解释的分布情况Figure 2-3 Distribution of opinion explanations containing category keywords and no markers in themobile phone area
第 2 章 基于 LSTM 的汉语意见解释分类- 17 -图2-4 酒店领域包含类别关键词和不包含类别关键词的意见解释的分布情况Figure 2-4 Distribution of opinion explanations containing category keywords and no markers in thehotel area通过分析,我们发现不同的意见解释与上下文之间蕴含着不同的关联。意见原因类的意见解释与其上文或下文之间存在着因果关系或是相关关系,例如,表2-1中第(2)句,“手机屏幕太大”是造成“握着不方便”的原因信息,两个语句之间存在一种时序上的关联,是明显的因果关系。对于意见条件类的意见解释,它与上文和下文之间则存在着条件关系,例如,表2-1中第(7)句,“相比其他的锦江来说”是消费者得到评价“房间空间有点小了”的前提条件,没有这个条件可能就得不出这样的评价。然而
【参考文献】:
期刊论文
[1]基于词语情感隶属度特征的情感极性分类[J]. 宋佳颖,黄旭,付国宏. 北京大学学报(自然科学版). 2016(01)
[2]基于自动编码特征的汉语解释性意见句识别[J]. 贺宇,潘达,付国宏. 北京大学学报(自然科学版). 2015(02)
[3]网络意见挖掘、摘要与检索研究综述[J]. 侯锋,王传廷,李国辉. 计算机科学. 2009(07)
硕士论文
[1]面向在线评论的汉语意见解释分类方法研究[D]. 张柳影.黑龙江大学 2017
本文编号:3229130
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3229130.html