基于LDA主题模型的评价对象抽取研究
本文选题:情感分析 + 评价对象抽取 ; 参考:《河北师范大学》2017年硕士论文
【摘要】:近年来电子商务发展迅猛,顾客在购买产品之后针对产品的主观性评论也与日俱增。这些网络评论信息表达了人们的各种情感色彩及情感倾向性,包含着非常重要的价值。客户购买商品前,经常通过之前用户的产品评论来了解该产品的质量和服务,根据所获取的信息再决定是否购买。同样,这些评论信息对商家也有着重要的意义,他们可以通过评论获取客户的反馈,从而了解产品在哪些方面受到青睐和好评,而在哪些方面应该努力改进,从而实现自身商业利益的最大化。针对网上大量的评论文本,如果仅通过人工方式来分析处理显然是不现实的,需要通过计算机快速获取和处理这些具有主观情感色彩的评价信息,情感分析技术应运而生。情感分析技术包含了许多方面的任务,评价对象抽取就是其中非常重要的任务之一。评价对象抽取的研究主要包括基于规则/模板的方法和基于统计的方法。基于规则/模板的方法需要领域专家定义相应领域的评价对象和规则,无法满足不断出现的新词,不具有跨领域性,可移植性差,同时也不能将评价对象进行聚类。LDA主题模型是一种无监督统计模型,不仅能克服上述方法的缺点,也无需大量的人工标记,得到了研究者的广泛关注。但LDA主题模型在应用时忽略了词的位置信息和语言结构信息,并不适合评价对象抽取的研究,因此需要对其进行扩展,以达到抽取目的。在LDA的扩展模型中,虽然有很多能识别出评价对象,但无法将评价对象和评价词分开,而Zhao等提出的MaxEnt-LDA模型在LDA中引入最大熵,通过最大熵模型来加入相应的语言特征以弥补标准LDA的缺陷,并能识别出评价对象,同时能将评价对象和评价词分开。但MaxEnt-LDA模型只考虑了词法特征,忽略了句法特征,而最大熵部分也存在一些不足。针对上述问题,本文提出了基于主题-条件随机场的CLDA模型,进行评价对象的抽取。首先在LDA模型中引入条件随机场,来区分评价对象,评价词和背景词;然后,通过加入指示变量,对评价对象,评价词和背景词进行全局和局部的区分,之所以要将词进行全局和局部的区分,是因为顾客在对产品进行评价时,有些用词使用比较频繁,容易将其他的评价对象或评价词淹没,所以使用全局和局部来区分出频繁用词和非频繁用词。通过CLDA模型不仅能够达到抽取评价对象的研究目的,而且能够将评价对象和评价词进行分离。为验证CLDA模型的有效性,实验中使用Restaurant领域的评论数据集,进行定性分析和定量分析,在定量分析中,与MaxEnt-LDA模型进行对比,实验结果表明CLDA模型在评价对象抽取方面,有着更好的性能。实验中还重点讨论了条件随机场模型中的特征选择问题,通过实验验证了选用词特征,词性特征和依存句法特征的有效性。最后由于主题模型在中文评价对象抽取方面的研究较少,所以本文将CLDA模型用于中文的评价对象抽取,实验证明CLDA模型在中文的应用上同样适用。
[Abstract]:In this paper , it is very important for the consumers to understand the quality and service of the products . In order to verify the effectiveness of CLDA model , this paper makes qualitative analysis and quantitative analysis . In order to validate the effectiveness of CLDA model , this paper makes qualitative analysis and quantitative analysis . In order to verify the effectiveness of CLDA model , this paper makes qualitative analysis and quantitative analysis . The results show that CLDA model has better performance in evaluating object extraction .
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 廖晓锋;王永吉;范修斌;吴敬征;;基于LDA主题模型的安全漏洞分类[J];清华大学学报(自然科学版);2012年10期
2 胡吉明;陈果;;基于动态LDA主题模型的内容主题挖掘与演化[J];图书情报工作;2014年02期
3 刘培奇;孙捷焓;;基于LDA主题模型的标签传递算法[J];计算机应用;2012年02期
4 程艳花;谭怒涛;黄磊;王建英;;图像分块重构和LDA融合的人脸识别方法[J];计算机工程与应用;2009年27期
5 黄正鹏;;一种改进的LDA+算法[J];福建电脑;2008年08期
6 张燕平;窦蓉蓉;赵姝;曹振田;;基于集成学习的规范化LDA人脸识别[J];计算机工程;2010年14期
7 赵炜;陈俊杰;李海芳;;融合LDA和多类SVM的图像语义映射研究[J];计算机工程与应用;2009年18期
8 吴秀清;范丽亚;;基于QR分解和支持向量的伪逆LDA[J];聊城大学学报(自然科学版);2011年04期
9 郑世卓;崔晓燕;;基于半监督LDA的文本分类应用研究[J];软件;2014年01期
10 楚克明;李芳;;基于LDA话题关联的话题演化[J];上海交通大学学报;2010年11期
相关会议论文 前2条
1 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
2 Jussi Koskinen;蔺春涛;高冬;;线阵探测器(LDA)的现状及发展趋势(英文)[A];2004年CT和三维成像学术年会论文集[C];2004年
相关硕士学位论文 前10条
1 陈小艳;融合结构信息的LDA扣件状态识别研究[D];西南交通大学;2015年
2 袁胜文;基于LDA的中文科技文献话题演化研究[D];河南工业大学;2015年
3 雷鹏;基于LDA的智能电视家庭成员识别方法研究[D];山东大学;2016年
4 杨帆;基于LDA主题模型和标签聚类的党建信息推送策略研究[D];云南大学;2016年
5 黄勇;改进的互信息与LDA结合的特征降维方法研究[D];华中师范大学;2016年
6 张彬彬;基于LDA的社会化标签系统推荐技术研究[D];华南农业大学;2016年
7 任艺;基于LDA主题模型的图像场景分类研究[D];中北大学;2017年
8 何甜;基于LDA主题模型的评价对象抽取研究[D];河北师范大学;2017年
9 楚克明;基于LDA的新闻话题演化研究[D];上海交通大学;2010年
10 王敏;基于LDA主题模型的图像场景分类[D];西安电子科技大学;2013年
,本文编号:1873732
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1873732.html