当前位置:主页 > 科技论文 > 自动化论文 >

中文产品评论的情感分析与观点识别技术的研究

发布时间:2022-01-27 19:49
  越来越多在线产品的销售导致产品评价数量呈爆炸式增长,一些网站上的单个产品评价数量就能达到成百上千条。这些评价信息对潜在客户、产品生产厂商和产品销售商都非常有价值,蕴含着巨大商机。越来越多的研究者也致力于从这些产品评价中分析购买者在评论中所表达的与所购买产品或产品特征相关的观点、态度和情绪等。这样的研究就是情感分析。它涉及到多个研究领域,如信息检索、自然语言处理和数据挖掘等。本文的主要工作如下:(1)提出一种基于句法结构关系对中文产品评论中所描述产品特征进行识别的方法,通过多策略方案抽取出产品评论中出现的不同层次的产品特征,并完成基于产品特征属性的情感分类。此项工作解决了情感分析和观点识别中两个方面的问题:产品特征的抽取和基于产品特征的情感方向识别。产品特征抽取的任务是通过计算产品评论中单词的词频和基于句法关系的双向传播算法抽取产品候选特征,并通过特征剪枝的方式去掉了影响算法准确性的冗余特征。基于产品特征的情感方向识别方法能有效对同一个情感词在不同句子中的情感进行识别,能够考虑到相同的单词可能在不同的句子中表达不同的观点,而不固定单词的情感方向。实验证明,所提方法能够获得较高的精确度、召... 

【文章来源】:山东科技大学山东省

【文章页数】:131 页

【学位级别】:博士

【部分图文】:

中文产品评论的情感分析与观点识别技术的研究


图3.1通用词库单词分布情况??Fig.?3.1?Word?distribution?in?the?general?lexicon??

分布情况,名词,分布情况,语料库


行下一步的非频繁特征的抽取任务。??从三个语料库中分别抽取出600条、1000条和丨900条评论对其进行词频统计,??统计结果如图3.3,?3.4和3.5所示。从图中可以看出大部分的名词出现次数很少,频??率较低,这也是中文产品评论的一个特点,单词的分布较为松散,经常出现词词集??比重较小。在这里,根据对实验语料库的实验数据的分布情况,将抽取频繁特征的??最小阈值设置为0.1?%。??t?—hotel??1500-?\?laptop??I?book??1250?-琴'??\??1000?-??=750?-?^???\??,0-??250?-?\\??〇-?m?■???■ ̄—■??0.1?0.2?0.3?0.4?0.5??^%)??图3.3?600条评论名词分布情况??Fig.3.3?Noun?distribution?in?600?reviews??38??

分布情况,名词,分布情况,算法有效性


?0.5??n%)??图3.5?1900条评论名词分布情况??Fig.3.5?Noun?distribution?in?1900?reviews??为了验证实验的有效性,使用三个常用的算法有效性评价参数来对实验的结果??进行验证,这三个参数就是精确度(P)、召回率(/〇和F-值(F)来测试实验??方法的性能。??a??P?=?r?(3.14)??a?+?b??a??r?=??(3.15)??a?+?c??39??

【参考文献】:
期刊论文
[1]面向顾客点评数据的属性层次观点挖掘研究(英文)[J]. 徐学可,程学旗,谭松波,刘悦,沈华伟.  中国通信. 2013(03)
[2]基于监督学习的中文情感分类技术比较研究[J]. 唐慧丰,谭松波,程学旗.  中文信息学报. 2007(06)



本文编号:3612982

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3612982.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49c3e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com