细粒度意见挖掘研究
发布时间:2017-04-11 09:13
本文关键词:细粒度意见挖掘研究,由笔耕文化传播整理发布。
【摘要】:随着Web2.0的出现,互联网用户从单纯的信息浏览者成为了信息发布者。尤其在电子商务、社交网络出现之后,互联网用户已经成为了整个互联网最大的信息来源。这些用户产生的数据对于互联网用户、产品生产商、服务提供商甚至是政府的相关部门都有着重要作用。通过分析处理这些数据,可以了解这些互联网用户的行为习惯、当前热点事件等等。但是这么庞大的数据量已经远远超过了人力所能处理的范围,在这种情况下计算机成为了最好的处理工具,因此便诞生了意见挖掘这一自然语言处理任务。意见挖掘任务旨在通过对带有评价信息的文本集合进行分析,从中提炼出意见摘要,以便用户更直观、更全面地了解全局。其中,细粒度的意见挖掘可以更好的分析评价的细节之处,更有利于决策。本文针对细粒度意见挖掘任务的需要,对评价信息抽取和分类问题进行了研究。首先本文根据细粒度意见挖掘研究的需要,基于在线评论语料建立了一个主观评价语料库。本文在主观评价语料库的基础上,对评价信息的种类和特征进行了总结,分析评价信息的词性以及上下文词性的规律,并以此作为评价信息抽取的理论依据。其次,本文提出了基于条件随机场模型并结合词聚类信息为特征的评价信息抽取模型,以此进行评价信息抽取实验。实验结果表明词聚类信息能提高标注模型性能,与采用短句法依赖为特征的基线实验相比平均有近10%的提升。在抽取出评价信息之后,还需要对这些评价信息进行分类处理,将描述相同主题的评价信息归入同一个类中,降低统计时的误差。本文提出了基于种子集和语义相似度计算的评价信息分类方法。实验结果表明相比基线实验可以有6%左右的性能提升。
【关键词】:意见挖掘 情感分析 评价信息抽取 评价信息分类
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H08
【目录】:
- 摘要3-4
- Abstract4-7
- 第1章 引言7-12
- 1.1 研究背景及意义7-8
- 1.2 研究现状8-10
- 1.3 本文的研究内容10-12
- 第2章 细粒度意见挖掘的评价语料库的建设12-18
- 2.1 语料库现状12-13
- 2.1.1 英语评价语料库的现状12-13
- 2.1.2 汉语评价语料库现状13
- 2.2 面向细粒度意见挖掘的评价语料库建设13-17
- 2.2.1 问题描述14
- 2.2.2 标注体系14-17
- 2.3 语料库相关信息17
- 2.4 本章小结17-18
- 第3章 评价信息18-29
- 3.1 主观句19-21
- 3.2 评价词21-25
- 3.2.1 评价词性质21
- 3.2.2 评价词类型21-23
- 3.2.3 评价词特征分析23-25
- 3.3 评价对象25-27
- 3.3.1 评价对象性质25-26
- 3.3.2 评价对象特征分析26-27
- 3.4 其他评价信息27-28
- 3.4.1 评价人27-28
- 3.4.2 评价时间28
- 3.5 本章小结28-29
- 第4章 基于词聚类的评价信息抽取研究29-43
- 4.1 相关研究29-31
- 4.2 相关技术31-30
- 4.2.1 词聚类31-32
- 4.2.2 word2vec模型32-33
- 4.2.3 k-means聚类33-35
- 4.2.4 条件随机场35-30
- 4.3 实验目的30-36
- 4.4 实验内容36-38
- 4.5 评测指标38-39
- 4.6 实验结果及分析39-42
- 4.7 本章小结42-43
- 第5章 评价信息分类43-52
- 5.1 相关研究43-45
- 5.1.1 意见摘要43-44
- 5.1.2 隐含评价对象44-45
- 5.2 实验内容45-48
- 5.2.1 语义相似度计算45-46
- 5.2.2 种子集获取46-48
- 5.3 实验结果与分析48-51
- 5.4 本章小结51-52
- 第6章 总结与展望52-54
- 6.1 总结52-53
- 6.2 展望53-54
- 参考文献54-60
- 致谢60-61
- 附录 (实验语料样例)61-71
本文关键词:细粒度意见挖掘研究,,由笔耕文化传播整理发布。
本文编号:298774
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/298774.html