当前位置:主页 > 科技论文 > 软件论文 >

网站商品评论挖掘技术的研究

发布时间:2017-05-05 09:03

  本文关键词:网站商品评论挖掘技术的研究,由笔耕文化传播整理发布。


【摘要】:随着互联网应用的迅速发展,购物网站、点评网站以及各种论坛上不断积累了越来越多的商品评论文本。在商品评论挖掘的研究中,基于方面的情感分析备受关注。从消费者的角度来看,不同消费者看重的方面会有所区别,基于方面的情感分析结果可以帮助他们选择更适合自己的产品。从商家的角度来看,基于方面的情感分析结果可以让商家知道其产品有哪些方面存在问题,可以帮助他们对产品进行改进。本文利用CRFs模型,对评论文本进行基于方面的情感分析研究,主要包括方面与评价词抽取、情感极性及强度分析、基于主题-方面的情感极性及强度分析结果总结三部分。关于方面与评价词的抽取,本文提出了基于LDA和CRFs的半监督方面词与评价词同步抽取方法。初始方面词与评价词集合从LDA主题模型的训练结果以及知网的情感词典中获取。在CRFs模型中,融合了统计特征(从LDA主题模型的训练结果中得到)、语义特征(词、词性、语气词、程度词、词之间的前后关系)以及方面与评价词的共现等特征,最终得到方面词抽取的F1值为71.7%,评价词抽取的F1值为55.3%。和有监督学习相比,本文的半监督方法能很大程度上减少方面词和评价词标注的工作量。因为是半监督,该方法还具有一定的跨领域性,如果应用到其他领域,需要做的额外工作很少。关于情感极性分类及强度分析,本文利用层叠CRFs模型,融合词、词性、语气词、程度词、方面和评价词的共现等特征,在情感句识别、情感极性分类和情感强度分析上得到的F1值分别为86.3%、77.2%、70.7%。关于意见总结,本文提出了基于主题-方面的情感极性及强度分析结果总结方法,并实现了一个评论挖掘系统,对挖掘效果进行了直观的展示。
【关键词】:商品评论 方面抽取 情感分析 条件随机场 主题模型
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;F724.6
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-12
  • 1 引言12-22
  • 1.1 研究背景和选题意义12-13
  • 1.2 研究现状13-20
  • 1.2.1 方面抽取研究现状13-15
  • 1.2.2 评价词抽取研究现状15-16
  • 1.2.3 主观句识别研究现状16
  • 1.2.4 文本情感极性及强度分析研究现状16-19
  • 1.2.5 评论挖掘系统构建研究现状19-20
  • 1.3 论文主要工作20
  • 1.4 论文组织结构20-22
  • 2 相关基础知识22-32
  • 2.1 评论挖掘的一般流程22-23
  • 2.2 常用模型介绍23-31
  • 2.2.1 向量空间模型23-24
  • 2.2.2 主题模型24-25
  • 2.2.3 条件随机场模型25-31
  • 2.3 文本分类性能评价31
  • 2.4 本章小结31-32
  • 3 方面与评价词抽取32-46
  • 3.1 抽取对象的定义与说明32-33
  • 3.2 半监督CRFs迭代抽取方面和评价词33-38
  • 3.2.1 LDA主题模型的建模33-34
  • 3.2.2 获取初始方面及评价词集合34-35
  • 3.2.3 迭代抽取流程35-36
  • 3.2.4 CRFs特征的选取36-37
  • 3.2.5 CRFs特征模板的设计37-38
  • 3.3 实验及结果分析38-45
  • 3.3.1 实验环境、工具及语料说明38-39
  • 3.3.2 文本标注及统计39
  • 3.3.3 实验过程39-42
  • 3.3.4 实验结果及分析42-45
  • 3.4 本章小结45-46
  • 4 情感极性及强度分析46-62
  • 4.1 评论文本基于标点的切分和基于方面的合并47-48
  • 4.2 情感句识别48-50
  • 4.2.1 特征选取48-49
  • 4.2.2 特征模板的设计49-50
  • 4.3 褒贬极性分类50-51
  • 4.3.1 特征选取50-51
  • 4.3.2 特征模板的设计51
  • 4.4 褒贬强度分类51-53
  • 4.4.1 特征选取51-53
  • 4.4.2 特征模板的设计53
  • 4.5 情感极性及强度分析实验53-61
  • 4.5.1 准备工作53-54
  • 4.5.2 情感句识别实验54-56
  • 4.5.3 褒贬极性分类实验56-58
  • 4.5.4 褒贬强度分类实验58-61
  • 4.6 本章小结61-62
  • 5 基于主题-方面的商品评论挖掘系统的构建62-68
  • 5.1 基于主题-方面的意见总结62-64
  • 5.1.1 将短评论归类到主题62-63
  • 5.1.2 方面的合并与各主题及整体打分63-64
  • 5.2 商品评论挖掘系统的设计与实现64-67
  • 5.2.1 商品评论的存储形式64
  • 5.2.2 数据处理流程64-65
  • 5.2.3 挖掘结果的展示65-67
  • 5.3 本章小结67-68
  • 6 总结68-70
  • 6.1 研究工作总结68-69
  • 6.2 进一步工作69-70
  • 参考文献70-73
  • 作者简历及攻读硕士学位期间取得的研究成果73-75
  • 学位论文数据集75

【相似文献】

中国期刊全文数据库 前10条

1 许璐蕾;;网络评论中情感词的获取及极性判断方法比较[J];电脑与电信;2011年01期

2 肖健;徐建;朱姝;万缨;许亮;;基于翻译和语义方法的情感词挖掘研究[J];计算机工程与应用;2011年32期

3 赵鹏;赵志伟;卓景文;;一种情感词语义加权的句子倾向性识别方法[J];计算机工程与应用;2011年35期

4 代大明;李寿山;李培峰;朱巧明;;基于情绪词与情感词协作学习的情感分类方法研究[J];计算机科学;2012年12期

5 李勇敢;周学广;孙艳;张焕国;;结合依存关联分析和规则统计分析的情感词库构建方法[J];武汉大学学报(理学版);2013年05期

6 彭庆喜;钱铁云;;基于量化情感的网店垃圾评论检测[J];山东大学学报(理学版);2013年11期

7 杜嘉忠;徐健;刘颖;;网络商品评论的特征 情感词本体构建与情感分析方法研究[J];现代图书情报技术;2014年05期

8 张清亮;徐健;;网络情感词自动识别方法研究[J];现代图书情报技术;2011年10期

9 黄俊;田生伟;禹龙;冯冠军;;基于维吾尔语情感词的句子情感分析[J];计算机工程;2012年09期

10 孙劲光;马志芳;孟祥福;;基于情感词属性和云模型的文本情感分类方法[J];计算机工程;2013年12期

中国重要会议论文全文数据库 前5条

1 陈奇哲;刘全升;姚天f ;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年

2 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年

3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

4 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

5 王枞;涂序彦;刘嘉;;注意-情绪协调的个性化信息推荐模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

中国博士学位论文全文数据库 前8条

1 刘全超;面向中文微博的观点挖掘与倾向性分析研究[D];北京理工大学;2015年

2 董喜双;基于免疫多词主体自治学习的情感分析研究[D];哈尔滨工业大学;2013年

3 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年

4 杨玉珍;基于Web评论信息的倾向性分析关键技术研究[D];山东师范大学;2014年

5 黄胜;Web评论文本的细粒度意见挖掘技术研究[D];北京理工大学;2014年

6 施寒潇;细粒度情感分析研究[D];苏州大学;2013年

7 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年

8 李芳;面向中文Web评论的观点挖掘关键技术研究[D];华中师范大学;2013年

中国硕士学位论文全文数据库 前10条

1 孙博;关于情感词的意义用法[D];辽宁大学;2012年

2 王银;中文微博情感分析方法研究[D];广东技术师范学院;2015年

3 崔连超;互联网评论文本情感分析研究[D];山东大学;2015年

4 杜雪峰;藏文句子倾向性分析研究[D];中央民族大学;2015年

5 孙建超;微博舆情挖掘技术的研究与应用[D];电子科技大学;2015年

6 张圣声;基于微博平台的产品评论情感分类研究[D];广东外语外贸大学;2015年

7 何天翔;基于情感词网的短文本情感分类方法研究[D];西南科技大学;2015年

8 丁星;基于文本倾向性分析技术的微博监控系统[D];江苏科技大学;2015年

9 李茜;博客意见检索关键问题研究[D];北京理工大学;2015年

10 李瑞静;汉语情感词模糊语义的量化分析及应用研究[D];北京理工大学;2015年


  本文关键词:网站商品评论挖掘技术的研究,由笔耕文化传播整理发布。



本文编号:346033

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/346033.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c5e67***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com