数据挖掘方法在评论分类中的应用研究
本文关键词:数据挖掘方法在评论分类中的应用研究
更多相关文章: 情感分类 价值分类 语义倾向 点互信息 最大熵模型 指代识别
【摘要】:随着互联网的快速发展和普及,网络已经成为人们生活不可或缺的一部分。人们通过互联网看书、视频、学习、讨论、购物时常常会在相关页面上留下关于该页面主题的评论。特别地,消费者在电商网站上进行网购之后都会留下关于购买产品的评论信息。目前,随着网络上的评论信息剧增,评论数据的有效利用问题已经越来越收到人们的关注。面对大量的评论数据,如何从中挖掘到有用的信息对网站用户、服务商、生产商都有着重要的意义。然而页面上的评论信息属于非结构化数据,也就是代表评论数据本身并没有一个预定义的数据模型。由于评论数据的不规则性和不明确性,使得其相对于按字段存储在数据库的数据难以用传统的程序进行分析、统计或归纳。如何从海量的评论数据中提取有用的信息以方便用户、服务商和生产商有效、快捷地利用是本文主要探讨的问题。本文的主要任务包括对评论数据进行的情感分类和进行基于价值分类。对于评论的情感分类,文本提出一种基于情感词抽取和点互信息的非监督学习方法。其中,对句子进行分词、词性识别并从中抽取情感词,减少了分类时噪声的引入。通过计算情感词和范例词的PMI值得出一个评论文档的情感倾向。对于用户而言,评论数据情感倾向并不能满足评论阅读者的需求,因此提出一种基于引入指向特征的最大熵模型方法对评论数据进行价值分类。该方法认为评论数据中有价值的信息除了与文本长度、是否存在描述性词语等特征相关还与评论文本是否指向主题相关。提出一种基于IP树的文本指向识别方法,对识别结果作为特征引入到模型训练中,实验证明该方法构造的分类器具有较好的分类效果。
【关键词】:情感分类 价值分类 语义倾向 点互信息 最大熵模型 指代识别
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 绪论11-15
- 1.1 研究背景及意义11-12
- 1.2 国内外研究现状12-14
- 1.3 论文结构14-15
- 第二章 评论分类相关技术背景介绍15-23
- 2.1 文本分类相关概念介绍15-16
- 2.2 评论分类的研究方向介绍16-18
- 2.2.1 情感分类16-17
- 2.2.2 价值分类17-18
- 2.3 基于机器学习的评论分类18-19
- 2.4 最大熵模型19-21
- 2.5 语义倾向方法在评论分类中的应用21-23
- 第三章 基于语义倾向的评论情感分类23-33
- 3.1 评论的情感分类流程介绍23-24
- 3.2 基于PMI-IR的语义倾向24-26
- 3.3 评论文本爬取26-29
- 3.3.1 爬虫系统流程介绍26-27
- 3.3.2 抓取模块设计27-28
- 3.3.3 基于DOM的文本抽取模块设计28-29
- 3.4 实验流程与结果分析29-33
- 3.4.1 评论文本的语义倾向分类29-30
- 3.4.2 文本分类指标30-31
- 3.4.3 实验流程与结果分析31-33
- 第四章 基于机器学习的评论价值分类33-43
- 4.1 预处理33-35
- 4.2 基于二值特征最大熵文本分类35-37
- 4.3 评论文本的价值分类方法37-41
- 4.3.1 建立特征资源库37-38
- 4.3.2 基于句法分析的评论对象识别38-40
- 4.3.3 二值特征函数的构建40-41
- 4.4 实验结果与分析41-43
- 第五章 总结与展望43-45
- 总结43-44
- 展望44-45
- 参考文献45-49
- 攻读学位期间发表的论文49-51
- 致谢51
【相似文献】
中国期刊全文数据库 前10条
1 徐扬;;基于最大熵模型的汉语隐喻现象识别[J];计算机工程与科学;2007年04期
2 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
3 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
4 谢法奎;张全;;基于最大熵模型的语义块切分[J];计算机工程与应用;2009年26期
5 樊娜;蔡皖东;赵煜;;基于最大熵模型的观点句主观关系提取[J];计算机工程;2010年02期
6 葛斌;封孝生;谭文堂;肖卫东;;基于多层最大熵模型的句子主干分析[J];计算机科学;2010年12期
7 方明;刘培玉;;基于最大熵模型的评价搭配识别[J];计算机应用研究;2011年10期
8 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
9 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
10 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
中国重要会议论文全文数据库 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
4 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 王凯华;李济洪;张国华;王瑞波;;基于最大熵模型的中文阅读理解问答系统技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 游斓;周雅倩;黄萱菁;吴立德;;基于最大熵模型的QA系统置信度评分算法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 周明震;最大熵模型的T-S模糊化[D];辽宁科技大学;2016年
2 李杰骏;数据挖掘方法在评论分类中的应用研究[D];广东工业大学;2016年
3 王煦祥;面向问答的问句关键词提取技术研究[D];哈尔滨工业大学;2016年
4 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
5 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
6 刘大保;基于最大熵的智能提问系统及其在审计中的应用[D];哈尔滨工程大学;2013年
7 付琳;利用非广延最大熵模型进行文本分类[D];天津大学;2009年
8 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
9 梅灿华;基于最大熵模型的迁移学习算法研究[D];合肥工业大学;2011年
10 谭文堂;基于统计模型的汉语句子主干分析[D];国防科学技术大学;2008年
,本文编号:803535
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/803535.html