基于关键词加权的情感分类特征研究
发布时间:2021-05-22 23:56
近年来,随着互联网金融和电子商务的快速发展,各种网络商城已经处在一个信息爆炸式增长的环境下,越来越多的人喜欢在网上购物时对商品和商家的服务提出自已的观点,这使得互联网商城的商品评论信息数量呈几何级数增长。顾客对商品的评论代表对商家的产品和服务的态度,所以,将这些商品的评论进行文本挖掘和情感分析对研究商品在客户们之间的口碑,进行商品推荐,垃圾信息过滤,了解用户心态,掌握市场第一动态以及对商家服务的改善有着极大的帮助。一般传统的文本情感分类主要的方法是对文本进行预处理后,建造词向量,然后提取特征,最后用分类或聚类的方法对这些数据进行情感分类。在传统的情感分类方法里,特征工程是最重要的一个环节,对分类的结果影响最大。但是,传统的TF-IDF和Word2vec方法提取的文本特征内容有限,表达能力弱,对短文本中词向量与上下文的关系和词向量的词频权重难以兼顾,这些方法提取的特征词对整个短文本的代表性不强,影响分类效果。为了解决这个问题,本文做了以下几个工作:第一,使用Word2vec的skip-gram模型,计算出每个词推导出整句话的概率,其中概率最大的几个词汇是这个短文本中的关键词;然后以概率递...
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文结构
第二章 文本分类相关技术
2.1 文本预处理
2.2 文本表示模型
2.3 分类器
2.4 分类性能
2.5 本章小结
第三章 TF-IDF词向量表示法和Word2vec模型
3.1 TF-IDF
3.2 Word2vec
3.3 设计新特征的考虑因素
3.4 本章小结
第四章 改进的T-Word2vec分类特征
4.1 T-Word2vec的优点
4.2 算法流程
4.3 提取关键词
4.4 T-Word2vec构建
4.5 本章小结
第五章 实验设计与结果
5.1 实验环境设置
5.2 各种词向量对实验的影响
5.3 Word2vec各参数对实验的影响
5.4 不同种类的数据集对实验的影响
5.5 T-Word2vec和Word2vec的实验时间对比
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 后续工作
参考文献
致谢
【参考文献】:
期刊论文
[1]基于机器学习LightGBM和异质集成学习方法的新闻分类[J]. 李安. 电子制作. 2019(04)
[2]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[3]集成Vissim和Python的车联网仿真平台研究[J]. 姚志洪,蒋阳升. 计算机仿真. 2018(12)
[4]基于Python的数据分析概述[J]. 翟高粤. 甘肃科技纵横. 2018(11)
[5]基于归一化文档频率的文本分类特征选择方法[J]. 赵鸿山,范贵生,虞慧群. 华东理工大学学报(自然科学版). 2019(05)
[6]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[7]基于word2vec词模型的中文短文本分类方法[J]. 高明霞,李经纬. 山东大学学报(工学版). 2019(02)
[8]基于词向量特征扩展的中文短文本分类研究[J]. 雷朔,刘旭敏,徐维祥. 计算机应用与软件. 2018(08)
[9]基于Doc2Vec与SVM的聊天内容过滤[J]. 岳文应. 计算机系统应用. 2018(07)
[10]基于TF-IDF向量空间模型文本相似度算法的分析[J]. 甘秋云. 池州学院学报. 2018(03)
博士论文
[1]移动社交网络微信用户信息共享行为研究[D]. 王飞飞.北京邮电大学 2018
硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于物联网与大数据分析的设备健康状况监测系统设计与实现[D]. 谢添.北京交通大学 2018
[3]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[4]基于doc2vec和SVM的舆情情感分析系统的研究与设计[D]. 甘如饴.北京邮电大学 2017
[5]基于词向量的文本分类算法研究与改进[D]. 王明亚.华东师范大学 2016
[6]商家标签管理系统的设计与实现[D]. 陆相氾.南京大学 2016
[7]基于短文本的分类算法研究[D]. 徐易.上海交通大学 2010
[8]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:3201886
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文结构
第二章 文本分类相关技术
2.1 文本预处理
2.2 文本表示模型
2.3 分类器
2.4 分类性能
2.5 本章小结
第三章 TF-IDF词向量表示法和Word2vec模型
3.1 TF-IDF
3.2 Word2vec
3.3 设计新特征的考虑因素
3.4 本章小结
第四章 改进的T-Word2vec分类特征
4.1 T-Word2vec的优点
4.2 算法流程
4.3 提取关键词
4.4 T-Word2vec构建
4.5 本章小结
第五章 实验设计与结果
5.1 实验环境设置
5.2 各种词向量对实验的影响
5.3 Word2vec各参数对实验的影响
5.4 不同种类的数据集对实验的影响
5.5 T-Word2vec和Word2vec的实验时间对比
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 后续工作
参考文献
致谢
【参考文献】:
期刊论文
[1]基于机器学习LightGBM和异质集成学习方法的新闻分类[J]. 李安. 电子制作. 2019(04)
[2]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[3]集成Vissim和Python的车联网仿真平台研究[J]. 姚志洪,蒋阳升. 计算机仿真. 2018(12)
[4]基于Python的数据分析概述[J]. 翟高粤. 甘肃科技纵横. 2018(11)
[5]基于归一化文档频率的文本分类特征选择方法[J]. 赵鸿山,范贵生,虞慧群. 华东理工大学学报(自然科学版). 2019(05)
[6]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[7]基于word2vec词模型的中文短文本分类方法[J]. 高明霞,李经纬. 山东大学学报(工学版). 2019(02)
[8]基于词向量特征扩展的中文短文本分类研究[J]. 雷朔,刘旭敏,徐维祥. 计算机应用与软件. 2018(08)
[9]基于Doc2Vec与SVM的聊天内容过滤[J]. 岳文应. 计算机系统应用. 2018(07)
[10]基于TF-IDF向量空间模型文本相似度算法的分析[J]. 甘秋云. 池州学院学报. 2018(03)
博士论文
[1]移动社交网络微信用户信息共享行为研究[D]. 王飞飞.北京邮电大学 2018
硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于物联网与大数据分析的设备健康状况监测系统设计与实现[D]. 谢添.北京交通大学 2018
[3]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[4]基于doc2vec和SVM的舆情情感分析系统的研究与设计[D]. 甘如饴.北京邮电大学 2017
[5]基于词向量的文本分类算法研究与改进[D]. 王明亚.华东师范大学 2016
[6]商家标签管理系统的设计与实现[D]. 陆相氾.南京大学 2016
[7]基于短文本的分类算法研究[D]. 徐易.上海交通大学 2010
[8]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:3201886
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3201886.html
最近更新
教材专著