基于多维度特征评论分类的研究
发布时间:2017-12-16 21:03
本文关键词:基于多维度特征评论分类的研究
更多相关文章: 评论分类 fasttext SVM 文本特征 多维度特征
【摘要】:电子商务交易规模日益上升,用户和商品交互数据激增,用户和商家则通过评论得到商品的反馈信息并进行买卖决策。传统的评论分类基于词袋或者TF-IDF特征,没有考虑词语的语义、语法以及词语顺序等信息,同时没有考虑用户和评论本身的特征,模型分类准确率低、扩展性差。因此本文调研文本表示、文本分类以及评论分类的相关技术和方法,提出并实现了一种新的基于多维度特征的评论分类模型MDF-CC。该模型基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,通过模型线性融合,得到基于多维度特征的评论分类模型MDF-CC。利用采集自京东的评论数据,通过实验与基于传统TF-IDF统计方法的评论分类模型、fasttext评论分类模型做了性能比较分析,实验结果表明本文提出的MDF-CC模型准确性更高且具有更好的可扩展性。具体研究内容如下:1)研究文本表示的主要方法以及文本分类主要算法,分析每种技术优缺点。基于传统TF-IDF统计方法提取评论文本特征,基于随机森林和SVM算法建立评论分类模型,两种模型的F1值分别约为79%和80%;2)实现一种基于fasttext的快速评论分类模型F-CC。该模型考虑词语的语义、语法以及顺序信息,基于词向量网络训练建立文本表示与分类模型。F-CC评论分类方法F1值约为88%,分类效果优于基于传统的TF-IDF特征评论分类方法;3)提出并实现一种基于多维度特征评论分类模型MDF-CC。该模型可视化非文本特征与评论极性关系,基于非文本特征建立随机森林概率模型,基于文本特征建立fasttext概率模型,最后进行模型线性融合。经过实验验证,多维度的评论分类模型F1值约为90%,验证了本文提出的MDF-CC模型的准确性和扩展性;4)提出并实现一种基于词向量相似度匹配的评论方面词抽取算法,通过评论方面词扩展以及平均相似度匹配,最终判断评论评价的是物流、服务、价格和质量的哪一个方面,从而获得商品在方面词的好评率和差评率。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前3条
1 宋钰婷;徐德华;;基于LDA和SVM的中文文本分类研究[J];现代计算机(专业版);2016年05期
2 韩冬煦;常宝宝;;中文分词模型的领域适应性方法[J];计算机学报;2015年02期
3 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
中国硕士学位论文全文数据库 前5条
1 李军伟;网站商品评论挖掘技术的研究[D];北京交通大学;2016年
2 周红伟;商品评价信息的中文情感分析[D];浙江工商大学;2015年
3 刘贤友;面向电子商务的评论文本情感分析研究[D];中国科学技术大学;2015年
4 蓝天广;电子商务产品在线评论的细粒度情感强度分析[D];北京邮电大学;2015年
5 崔志刚;基于电商网站商品评论数据的用户情感分析[D];北京交通大学;2014年
,本文编号:1297439
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1297439.html