基于改进LDA的在线商城垃圾评论识别研究
发布时间:2021-03-26 17:22
随着时代的发展,互联网已经成为人们生活中必不可少的一部分,在线商城的出现也使得人们的购物方式产生了巨大的变化,其产生的商品评论对消费者选择商品提供了重要的参考价值。然而垃圾评论的存在会使消费者接受到错误的商品信息,进而影响消费者的购买体验,同时也会造成商家信誉度的缺失。因此,垃圾评论识别已经成为当前在线商城发展过程中的重点问题,也是当下文本分类研究的热点问题。为此,本文在对在线商城评论数据进行研究的基础上,提出了一种改进的LDA主题模型,探究依据评论文本的主题信息来识别垃圾评论的研究方法,使得在线商城能够过滤无用或无效的垃圾评论,为消费者鉴别商品质量提供指导,并为在线商城垃圾评论识别问题提供一种解决办法。结合LDA主题模型及垃圾评论识别的相关理论,本文以在线商城评论数据作为研究对象,首先借助网络爬虫技术,设计了针对于在线商城评论数据的采集方案。并在此基础上,利用中文分词、停用词过滤及关键词提取等预处理方法对数据进行整合,进而借助文本表示方法完成了评论数据的降维操作。其次,探讨了将LDA主题模型直接应用于在线商城垃圾评论识别带来的不利影响,基于此提出了改进后的OMCR-LDA主题模型,借...
【文章来源】:西安理工大学陕西省
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
商品搜索结果页面
西安理工大学硕士学位论文56图5-3在线商城评论数据(部分)Figure5-3Onlinemallreviewdata(partial)如上图5-3所示,通过观察在线商城评论数据的特征发现,利用网络爬虫技术从在线商城中直接爬取数据会带来一些问题,例如爬取的数据中存在许多重复评论和脏数据的现象,经过分析发现爬虫获得的在线商城评论数据具有如下特点:●文本短:有许多评论字符内容太少;●语言不规范:会出现一些网络用词,符号,数字等;●无意义信息多:如只简单的进行评论“好”、“可以”、“不错”等;●重复性大:部分用户会复制粘贴别人的评论;●数据量大:针对研究的不同商品类型,可以获得大量的评论数据。由于评论数据量较大,且评论长短不一、内容复杂,为了使评论数据在OMCR-LDA中的计算过程更为准确,在此约定以下3个前提假设:①每次评论单独发生,评论之间是相互独立的;②评论者对一件商品至多进行一次评论;③将信息量少的评论内容也视为正常评论,后面会针对具体研究对字符过少的评论进行剔除。根据以上前提假设,对爬取得到在线商城评论数据集可以展开进一步的数据预处理操作。5.2.2实验数据预处理(1)中文分词由于在线商城提供了非常自由的评论环境,且在网络环境中很容易产生网络新词,为了减少词语歧义,提升评论数据的分词效果,本文经过对所获取的评论数据进行分析及整理,通过统计的方式构建了专门针对在线商城评论这种文本类型的自定义词典,词典内容如下图5-4所示:
京东在线商城的垃圾评论识别实验及分析57图5-4在线商城评论自定义词典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)对在线商城评论数据进行分词操作时,正确识别新词对分词结果具有重要影响。根据构建的自定义词典,可以较好地解决新词识别问题,同时能够保证关键词不被拆分,也能够有效解决利用Jieba的通用词典库无法识别新词、造成词语歧义的问题。通过加载在线商城评论的自定义词库,与Jieba中的已有词库相结合,在分词的过程中就可以依据以上分词词典使得分词结果更加精确。借助编写的Python程序来调用Jieba分词库,根据在线商城评论特点,采用精确模式实现的分词结果如下图5-5所示:图5-5分词结果(部分)Figure5-5Segmentationresult(partial)(2)停用词过滤观察以上分词结果,发现评论中包含有较多语气词及无意义的词,这些词都属于停用词。根据第三章中停用词过滤的研究方法,若要对这些词汇进行良好地剔除,需首先构建一个停用词表,它可以保证停用词过滤的全面性和准确性,并且结合了在线商城的评论特点,使得过滤效果得以提升,所构建的停用词表如表5-2所示:
【参考文献】:
期刊论文
[1]基于改进LDA的在线医疗评论主题挖掘[J]. 高慧颖,刘嘉唯,杨淑昕. 北京理工大学学报. 2019(04)
[2]基于Word2Vec和LDA主题模型的Web服务聚类方法[J]. 肖巧翔,曹步清,张祥平,刘建勋,李晏新闻. 中南大学学报(自然科学版). 2018(12)
[3]垃圾商品评论检测研究综述[J]. 张圣,伍星,邹东升. 计算机工程与科学. 2018(11)
[4]基于word2vec和LDA的文本主题[J]. 徐守坤,周佳,李宁,石林. 计算机工程与设计. 2018(09)
[5]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[6]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[7]用户在线评论数据采集策略研究[J]. 王聪鋆,张云. 信息与电脑(理论版). 2017(20)
[8]基于主题模型和情感分析的垃圾评论识别方法研究[J]. 金相宏,李琳,钟珞. 计算机科学. 2017(10)
[9]基于梯度核特征及N-gram模型的商品图像句子标注[J]. 张红斌,姬东鸿,尹兰,任亚峰. 计算机科学. 2016(05)
[10]基于情感特征和用户关系的虚假评论者的识别[J]. 邵珠峰,姬东鸿. 计算机应用与软件. 2016(05)
博士论文
[1]基于标注和未标注数椐的虚假评论识别研究[D]. 任亚峰.武汉大学 2015
[2]基于产品评论的情感分析研究[D]. 李方涛.清华大学 2011
[3]基于词共现的文本主题挖掘模型和算法研究[D]. 常鹏.天津大学 2010
硕士论文
[1]基于LDA与PW-Word2vec的虚假评论识别方法研究[D]. 贾少华.内蒙古大学 2019
[2]电商平台购物虚假评论识别研究[D]. 王禹.首都经济贸易大学 2018
[3]基于DBN模型的电子商务虚假评论识别[D]. 唐义杰.安徽财经大学 2018
[4]整合视角下在线评论感知有用性形成机理:信息—顾客—产品的交互作用[D]. 赵晓虹.太原理工大学 2018
[5]第三方点评网站垃圾评论分类模型的构建[D]. 吴琪.天津师范大学 2018
[6]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[7]基于LDA的企业微博主题传播效果分析[D]. 赵燕.华南理工大学 2018
[8]基于LDA的微博灾害信息聚合[D]. 李静.武汉大学 2018
[9]基于非均衡数据分类方法的虚假评论检测研究[D]. 周黎宇.合肥工业大学 2018
[10]基于Web质量模型特征模型的垃圾评论特征分析与检测[D]. 刘雪甜.西南交通大学 2017
本文编号:3101964
【文章来源】:西安理工大学陕西省
【文章页数】:91 页
【学位级别】:硕士
【部分图文】:
商品搜索结果页面
西安理工大学硕士学位论文56图5-3在线商城评论数据(部分)Figure5-3Onlinemallreviewdata(partial)如上图5-3所示,通过观察在线商城评论数据的特征发现,利用网络爬虫技术从在线商城中直接爬取数据会带来一些问题,例如爬取的数据中存在许多重复评论和脏数据的现象,经过分析发现爬虫获得的在线商城评论数据具有如下特点:●文本短:有许多评论字符内容太少;●语言不规范:会出现一些网络用词,符号,数字等;●无意义信息多:如只简单的进行评论“好”、“可以”、“不错”等;●重复性大:部分用户会复制粘贴别人的评论;●数据量大:针对研究的不同商品类型,可以获得大量的评论数据。由于评论数据量较大,且评论长短不一、内容复杂,为了使评论数据在OMCR-LDA中的计算过程更为准确,在此约定以下3个前提假设:①每次评论单独发生,评论之间是相互独立的;②评论者对一件商品至多进行一次评论;③将信息量少的评论内容也视为正常评论,后面会针对具体研究对字符过少的评论进行剔除。根据以上前提假设,对爬取得到在线商城评论数据集可以展开进一步的数据预处理操作。5.2.2实验数据预处理(1)中文分词由于在线商城提供了非常自由的评论环境,且在网络环境中很容易产生网络新词,为了减少词语歧义,提升评论数据的分词效果,本文经过对所获取的评论数据进行分析及整理,通过统计的方式构建了专门针对在线商城评论这种文本类型的自定义词典,词典内容如下图5-4所示:
京东在线商城的垃圾评论识别实验及分析57图5-4在线商城评论自定义词典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)对在线商城评论数据进行分词操作时,正确识别新词对分词结果具有重要影响。根据构建的自定义词典,可以较好地解决新词识别问题,同时能够保证关键词不被拆分,也能够有效解决利用Jieba的通用词典库无法识别新词、造成词语歧义的问题。通过加载在线商城评论的自定义词库,与Jieba中的已有词库相结合,在分词的过程中就可以依据以上分词词典使得分词结果更加精确。借助编写的Python程序来调用Jieba分词库,根据在线商城评论特点,采用精确模式实现的分词结果如下图5-5所示:图5-5分词结果(部分)Figure5-5Segmentationresult(partial)(2)停用词过滤观察以上分词结果,发现评论中包含有较多语气词及无意义的词,这些词都属于停用词。根据第三章中停用词过滤的研究方法,若要对这些词汇进行良好地剔除,需首先构建一个停用词表,它可以保证停用词过滤的全面性和准确性,并且结合了在线商城的评论特点,使得过滤效果得以提升,所构建的停用词表如表5-2所示:
【参考文献】:
期刊论文
[1]基于改进LDA的在线医疗评论主题挖掘[J]. 高慧颖,刘嘉唯,杨淑昕. 北京理工大学学报. 2019(04)
[2]基于Word2Vec和LDA主题模型的Web服务聚类方法[J]. 肖巧翔,曹步清,张祥平,刘建勋,李晏新闻. 中南大学学报(自然科学版). 2018(12)
[3]垃圾商品评论检测研究综述[J]. 张圣,伍星,邹东升. 计算机工程与科学. 2018(11)
[4]基于word2vec和LDA的文本主题[J]. 徐守坤,周佳,李宁,石林. 计算机工程与设计. 2018(09)
[5]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[6]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[7]用户在线评论数据采集策略研究[J]. 王聪鋆,张云. 信息与电脑(理论版). 2017(20)
[8]基于主题模型和情感分析的垃圾评论识别方法研究[J]. 金相宏,李琳,钟珞. 计算机科学. 2017(10)
[9]基于梯度核特征及N-gram模型的商品图像句子标注[J]. 张红斌,姬东鸿,尹兰,任亚峰. 计算机科学. 2016(05)
[10]基于情感特征和用户关系的虚假评论者的识别[J]. 邵珠峰,姬东鸿. 计算机应用与软件. 2016(05)
博士论文
[1]基于标注和未标注数椐的虚假评论识别研究[D]. 任亚峰.武汉大学 2015
[2]基于产品评论的情感分析研究[D]. 李方涛.清华大学 2011
[3]基于词共现的文本主题挖掘模型和算法研究[D]. 常鹏.天津大学 2010
硕士论文
[1]基于LDA与PW-Word2vec的虚假评论识别方法研究[D]. 贾少华.内蒙古大学 2019
[2]电商平台购物虚假评论识别研究[D]. 王禹.首都经济贸易大学 2018
[3]基于DBN模型的电子商务虚假评论识别[D]. 唐义杰.安徽财经大学 2018
[4]整合视角下在线评论感知有用性形成机理:信息—顾客—产品的交互作用[D]. 赵晓虹.太原理工大学 2018
[5]第三方点评网站垃圾评论分类模型的构建[D]. 吴琪.天津师范大学 2018
[6]基于爬虫和LDA的新闻话题挖掘[D]. 曹牧原.河北大学 2018
[7]基于LDA的企业微博主题传播效果分析[D]. 赵燕.华南理工大学 2018
[8]基于LDA的微博灾害信息聚合[D]. 李静.武汉大学 2018
[9]基于非均衡数据分类方法的虚假评论检测研究[D]. 周黎宇.合肥工业大学 2018
[10]基于Web质量模型特征模型的垃圾评论特征分析与检测[D]. 刘雪甜.西南交通大学 2017
本文编号:3101964
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3101964.html