基于文本挖掘的笔记本电脑网评分析
发布时间:2021-01-17 15:59
随着互联网的迅速发展、电子商务的快速崛起,网络购物已成为一种趋势。大数据时代的到来,促使着数据呈现爆炸式增长。在这海量的数据中包含着许多有价值的潜在信息,仅仅依靠人工阅读来获取是非常困难的事情。在这种情况下,文本挖掘技术应运而生。文本挖掘主要包括文本情感倾向分析、文本特征挖掘、主观内容识别等,其中情感倾向分析就是对文本数据中用户的主观态度进行判断,常用的方法是情感词典和机器学习。国外在文本挖掘研究领域,已经取得了一些成果,而国内在这一领域的研究起步晚还处于初级阶段。近年来,电子商务的发展,推动了文本挖掘领域相关技术的研究。本文主要使用朴素贝叶斯方法和LDA主题模型,对笔记本电脑评论数据进行挖掘分析。首先使用Spyder软件从京东商城官网爬取联想330C和戴尔灵越14两种电脑品牌的评论数据作为分析对象;其次,对评论进行数据清洗和预处理;然后,对处理后的数据空间向量表示形成文档词条矩阵,并用TF-IDF进行特征提取达到降维目的;接着,利用朴素贝叶斯方法构造分类器对评论数据进行文本分类,划分为好评集和差评集;最后,使用LDA模型分别对好评集和差评集进行主题的提取,进一步分析用户认同商品的哪些...
【文章来源】:兰州财经大学甘肃省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
网络爬虫结构
题中再以一定概率去选择某些词语”,文档和单词均是到的。每个词语在文档中出现的概率表示为:(词 语文档)P(词语主题)P(主题文档)主题 过程定义如下:对于每篇文档,从主题分布中抽取一个题对应的单词分布中再抽取一个单词;上述过程不断重复单词。有两个任务,给定现有文档集合D,确定超参数 , 文档,可以依据前面的超参数来确定隐藏变量 ,z 分归到前面中,因为前面能够顺带把隐变量分布求解出来
爬取数量 文本去重 短句删除 合计联想 330C 59435 47093 346 11996戴尔灵越 14 69220 59655 333 92323.2.2.文本分词及去停用词数据清洗工作完成后,接下来对评论语料进行预处理,主要有中文分词、去停用词等过程。这一过程是利用 Spyder 软件调用“jieba”分词包实现,部分分词结果如 3.1 所示:
【参考文献】:
期刊论文
[1]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[2]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[3]使用机器学习方法进行新闻的情感自动分类[J]. 徐军,丁宇新,王晓龙. 中文信息学报. 2007(06)
[4]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
[5]汉语句子语义极性分析和观点抽取方法的研究[J]. 娄德成,姚天昉. 计算机应用. 2006(11)
[6]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
博士论文
[1]文本分类中若干问题研究[D]. 刘赫.吉林大学 2009
[2]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
[3]数据挖掘技术与分类算法研究[D]. 刘刚.中国人民解放军信息工程大学 2004
硕士论文
[1]基于朴素贝叶斯的中文文本分类及Python实现[D]. 张航.山东师范大学 2018
[2]文本挖掘在网购用户评论中的应用研究[D]. 陈义.浙江工商大学 2018
[3]基于LDA主题樽型的电商客户评论情感分析[D]. 郭锐.北京化工大学 2017
[4]酒店评论的情感分析[D]. 刘丹.云南财经大学 2017
[5]基于文本挖掘的电商用户评论分析与系统实现[D]. 易剑波.东南大学 2017
[6]基于SVM的文本情感分类研究及应用[D]. 陈志珍.大连海事大学 2017
[7]商品评价信息的中文情感分析[D]. 周红伟.浙江工商大学 2015
[8]基于朴素贝叶斯的高血压文本分类的研究[D]. 曹杰.太原理工大学 2015
[9]基于LDA模型的微博情感分析技术研究[D]. 毛龙龙.西北师范大学 2015
[10]中文文本分类中的特征选择和权重计算方法研究[D]. 宋惟然.北京工业大学 2013
本文编号:2983173
【文章来源】:兰州财经大学甘肃省
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
网络爬虫结构
题中再以一定概率去选择某些词语”,文档和单词均是到的。每个词语在文档中出现的概率表示为:(词 语文档)P(词语主题)P(主题文档)主题 过程定义如下:对于每篇文档,从主题分布中抽取一个题对应的单词分布中再抽取一个单词;上述过程不断重复单词。有两个任务,给定现有文档集合D,确定超参数 , 文档,可以依据前面的超参数来确定隐藏变量 ,z 分归到前面中,因为前面能够顺带把隐变量分布求解出来
爬取数量 文本去重 短句删除 合计联想 330C 59435 47093 346 11996戴尔灵越 14 69220 59655 333 92323.2.2.文本分词及去停用词数据清洗工作完成后,接下来对评论语料进行预处理,主要有中文分词、去停用词等过程。这一过程是利用 Spyder 软件调用“jieba”分词包实现,部分分词结果如 3.1 所示:
【参考文献】:
期刊论文
[1]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[2]文本情感分析[J]. 赵妍妍,秦兵,刘挺. 软件学报. 2010(08)
[3]使用机器学习方法进行新闻的情感自动分类[J]. 徐军,丁宇新,王晓龙. 中文信息学报. 2007(06)
[4]基于语义理解的文本倾向性识别机制[J]. 徐琳宏,林鸿飞,杨志豪. 中文信息学报. 2007(01)
[5]汉语句子语义极性分析和观点抽取方法的研究[J]. 娄德成,姚天昉. 计算机应用. 2006(11)
[6]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
博士论文
[1]文本分类中若干问题研究[D]. 刘赫.吉林大学 2009
[2]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
[3]数据挖掘技术与分类算法研究[D]. 刘刚.中国人民解放军信息工程大学 2004
硕士论文
[1]基于朴素贝叶斯的中文文本分类及Python实现[D]. 张航.山东师范大学 2018
[2]文本挖掘在网购用户评论中的应用研究[D]. 陈义.浙江工商大学 2018
[3]基于LDA主题樽型的电商客户评论情感分析[D]. 郭锐.北京化工大学 2017
[4]酒店评论的情感分析[D]. 刘丹.云南财经大学 2017
[5]基于文本挖掘的电商用户评论分析与系统实现[D]. 易剑波.东南大学 2017
[6]基于SVM的文本情感分类研究及应用[D]. 陈志珍.大连海事大学 2017
[7]商品评价信息的中文情感分析[D]. 周红伟.浙江工商大学 2015
[8]基于朴素贝叶斯的高血压文本分类的研究[D]. 曹杰.太原理工大学 2015
[9]基于LDA模型的微博情感分析技术研究[D]. 毛龙龙.西北师范大学 2015
[10]中文文本分类中的特征选择和权重计算方法研究[D]. 宋惟然.北京工业大学 2013
本文编号:2983173
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2983173.html