当前位置:主页 > 经济论文 > 国际贸易论文 >

基于集成学习的短文本聚类

发布时间:2020-03-29 07:18
【摘要】:随着互联网的飞速发展,网络购物越来越受广大群众的青睐,成为人们日常购物的主流方式。与此同时,网购平台上产生了海量关于商品的评论文本数据。而商品评论中包含着大量潜在的商品信息和顾客满意度信息,企业可以从中挖掘出实际用户所关注的产品的主要特征,发现不同类型用户的重要特征,然后根据不同用户提供不同优惠政策,改进产品的设计,提高核心竞争力,以及追求更高的利润。因此如何有效对评论文本进行信息挖掘对于企业来说至关重要。由于评论文本没有已知的标签,且篇幅较短,使用传统的文本挖掘方法,即对短文本采用单一的聚类分析方法,得到的聚类结果往往不尽人意。在数据挖掘的分类问题中,集成学习可以通过多个单一分类器的组合来提升分类器的性能。因此,本文将以联想公司的一款笔记本电脑的评论文本为例,将集成学习的思想应用到聚类分析中,来增强短文本聚类的效果。本文首先使用Python软件从天猫商城上爬取联想电脑官方旗舰店的一款笔记本电脑的用户评价文本,共3840条,然后对评论文本进行无效值删除、中文分词、停用词过滤以及文本数值化表示,这一系列的数据预处理过程。鉴于短文本的高维性会带来维度灾难问题,本文后续对数据进行了特征提取,以及利用对比分析法选取合适的特征降维算法对评论文本进行特征降维处理。然后基于集成学习的思想,对由K均值聚类、合成聚类和BIRCH这三种聚类算法得到的3个聚类器进行集成,构建最终的聚类分析模型,最终将1765名发表有效评论的联想笔记本用户划分为两类,第0类用户更注重笔记本电脑的外观参数,为外观型用户;而第1类用户更加注重笔记本电脑的性能与配置,为性能型用户;这两类用户均重视商品的服务质量。接着对两类用户的评论文本及用户数比重进行可视化展示,挖掘与分析出更多关于两类用户的特征。最后结合文本聚类结果,从联想企业的产品营销策略与产品更新设计这两个角度提出了相应的建议与策略。
【图文】:

新潮,笔记本


科 技 大 学 硕 士 学 位 5 联想评论文本的集成聚类分析本的采集是网购产品评论用户的聚类分析,在进行数据即确定网购平台与产品。目前互联网上的网购宁易购等;且平台上的产品种类也繁多,,若研与可行性来看,不太实际。因此考虑到数据的的是天猫商城与该商城内联想官方旗舰店的,如下图所示。

评论文,笔记本电脑,数据,网络爬虫


华 中 科 技 大 学 硕 士 学 位 论 文新款笔记本电脑产品的特征,挖掘使用该产品的不同类型用户的重要特进产品或制定营销优惠策略。据爬取何获取天猫商城上该款联想笔记本电脑的所有用户评论?本文使用 Py结合 requests 库,采用网络爬虫的方法,从天猫商城上爬取了小新 700联想笔记本电脑的用户评论数,截止到 2019 年 2 月 20 日,该商城平台上论数共计 3840 条。下图为爬取的部分评论文本。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F724.6;F274

【相似文献】

相关期刊论文 前10条

1 熊康平;;机器学习方法在文本聚类中的应用[J];电子世界;2018年22期

2 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期

3 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

4 张毓;陈军清;;基于深度特征语义学习模型的垃圾短信文本聚类研究[J];现代计算机(专业版);2018年07期

5 毕强;刘健;鲍玉来;;基于语义相似度的文本聚类研究[J];现代图书情报技术;2016年12期

6 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期

7 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期

8 杨彩莲;谢福鼎;;基于主题概念聚类的中文文本聚类[J];现代电子技术;2007年22期

9 李泉;李萌;成洪权;蒋林秀;肖舒婷;王iu可;;基于文本聚类与情感分析的群租房微博舆情量化研究[J];图书情报研究;2019年01期

10 徐秀芳;徐森;花小朋;徐静;皋军;安晶;;一种基于t-分布随机近邻嵌入的文本聚类方法[J];南京大学学报(自然科学);2019年02期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年

3 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

5 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

7 林灵;张百霞;李彦文;王耘;李志勇;;基于文本挖掘与计算机辅助药物设计的中药候选新药发现方法[A];第十二次全国中西医结合实验医学专业委员会暨第七次湖南省中西医结合神经科专业委员会学术年会论文集[C];2015年

8 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年

9 任海平;李伟忠;姚诚伟;;基于深度学习的智能写稿辅助服务设计[A];中国新闻技术工作者联合会2017年学术年会论文集(学术论文篇)[C];2017年

10 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

相关重要报纸文章 前1条

1 周晓慷;大数据时代,别当数据的“搬运工”[N];人民邮电;2018年

相关博士学位论文 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

4 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

5 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

6 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年

7 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

8 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年

9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

10 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年

相关硕士学位论文 前10条

1 王涛;新浪微博用户评论情感分析及聚类研究[D];黑龙江大学;2019年

2 张国锋;在文章聚类中话题热度排序的研究与实现[D];东华大学;2019年

3 王小静;基于集成学习的短文本聚类[D];华中科技大学;2019年

4 刘宇鹏;新闻实时话题分析系统的研究与实现[D];辽宁大学;2019年

5 徐露;基于GloVe的文本聚类研究与改进[D];华南理工大学;2019年

6 唐镇;基于语义对偶模型的双语文本聚类研究[D];电子科技大学;2019年

7 房孟春;基于在线评论的民宿服务质量评价体系研究[D];海南大学;2019年

8 卜秋瑾;基于密度峰值的聚类算法研究及其在文本聚类中的应用[D];南昌大学;2019年

9 崔壮壮;基于Word Embedding的短文本聚类算法研究及应用[D];哈尔滨工业大学;2019年

10 许振豪;基于词嵌入的流形主题模型的文本聚类研究[D];广东工业大学;2019年



本文编号:2605653

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2605653.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0f938***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com