当前位置:主页 > 硕博论文 > 经管硕士论文 >

基于文本聚类的用户评论热点挖掘——以笔记本电脑评论为例

发布时间:2023-08-18 18:32
  在大数据时代的背景下,文本数据每天呈现爆发式增长趋势,对于构建一套能够高效地提取文本价值信息的方法体系这一需求突显出来。本文试图将文本挖掘技术应用于笔记本电脑销售领域,通过对用户关于笔记本电脑评论信息的挖掘,以便发现用户在选购不同品牌的笔记本电脑时的主要关注热点。本文的研究主要分为三大部分来进行,第一部分是获取数据与数据预处理,第二部分是基于核心算法的实证分析,第三部分是对本文研究的总结与展望。在数据获取与数据预处理部分中,首先探讨与介绍了目前比较常用的网络爬虫技术,主要包括通用网络爬虫、主题网络爬虫以及增量式网络爬虫等。通过采用Python爬虫技术将京东商城中与笔记本电脑相关的评论爬取下来,依次完成文本数据清洗、文本分词、去停用词、高频词统计、文本空间向量表示等一系列文本预处理相关工作,这为后续模型实证分析工作做了充足的准备。在文本数据的实证分析部分中,首先对用户评论进行了描述性统计分析,在此基础上,通过构建LDA主题模型对华为与苹果两大笔记本电脑品牌的用户评论进行了主题提取。LDA主题提取结果表明,对于华为用户评论,抽取出的五大主题分别为硬件配置、物流、客服、外观颜值以及笔记本电脑...

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    第一节 研究背景及意义
        一、研究背景
        二、研究意义
    第二节 国内外研究现状
        一、用户评论挖掘的研究现状
        二、LDA主题模型的研究现状
        三、高斯混合模型的研究现状
    第三节 研究思路与框架
        一、研究目标与思路
        二、研究内容与框架
    第四节 研究创新与不足
        一、研究的创新
        二、研究的不足
第二章 数据获取与预处理技术
    第一节 数据的获取
        一、网络爬虫的基础技术
        二、常见的网络爬虫技术
    第二节 数据的预处理
        一、文本预处理概念
        二、文本预处理步骤
第三章 相关聚类算法的介绍
    第一节 聚类算法介绍
        一、基于划分的聚类算法
        二、基于层次的聚类算法
        三、基于密度的聚类算法
        四、基于模型的聚类算法
    第二节 LDA主题模型介绍
    第三节 聚类模型的评估
第四章 描述性统计分析
    第一节 数据获取与清洗
    第二节 基于总体评论的描述分析
    第三节 基于词云图的特征分析
        一、基于品牌类型的总评分析
        二、基于品牌类型的差评分析
第五章 基于LDA与 GMM模型的实证分析
    第一节 基于LDA模型的主题提取
        一、华为用户评论分析
        二、苹果用户评论分析
        三、主题模型的评价
    第二节 基于GMM模型的聚类分析
        一、华为用户评论分析
        二、苹果用户评论分析
        三、聚类模型的评价
总结与展望
参考文献
附录
致谢



本文编号:3842724

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jjglss/3842724.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0cb0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com