基于Word Embedding的短文本聚类算法研究及应用
发布时间:2022-08-02 19:46
随着移动互联网的高速发展,搜索引擎、博客、微信等应用使得人们的生活和工作变得更加简单、高效,这些应用平台每天都会产生海量的短文本数据,因此如何从这些数据中挖掘出有价值的信息具有很高的研究意义。短文本聚类可以有效地对海量数据进行处理,旨在通过聚类分析挖掘出短文本间的内在联系。此外,短文本聚类还为信息检索、用户画像、个性化推荐等研究领域提供了技术基础。由于短文本具有词少低频、特征稀疏和表述随意等特点,传统的文本聚类算法在短文本上的表现效果较差。本文通过研究发现Word Embedding具有特征稠密、简单易用的特点,将Word Embedding这一技术应用到短文本聚类中,将对聚类效果带来很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚类。采用Word Embedding进行文本表示可以很好的获取文本的语义特征,但是短文本中包含的词语数量极少,每个词语对文本表示的影响都至关重要,直接以句子中所有词语的平均向量来表示文本,常常受那些“异常词”的影响,效果并不十分理想。针对这一问题...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 本文组织架构
1.5 本章小结
第2章 相关技术
2.1 文本聚类概述
2.2 文本预处理
2.2.1 清洗数据
2.2.2 中文分词技术
2.2.3 去停用词
2.3 文本表示模型
2.3.1 向量空间模型
2.3.2 LDA主题模型
2.3.3 Doc2Vec
2.4 聚类算法
2.4.1 K-Means++聚类算法
2.4.2 DBSCAN聚类算法
2.5 本章小结
第3章 基于Word Embedding和EWMA的短文本聚类
3.1 Word Embedding
3.1.1 基于Hierarchical Softmax的CBOW模型
3.1.2 基于Negative Sampling的Skip-gram模型
3.2 EWMA简介
3.3 基于Word Embedding和EWMA的短文本聚类
3.4 实验与结果分析
3.4.1 数据集介绍
3.4.2 训练词向量
3.4.3 聚类效果评测
3.5 本章小结
第4章 基于Word Embedding和改进的WMD距离的短文本聚类
4.1 常用的距离度量方法
4.2 WMD介绍及其改进
4.3 基于Word Embedding和SSWMD距离的短文本聚类
4.4 实验与结果分析
4.4.1 数据集介绍
4.4.2 聚类效果评测
4.5 本章小结
第5章 基于聚类的短文本特征挖掘的应用
5.1 背景介绍
5.2 问题引出
5.3 特征工程
5.3.1 用户特征
5.3.2 博文时间特征
5.3.3 博文的文本特征
5.4 实验与结果分析
5.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
个人简历
【参考文献】:
期刊论文
[1]结合语义和结构的短文本相似度计算[J]. 倪高伟,李涛,刘峥. 计算机技术与发展. 2018(08)
[2]文本分类中信息增益特征选择算法的改进[J]. 郭颂,马飞. 计算机应用与软件. 2013(08)
[3]中文数据清洗研究综述[J]. 叶鸥,张璟,李军怀. 计算机工程与应用. 2012(14)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于语义的文本聚类算法研究[D]. 马琼琼.北京交通大学 2017
[3]基于Word Embedding的短文本特征扩展方法研究[D]. 孟欣.吉林大学 2017
[4]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[5]基于主题模型的话题聚类算法的研究[D]. 张丹.北京邮电大学 2017
[6]基于密度峰值的一种文本聚类优化算法的研究与实现[D]. 兰旭.国防科学技术大学 2016
[7]基于词向量的短文本聚类研究与应用[D]. 黄栋.大连理工大学 2017
[8]基于词嵌入文本聚类技术的研究与实现[D]. 朱德超.东华大学 2016
[9]一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究[D]. 王子慕.吉林大学 2015
[10]短文本聚类及聚类结果描述方法研究[D]. 邵洪雨.大连理工大学 2014
本文编号:3669133
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 本文组织架构
1.5 本章小结
第2章 相关技术
2.1 文本聚类概述
2.2 文本预处理
2.2.1 清洗数据
2.2.2 中文分词技术
2.2.3 去停用词
2.3 文本表示模型
2.3.1 向量空间模型
2.3.2 LDA主题模型
2.3.3 Doc2Vec
2.4 聚类算法
2.4.1 K-Means++聚类算法
2.4.2 DBSCAN聚类算法
2.5 本章小结
第3章 基于Word Embedding和EWMA的短文本聚类
3.1 Word Embedding
3.1.1 基于Hierarchical Softmax的CBOW模型
3.1.2 基于Negative Sampling的Skip-gram模型
3.2 EWMA简介
3.3 基于Word Embedding和EWMA的短文本聚类
3.4 实验与结果分析
3.4.1 数据集介绍
3.4.2 训练词向量
3.4.3 聚类效果评测
3.5 本章小结
第4章 基于Word Embedding和改进的WMD距离的短文本聚类
4.1 常用的距离度量方法
4.2 WMD介绍及其改进
4.3 基于Word Embedding和SSWMD距离的短文本聚类
4.4 实验与结果分析
4.4.1 数据集介绍
4.4.2 聚类效果评测
4.5 本章小结
第5章 基于聚类的短文本特征挖掘的应用
5.1 背景介绍
5.2 问题引出
5.3 特征工程
5.3.1 用户特征
5.3.2 博文时间特征
5.3.3 博文的文本特征
5.4 实验与结果分析
5.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
个人简历
【参考文献】:
期刊论文
[1]结合语义和结构的短文本相似度计算[J]. 倪高伟,李涛,刘峥. 计算机技术与发展. 2018(08)
[2]文本分类中信息增益特征选择算法的改进[J]. 郭颂,马飞. 计算机应用与软件. 2013(08)
[3]中文数据清洗研究综述[J]. 叶鸥,张璟,李军怀. 计算机工程与应用. 2012(14)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于语义的文本聚类算法研究[D]. 马琼琼.北京交通大学 2017
[3]基于Word Embedding的短文本特征扩展方法研究[D]. 孟欣.吉林大学 2017
[4]基于word2vec词向量的文本分类研究[D]. 朱磊.西南大学 2017
[5]基于主题模型的话题聚类算法的研究[D]. 张丹.北京邮电大学 2017
[6]基于密度峰值的一种文本聚类优化算法的研究与实现[D]. 兰旭.国防科学技术大学 2016
[7]基于词向量的短文本聚类研究与应用[D]. 黄栋.大连理工大学 2017
[8]基于词嵌入文本聚类技术的研究与实现[D]. 朱德超.东华大学 2016
[9]一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究[D]. 王子慕.吉林大学 2015
[10]短文本聚类及聚类结果描述方法研究[D]. 邵洪雨.大连理工大学 2014
本文编号:3669133
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3669133.html