基于GloVe的文本聚类研究与改进
发布时间:2021-11-27 02:07
随着信息技术的不断发展,电子网络信息的数量也在急剧的增加。如何快速、准确的从海量数据中挑选出所需要的信息,已经成为当前人们所面临的一个重大的挑战。文本聚类是解决这个问题的一种有效的方法。如何准确的对文本进行表示是文本聚类过程中一个重要的步骤。向量空间模型广泛的运用于文本表示中,然而,由于传统的向量空间模型使用特征词作为文本向量的维度,存在着维度过高、无法表示文本的语义信息等问题。因此,研究者们提出了通过词向量来构建文本向量的思想。经过对常见的词向量构建文本向量的方法进行分析,发现其均存在一些缺点,因此本文提出了一种基于杰卡德相似度系数的聚类加权的文本向量构建法(JSC-CW),该方法基于TF-IDF加权法及聚类法的思想,在利用词语对文本的影响力信息的同时,使得文本向量的各个维度具有可解释性,从而提高文本向量的准确性,并将其运用于文本聚类中。近几年,研究者们基于不同的原理提出了多种词向量模型。其中,基于Word2vec的词向量广泛的应用于自然语言处理中,但是其仅仅是通过单词局部上下文窗口内的词语对模型进行训练,而未用到整个语料库中的统计信息,而GloVe词向量模型在Word2vec的思想...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
文本聚类流程
图 2-2 神经整个模型的大多数计算都集中于输入Word2vec 的实现原理也是基于神经网络语言从而降低了计算的复杂度,大大提高了模型型:连续词袋模型(ContinuousBagofWordsgram)[1,48]。2.4.3.2 CBOW 模型CBOW 模型主要是利用词语的上下文(的时候,该模型如图 2-3 所示。模型主要分为三个层:(1) 输入层:输入单词 w(t)的前后各
文本向量构建流程图
【参考文献】:
期刊论文
[1]基于LDA改进的K-means算法在短文本聚类中的研究[J]. 冯靖,莫秀良,王春东. 天津理工大学学报. 2018(03)
[2]采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 姜霖,王东波. 现代图书情报技术. 2016(02)
[3]聚类算法综述[J]. 伍育红. 计算机科学. 2015(S1)
[4]使用LSA降维的改进ART2神经网络文本聚类[J]. 徐晨凯,高茂庭. 计算机工程与应用. 2014(24)
[5]基于近似Markov Blanket和动态互信息的特征选择算法[J]. 姚旭,王晓丹,张玉玺,权文. 计算机科学. 2012(08)
[6]基于加权相似性的BIRCH聚类算法[J]. 邹杰涛,赵方霞,汪海燕. 数学的实践与认识. 2011(16)
[7]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江. 计算机应用. 2009(S1)
[8]基于近邻传播算法的半监督聚类[J]. 肖宇,于剑. 软件学报. 2008(11)
[9]自适应仿射传播聚类[J]. 王开军,张军英,李丹,张新娜,郭涛. 自动化学报. 2007(12)
[10]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱. 计算机研究与发展. 2002(10)
硕士论文
[1]基于划分的聚类算法研究与应用[D]. 包颖.大连理工大学 2008
本文编号:3521380
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
文本聚类流程
图 2-2 神经整个模型的大多数计算都集中于输入Word2vec 的实现原理也是基于神经网络语言从而降低了计算的复杂度,大大提高了模型型:连续词袋模型(ContinuousBagofWordsgram)[1,48]。2.4.3.2 CBOW 模型CBOW 模型主要是利用词语的上下文(的时候,该模型如图 2-3 所示。模型主要分为三个层:(1) 输入层:输入单词 w(t)的前后各
文本向量构建流程图
【参考文献】:
期刊论文
[1]基于LDA改进的K-means算法在短文本聚类中的研究[J]. 冯靖,莫秀良,王春东. 天津理工大学学报. 2018(03)
[2]采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 姜霖,王东波. 现代图书情报技术. 2016(02)
[3]聚类算法综述[J]. 伍育红. 计算机科学. 2015(S1)
[4]使用LSA降维的改进ART2神经网络文本聚类[J]. 徐晨凯,高茂庭. 计算机工程与应用. 2014(24)
[5]基于近似Markov Blanket和动态互信息的特征选择算法[J]. 姚旭,王晓丹,张玉玺,权文. 计算机科学. 2012(08)
[6]基于加权相似性的BIRCH聚类算法[J]. 邹杰涛,赵方霞,汪海燕. 数学的实践与认识. 2011(16)
[7]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江. 计算机应用. 2009(S1)
[8]基于近邻传播算法的半监督聚类[J]. 肖宇,于剑. 软件学报. 2008(11)
[9]自适应仿射传播聚类[J]. 王开军,张军英,李丹,张新娜,郭涛. 自动化学报. 2007(12)
[10]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱. 计算机研究与发展. 2002(10)
硕士论文
[1]基于划分的聚类算法研究与应用[D]. 包颖.大连理工大学 2008
本文编号:3521380
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3521380.html
最近更新
教材专著