当前位置:主页 > 科技论文 > 软件论文 >

基于语义簇的中文文本聚类算法研究

发布时间:2021-08-06 11:38
  在文本信息处理中,文本信息检索、文本聚类等方法的核心问题是对文本的语义表达。文本聚类是文本信息处理的主要方法,可以帮助人们发现数据中的统计规律。其中中文文本聚类分析是文本聚类分析中的重要组成部分。在中文文本聚类分析时,由于语义、语法、语境等因素的影响,使得文本向量对文本语义的表达不准确。而目前常使用的向量空间模型,在表征文本中的词时,所表征出的词向量是独立的,会忽视词之间以及文档之间的语义相关性,从而使文本聚类的准确率得不到保障。而应用Word2vec文本表示方法时,虽然考虑到上下文的语义关系,但由于其在不同文档中表征的文本向量不同,给文本聚类带来局限性,聚类效果不佳。针对上述问题,本文提出一种新的基于语义簇的文本向量构建方法,通过对所提取特征词的搭配向量进行层次聚类,利用向量的共性原理和语义相关性,获取语义簇。再对文本向量进行空间变换,计算搭配向量与所属语义簇中心的相似度,求得文档特征词的语义信息,并嵌入到文档特征词向量中,利用空间变换后构建的文本向量进行文本聚类。与传统的文本表示方法和Word2vec文本表示方法进行对比实验,测试结果表明本文方法能够有效地提高特征词向量对文本语义的... 

【文章来源】:辽宁工程技术大学辽宁省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于语义簇的中文文本聚类算法研究


停用词过滤流程图

原理图,原理图,方法,特征词


辽宁工程技术大学硕士学位论文10图2.2Word2vec方法原理图Figure2.2Word2vecmethodschematic使用Word2vec训练数据,采用CBOW(ContinuousBag-of-WordsModel)或者Skip-gram(ContinuousSkip-gramModel)模型,这两个模型可基于HierarchicalSoftmax模型实现,这两种模型都包含三层:输入层、投影层和输出层,CBOW模型如图2.3所示,Skip-gram模型如图2.4所示。CBOW模型[38]是在已知某个特征词tw的上下文t2w、t1w、t1w、t2w的前提下,预测特征词tw;而后者恰恰相反,是在已知当前词tw的前提下,预测其上下文t2w、t1w、t1w、t2w,如图2.3所示。V表示特征词词典的大小,C是上下文窗口的大校12,,...,kkckxxx表示预测特征词上下文的向量,对于每个输入的向量,经过矩阵VNW的变换后对应到隐含层的分量上。隐含层是一个N维的向量h,输出层是预测特征词y的one-hot编码向量。CBOW模型的公式如下:11(|,...,,,...,)ttktttkPWWWWW(2.2)在预测过程中,从Huffman的根节点出发到某个叶子节点的路径上,通过二分类方法来决定路径左分支还是右分支。其左分支是1()1TTXXe(2.3)

模型图,模型,分支,概率


辽宁工程技术大学硕士学位论文11右分支是1()TX。其中,代表当前非叶节点的词向量。对于Huffman中的任意一条路径wp,存在有lw1次分支,把每次分支看成一个二分类,每次分类对应在树的分支上一个概率,那么最后预测特征词的概率就是将这些概率连乘,即12(|())(|,)wlwwjwjjpwContextwpdX(2.4)其中111()0(|,)1()1TwwwjjjwjTwjjXdpdXXd(2.5)图2.3CBOW模型Figure2.3CBOWmodel

【参考文献】:
期刊论文
[1]基于word2vec与K-means算法食品安全事件自动聚类研究[J]. 沈思,梁晓静.  信息通信. 2018(11)
[2]SVD优化初始簇中心的K-means中文文本聚类算法[J]. 戴月明,王明慧,张明,王艳.  系统仿真学报. 2018(10)
[3]基于改进k-means算法的文本聚类[J]. 蒋丽,薛善良.  计算机与现代化. 2018(04)
[4]基于Word2vector的文本特征化表示方法[J]. 周顺先,蒋励,林霜巧,龚德良,王鲁达.  重庆邮电大学学报(自然科学版). 2018(02)
[5]最小化误差平方和k-means初始聚类中心优化方法[J]. 周本金,陶以政,纪斌,谢永辉.  计算机工程与应用. 2018(15)
[6]融合集群度与距离均衡优化的K-均值聚类算法[J]. 王日宏,崔兴梅.  计算机应用. 2018(01)
[7]基于核心词项平均划分相似度的短文本聚类算法[J]. 马慧芳,朱志强,成玉丹,贾俊杰.  计算机工程与科学. 2017(08)
[8]基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J]. 李武,赵娇燕,严太山.  控制与决策. 2017(04)
[9]基于FCA和Word2vec的异构资源本体构建研究[J]. 韦炼,李端明,刘超超,王亚慧,王萝娜.  情报科学. 2017(03)
[10]基于改进TF-IDF算法的文本分类方法研究[J]. 贺科达,朱铮涛,程昱.  广东工业大学学报. 2016(05)

硕士论文
[1]基于Word2Vec的中文短文本聚类算法研究与应用[D]. 马存.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于语义的文本相似度计算方法的研究[D]. 李瑞楠.北京工业大学 2018
[3]K-means算法的改进及其在文本聚类中的应用研究[D]. 李敏.江南大学 2018
[4]基于语义的文本聚类算法研究[D]. 马琼琼.北京交通大学 2017
[5]社区问答服务中的问题分类方法研究[D]. 张栋.苏州大学 2017
[6]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
[7]文本聚类中特征选择方法研究[D]. 华珍.湖北工业大学 2016
[8]基于文本聚类的特征选择算法研究[D]. 樊东辉.西北师范大学 2012
[9]基于概念的文本分类算法研究[D]. 李运龙.华南理工大学 2010
[10]基于免疫网络的文本聚类算法及其应用[D]. 周洋.西安邮电学院 2009



本文编号:3325706

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3325706.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b887***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com