文本向量化方法对文本分类效果影响的改进研究
发布时间:2020-12-31 23:17
作为文本挖掘的一个重要研究方向,文本分类技术在自然语言处理领域当中占有至关重要的地位。随着互联网的迅猛发展,人们在日常生活当中接收到的信息量也呈现爆炸式的增长,与此同时,如何管理指数级增长的数据,使人们获取目标信息更加快捷便利,已经成为学术研究领域的重点问题。将文本转化成结构化的数据并建立模型是文本分类的必要环节,目前应用较广的文本建模方法包括向量空间模型以及主题模型,两者都能有效的表达文本,但也存在着各自的弊端,向量空间模型存在着维度相对较大,文本向量稀疏性较高以及难以区分同义词,多义词等问题。相较于向量空间模型,主题模型能够对文本实现降维,并发现文本的潜藏语义,同时,也伴随着训练样本多,训练耗时等问题影响分类效率。本文在仔细研究了文本向量化相关技术后,做了如下工作:(1)运用网络爬虫技术爬取了汽车、财经、房产、军事、科技、社会五类一万余条新闻语料以及海量外部语料训练得到的模型用于实验。(2)在爬取的语料上实验了基准的文本向量化方法并运用多个分类器进行分类,得出基准的分类准确率以及召回率。(3)结合了主题模型与向量空间模型各自的优点,改进文本向量化方法,得到textrank加权词向量...
【文章来源】:首都经济贸易大学北京市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
文本分类流程
介绍基准文本向量化的方法、阐述基准文本向量化方法的不足之文本向量化方法并简要介绍其中说所涉及到的算法。本向量化算法介绍本向量化方法是将文本预处理后,利用 word2vec 算法,将每一的向量,然后对该文本所包含的所有词项的词向量求平均得到。本向量化方法是用 tfidf 算法,因为本文不是主要改进这个算法首先简要介绍 word2vec 算法。ec 算法c 是由 Mikolov 构建的,于 2013 年谷歌开源的一款词向量训练工即输入层、隐藏层和输出层。word2vec 有两种重要的训练模型,,另外一个叫 Skip-gram 模型,关于这两个模型, CBow 模型的
基于以上思想,首先通过 LDA 训练得到新闻的主题向量,主题向量题信息也就是文本的潜在信息,再训练得到词向量,通过加权求和得句子的语义信息,最后利用特征拼接的思想,组合成一个更长的向量组合。通过特征向量组合的方式拼接而成的维度为 506 维的向量,既包含了,又包含了文本潜在的信息。特征拼接之后,可能有造成特征维度高等问题,随后,文本会采用上文提到的过滤式特征选择方法,将冗余与分类类别高度相关的特征,提高模型准确率。A 主题模型 PLSA 的缺陷,2003 年 David、M.Blei 等人提除了 LDA 模型(Latenn)。LDA 的基本思想是:每一篇文本都对应着一个主题向量,那么文矩阵的形式来表示,由此,可以建立一个文档层面的概率模型,并且文本中词汇的分布,可以看出, LDA 是完全的生成概率模型。LDA9]如下:
本文编号:2950485
【文章来源】:首都经济贸易大学北京市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
文本分类流程
介绍基准文本向量化的方法、阐述基准文本向量化方法的不足之文本向量化方法并简要介绍其中说所涉及到的算法。本向量化算法介绍本向量化方法是将文本预处理后,利用 word2vec 算法,将每一的向量,然后对该文本所包含的所有词项的词向量求平均得到。本向量化方法是用 tfidf 算法,因为本文不是主要改进这个算法首先简要介绍 word2vec 算法。ec 算法c 是由 Mikolov 构建的,于 2013 年谷歌开源的一款词向量训练工即输入层、隐藏层和输出层。word2vec 有两种重要的训练模型,,另外一个叫 Skip-gram 模型,关于这两个模型, CBow 模型的
基于以上思想,首先通过 LDA 训练得到新闻的主题向量,主题向量题信息也就是文本的潜在信息,再训练得到词向量,通过加权求和得句子的语义信息,最后利用特征拼接的思想,组合成一个更长的向量组合。通过特征向量组合的方式拼接而成的维度为 506 维的向量,既包含了,又包含了文本潜在的信息。特征拼接之后,可能有造成特征维度高等问题,随后,文本会采用上文提到的过滤式特征选择方法,将冗余与分类类别高度相关的特征,提高模型准确率。A 主题模型 PLSA 的缺陷,2003 年 David、M.Blei 等人提除了 LDA 模型(Latenn)。LDA 的基本思想是:每一篇文本都对应着一个主题向量,那么文矩阵的形式来表示,由此,可以建立一个文档层面的概率模型,并且文本中词汇的分布,可以看出, LDA 是完全的生成概率模型。LDA9]如下:
本文编号:2950485
本文链接:https://www.wllwen.com/guanlilunwen/glzh/2950485.html