文本分类中文本表示模型与深度学习算法研究
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1
【图文】:
的文本归类到已知的类别中[27]。自动文本分类的具体定义如下:给定一组类别集合 { }1 2=c , c ,...,cCC ,一组文本集合 { }1 2= , ,...,DD d d d ,其中类集合中元素的数量用 C 表示,文本集合元素的数量用 D 表示。我们希望得到一个如2-1 所示的分类模型。该模型可以实现从文本集合 D 到类别集合 C 的映射, :D →C 。事实上,机器学习的本质就是利用已经标记好的文本训练集,通过训练类器最终得到一个性能最好的映射模型 。通常我们用文本id 表示分类模型 的入,用类别ic 表示分类模型 的输出。图 2-1 自动文本分类的映射模型自动文本分类技术涉及多项流程,其主要包括文本预处理、维度约减、文本表模型、文本分类器分类等[28],如图 2-2 所示。
而且能够使文本信息很方便地被计算机所处理。下面简要介绍几种常见的表示模型:向量空间模型(Vector Space Model,VSM)、布尔模型(Boolean Model,)和概率模型(Probabilistic Model,PM)。向量空间模型:20 世纪 70 年代,哈佛大学的 Wong 和 Salton 等人提出了向量空间。向量空间模型的主要思想就是把文本中的信息转化成为计算机能够处理的特征中的矢量。但是我们都知道,不同的特征在文本中的重要程度也不一样,所以,对特征词的重要性加以区分,我们在实际使用向量空间模型时一般会对特征词赋定的权重,特征词的重要程度越高该词的权重也就越大。在使用向量空间模型时,我们会构建一个向量空间,该向量空间可以将文本集合每个文本都表示为一组由特征词构建而成的 n 维向量。向量空间模型的构造过程 2-3 所示。其中kd 表示第k 个文本,jt表示第j个特征,kjw表示第k 个文本中特j的权重。t,t,…,t…t
图 2-4 最优分割超平面待分类的数据集存在线性可分和线性不可分两种设训练集中的样本ix 属于类别 { 1, 1}iy ∈ + 。我们b的线性判别函数,使得样本数据尽可能被正确划),通常称该分类面为分离超平面。w x + b=0-20)表示的超平面有无数多个,上文我们已经提最优的超平面。实际上,最优超平面由支持向量离最近的样本点。因此,在实际使用支持向量机得到最优超平面,从而得到了最优的分类器。最。21min2 w
【参考文献】
相关期刊论文 前10条
1 熊富林;邓怡豪;唐晓晟;;Word2vec的核心架构及其应用[J];南京师范大学学报(工程技术版);2015年01期
2 冀俊忠;吴金源;吴晨生;杜芳华;;基于类别加权和方差统计的特征选择方法[J];北京工业大学学报;2014年10期
3 王光;邱云飞;史庆伟;;集合CHI与IG的特征选择方法[J];计算机应用研究;2012年07期
4 李明涛;罗军勇;尹美娟;路林;;结合词义的文本特征词权重计算方法[J];计算机应用;2012年05期
5 王祖辉;姜维;;引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J];计算机工程与应用;2012年16期
6 张保富;施化吉;马素琴;;基于TFIDF文本特征加权方法的改进研究[J];计算机应用与软件;2011年02期
7 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
8 张文良;黄亚楼;倪维健;;一种基于聚类的文本特征选择方法[J];计算机应用;2007年01期
9 张庆国,张宏伟,张君玉;一种基于k最近邻的快速文本分类方法[J];中国科学院研究生院学报;2005年05期
10 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
相关博士学位论文 前1条
1 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
相关硕士学位论文 前10条
1 王振;基于机器学习的文本分类研究与实现[D];南京邮电大学;2018年
2 张闯;基于深度学习的知乎标题的多标签文本分类[D];北京交通大学;2018年
3 张伦干;多项式朴素贝叶斯文本分类算法改进研究[D];中国地质大学;2018年
4 韩众和;基于卷积神经网络的短文本分类研究[D];中国矿业大学;2018年
5 文永;社交媒体短文本分类方法研究[D];电子科技大学;2018年
6 李林;基于word2vec和卷积神经网络的文本分类研究[D];西南大学;2018年
7 杨开平;基于语义相似度的中文文本聚类算法研究[D];电子科技大学;2018年
8 袁松岭;基于深度学习的多场景短文本分类的研究与应用[D];电子科技大学;2018年
9 施瑞朗;中文文本分类中特征选择算法的研究与改进[D];杭州电子科技大学;2018年
10 徐蔚;基于深度学习的中文新闻文本分类的研究[D];中南民族大学;2018年
本文编号:2777621
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2777621.html