当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的自动文本分类方法研究

发布时间:2021-07-23 13:34
  中文文本文档的分类一直被认为是NLP和ML领域中的重要研究主题。数据库中原有数据会不断积累,中文文档的数量每天都在急剧增加。而现有中文文本分类技术大多缺乏比较全面的特征选取方法,或者说算法中的分类指标过于片面。因此,对此类中文文档分类算法进行方法改进是提高中文文本分类技术实用性和有效性的一种解决办法。本文以文本分类为依托,重点研究文本分类系统中的关键环节。具体从特征降维以及分类器算法环节等方面入手展开了研究:首先在特征降维环节中,根据卡方(CHI)统计算法中存在词项的出现频率与类别互相关问题以及互信息(MI)算法存在没有考虑到词项在文本中的出现频率,使得倾向于选择一些低频特征词的问题,通过同时引入了词项的词频因子与调节因子分别提出改进,形成了一种理论效果优于卡方统计和互信息的新算法即CHMI算法;目前TF-IDF权值计算方法常用于特征降维环节并对文本内容进行特征词选取。针对TF-IDF算法在计算中忽略了特征词的类间分布关系这一缺陷,本文提出了采用卡方统计进行算法结合并形成一种TF-CHI特征选取算法;XGBoost作为一种机器学习算法可用于解决多分类问题,使用XGBoost算法也可以得... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于机器学习的自动文本分类方法研究


图2-2支持向量机分类示意图

结构图,神经网络,结构图


电子科技大学硕士学位论文22常是一个三层的层状网络,分别由输入层、隐含层和输出层构成(如图2-3所示)。图2-3神经网络结构图神经网络算法类似于一个“黑盒”,它所执行的策略是通过给神经网络分类器进行训练数据集的饲喂,然后通过不断调整中间层的权重的设定值,直到输出结果呈现为我们想要的样子,就结束分类模型的训练阶段。在进入数据分类阶段时,需要利用分类器在面对处理不同特征的文本数据集时,应该选择使用恰当的输入层和输出层,最后成功完成数据分类工作。随着机器学习技术的不断进化,深度学习技术开始进入研究视野。卷积神经网络(ConvolutionalNeuralNetworks,简称CNN)[64]最早是由1969年Hubel和Wiesel在论文中首先提出。CNN是一类深度学习,之后被经常用于图像分类工作。CNN已成为计算机视觉,自然语言处理和模式识别领域最成功的基础之一。CNN算法的基本结构更复杂,数据处理更丰富,其结构如图示:图2-4卷积神经网络结构图2.6本章小结本章首先对文本分类做了简单综述,接下来按照文本分类的处理顺序,分别对文本数据预处理、文本表示以及重点的特征降维、分类算法环节进行主要研究,分

结构图,卷积,神经网络,结构图


电子科技大学硕士学位论文22常是一个三层的层状网络,分别由输入层、隐含层和输出层构成(如图2-3所示)。图2-3神经网络结构图神经网络算法类似于一个“黑盒”,它所执行的策略是通过给神经网络分类器进行训练数据集的饲喂,然后通过不断调整中间层的权重的设定值,直到输出结果呈现为我们想要的样子,就结束分类模型的训练阶段。在进入数据分类阶段时,需要利用分类器在面对处理不同特征的文本数据集时,应该选择使用恰当的输入层和输出层,最后成功完成数据分类工作。随着机器学习技术的不断进化,深度学习技术开始进入研究视野。卷积神经网络(ConvolutionalNeuralNetworks,简称CNN)[64]最早是由1969年Hubel和Wiesel在论文中首先提出。CNN是一类深度学习,之后被经常用于图像分类工作。CNN已成为计算机视觉,自然语言处理和模式识别领域最成功的基础之一。CNN算法的基本结构更复杂,数据处理更丰富,其结构如图示:图2-4卷积神经网络结构图2.6本章小结本章首先对文本分类做了简单综述,接下来按照文本分类的处理顺序,分别对文本数据预处理、文本表示以及重点的特征降维、分类算法环节进行主要研究,分

【参考文献】:
期刊论文
[1]Complex Network Classification with Convolutional Neural Network[J]. Ruyue Xin,Jiang Zhang,Yitong Shao.  Tsinghua Science and Technology. 2020(04)
[2]基于fastText模型的词向量表示改进算法[J]. 阴爱英,吴运兵,郑一江,余小燕.  福州大学学报(自然科学版). 2019(03)
[3]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽.  成组技术与生产现代化. 2018(03)
[4]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[5]一种类内方差与相关度结合的特征选择算法[J]. 张晓光,孙正,徐桂云,阮殿旭.  哈尔滨工业大学学报. 2011(03)
[6]基于WordNet概念向量空间模型的文本分类[J]. 张剑,李春平.  计算机工程与应用. 2006(04)
[7]基于领域知识的文本分类[J]. 朱靖波,陈文亮.  东北大学学报. 2005(08)
[8]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发.  计算机研究与发展. 2005(01)
[9]超文本协调分类器的性能研究[J]. 范焱,陈恩红,王清毅,蔡庆生,刘洁.  计算机研究与发展. 2000(09)
[10]概念推理网及其在文本分类中的应用[J]. 李晓黎,刘继敏,史忠植.  计算机研究与发展. 2000(09)

博士论文
[1]相关向量机多分类算法的研究与应用[D]. 柳长源.哈尔滨工程大学 2013

硕士论文
[1]网络新闻媒体的宣传影响效果分析与研究[D]. 李毛毛.中国地质大学(北京) 2019
[2]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
[3]文本分类中基于词频再排序的特征选择方法研究[D]. 贺鸣.南京大学 2016
[4]文本分类中特征选择算法研究[D]. 陈雨杰.哈尔滨工业大学 2015
[5]支持向量机核函数的研究[D]. 刘琰.西安电子科技大学 2012
[6]中文自动分词关键技术研究与实现[D]. 史伟.电子科技大学 2008
[7]基于科技文献的中文文本分类算法研究[D]. 王俊英.燕山大学 2007



本文编号:3299388

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3299388.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06bf9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com