当前位置:主页 > 科技论文 > 自动化论文 >

基于支持向量机与神经网络的文本分类算法研究

发布时间:2021-06-13 15:43
  通信互联网的迅猛发展产生了海量的数据信息,短信、新闻等文本信息更是呈现爆炸式增长,如何让网民从海量的文本数据中快速获取对自己有意义的信息已成为当前研究的热点。本文的核心工作是利用传统的文本特征提取方法和支持向量机(Support Vector Machine,SVM)进行数据挖掘与分析;同时为了考虑文本的语义信息,减少人为因素的影响,利用神经网络自学习的特点进行文本分类。文本分类主要基于文本表示,传统文本表示通常采用信息增益(Information Gain,IG)、卡方统计和互信息等方法,它们假设词与词之间相互独立,忽略了特征词之间的冗余信息。对于基于SVM的文本分类器,由于SVM单核核函数存在无法完全匹配数据分布的问题,导致系统分类性能有所降低。此外,传统的机器学习算法大部分属于浅层模型,如果训练集数据量较大,文本信息较长,容易出现特征信息丢失等缺陷,并且基于传统统计方法的特征选择方法会增加噪声的影响,而深度学习在面对上述复杂问题时会更有优势。针对上述文本分类存在的问题,本文的主要创新点如下:1.鉴于传统的特征提取法未考虑特征词之间冗余性的问题,本文第二章提出了一种结合IG和改进的... 

【文章来源】:南京邮电大学江苏省

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

基于支持向量机与神经网络的文本分类算法研究


线性分类表示图

核函数,多项式,高斯核


图 3.4 多项式核函数图为 0.0jx 。从图 3.4 中可以看出多项式核函数不仅作用于样本附样本点也很有效。这种核函数称为全局核函数,具有较强的泛化提取全局信息,但其学习能力较弱。函数数也称为径向基核函数,是目前普遍运用的一种核函数,2 ), 0i j x x 。高斯核被广泛应用的原因:当对需要处理的数的参数往往会使得高斯核函数取得不错的效果。因此,采用高斯核能力,分类效果较好。

函数图像,高斯核,函数图像,核函数


图 3.4 多项式核函数图点为 0.0jx 。从图 3.4 中可以看出多项式核函数不仅作用于样本附离样本点也很有效。这种核函数称为全局核函数,具有较强的泛化中提取全局信息,但其学习能力较弱。函数数也称为径向基核函数,是目前普遍运用的一种核函数,其2( ), 0i j x x 。高斯核被广泛应用的原因:当对需要处理的数的参数往往会使得高斯核函数取得不错的效果。因此,采用高斯核函习能力,分类效果较好。

【参考文献】:
期刊论文
[1]云计算环境下分布式语义文本自适应分类方法[J]. 王刚,杨波,杨明杰.  科学技术与工程. 2018(07)
[2]基于改进TFIDF算法的邮件分类技术[J]. 陶峰,汤鲲,程光.  计算机技术与发展. 2018(08)
[3]基于双重注意力模型的微博情感分析方法[J]. 张仰森,郑佳,黄改娟,蒋玉茹.  清华大学学报(自然科学版). 2018(02)
[4]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏.  中文信息学报. 2017(05)
[5]基于改进TF-IDF特征提取的文本分类模型研究[J]. 周源,刘怀兰,杜朋朋,廖岭.  情报科学. 2017(05)
[6]基于改进TF-IDF的微博短文本特征词提取算法[J]. 邓丹君,姚莉.  软件导刊. 2016(06)
[7]一种基于类差分度的互信息特征选择方法[J]. 任军,葛卫丽,陈家勇.  中国科技论文. 2015(20)
[8]基于改进TF-IDF算法的情报关键词提取方法[J]. 张瑾.  情报杂志. 2014(04)
[9]结合邻域相关影像与最大相关性最小冗余性特征选择的面向对象变化检测[J]. 邹利东,潘耀忠,朱文泉,周公器,李宜展.  中国图象图形学报. 2014(01)
[10]基于改进最大相关最小冗余判据的暂态稳定评估特征选择[J]. 李扬,顾雪平.  中国电机工程学报. 2013(34)

硕士论文
[1]基于深度学习理论和SVM技术的文本分类研究与实现[D]. 刘国锋.江苏科技大学 2017
[2]基于优化的IG与RBF的SVM文本情感分类研究[D]. 马海亮.南昌大学 2016
[3]基于混合核函数支持向量机的文本分类研究[D]. 李希鹏.中国海洋大学 2012



本文编号:3227817

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3227817.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64af4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com