当前位置:主页 > 经济论文 > 经济发展论文 >

支持向量机分类方法及其在文本分类中的应用研究

发布时间:2020-08-21 03:37
【摘要】:支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。但是,同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下: 1、支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。分析了现有支持向量机多类分类方法的特点,并给出了一种半模糊核聚类算法,在此基础上,根据树型支持向量机的特性,提出了一种基于半模糊核聚类的树型支持向量机多类分类方法。该方法基于半模糊核聚类算法挖掘不同类别之间的衔接和离散信息,设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。 2、针对标准支持向量机对噪音敏感,分类时倾向于样本数目较多的类别的问题,给出一种模糊支持向量机的推广模型,并在此基础上,结合近似支持向量机的优势,提出了一种支持向量机组合分类方法。该方法首先采用近似支持向量机快速地去除非支持向量、减少训练样本数目、确定样本权值和模型参数,然后在样本数目较少的训练集上,依据选择好的模型参数和样本权值训练模糊支持向量机的推广模型。实验表明,该方法能有效确定样本权值,减少训练时间,并克服野值点和类别训练样本数目不均衡对分类器的不利影响。 3、通常情况下,支持向量的数目越多,支持向量机的分类速度越慢,如何缩减支持向量集合、提高支持向量机的分类速度是支持向量机的重要研究内容之一。在分析了现有支持向量集合缩减方法的基础上,提出了一种基于虚样本与支持向量回归的支持向量集合缩减方法。该方法是根据支持向量集合和支持向量回归方法的特性,对
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:F224

【引证文献】

相关期刊论文 前2条

1 林永民;朱卫东;;基尼指数在文本特征选择中的应用研究[J];计算机应用;2007年10期

2 孙超;张玉峰;;基于SVM的企业竞争情报自动分类系统模型[J];情报杂志;2007年03期

相关博士学位论文 前4条

1 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年

2 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年

3 李利;专利技术产业化的虚拟耦合平台研究[D];山东大学;2012年

4 段会川;高斯核函数支持向量分类机超级参数有效范围研究[D];山东师范大学;2012年

相关硕士学位论文 前9条

1 陈铭;高维聚类算法研究[D];南京师范大学;2011年

2 朱健康;基于支持向量机的音乐自动分类[D];天津大学;2010年

3 宋丽妍;基于双隶属度判定的模糊支持向量机方法研究[D];哈尔滨工业大学;2011年

4 王峻;面向真实语料的汉语动词次范畴化自动获取的研究[D];哈尔滨工业大学;2006年

5 胡学坤;改进支持向量机算法及其在图像分割中的应用[D];江苏科技大学;2010年

6 朱晓丽;薄板复合材料粘接缺陷超声检测的全加权增量支持向量机量化识别研究[D];内蒙古大学;2012年

7 张学谦;基于粒度计算的文本分类技术研究[D];河南工业大学;2011年

8 叶西切忠;基于web的藏文文本自动分类研究与实现[D];青海民族大学;2012年

9 刘加玲;质量安全系统中文本分类组件的设计与实现[D];华中科技大学;2012年



本文编号:2798868

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjifazhanlunwen/2798868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bab12***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com