特征选取和SVM算法研究及在股市行业资讯中的应用
本文关键词:特征选取和SVM算法研究及在股市行业资讯中的应用
【摘要】:在信息化时代的今天,随着存储容量的翻倍增长和网络通讯速度的不断提高,海量文本信息的传输和保存已变得异乎平常。很显然的是传统的信息获取技术早已跟不上时代的步伐,如何在信息高速膨胀的文本数据库中及时地检索到我们想要的文本信息问题显得日益突出。文本挖掘也正是为解决这一需求而在近些年得到了迅猛的发展。文本挖掘涉及文本聚类、文本分类、信息提取等多个方面,其中文本分类是当前数据挖掘研究领域的热点内容之一。目前,文本分类技术已被成功应用到多个领域,如邮件服务器使用的垃圾邮件过滤技术、网页搜索引擎公司采用的检索技术等等。 文本分类就是按照一定的分类规则对未知类别的文本进行类别的划分,这里的分类规则指的是区分文本类别的特征信息。为了实现文本的自动分类,故需将文本分类规则数字化成分类器,也就是由分类器来决定待分文本的类别。文本分类是有监督的机器学习,也就是在训练分类器之前样本的类别是已知的。 通常情况下,文本分类包含的步骤有:文本信息的预处理、文本特征项的选取、文本分类器的生成、文本分类性能测试、分类效果评价等。其中文本特征项的选取和文本分类器的生成是本文的重要研究内容,不同的特征选取方式和选择不同的分类算法将对分类的性能产生较大的影响。 本文首先介绍了文本分类研究的背景和意义、国内外研究现状。与国外相比,国内文本分类的研究起步较晚,但随着网络技术取得了突破性的发展,文本分类技术逐渐受到国内各级、各类计算机研究机构的重视,并研究出了一系列符合中文文本分类的技术。 接着对文本分类的相关技术作了概要的描述,包括文本的预处理、特征项的选取和文本分类算法。针对使用TF*IDF计算特征词的权重时存在的不足,提出了改进的TF*IDF权重计算方法,同时为了有效地降低文本训练的时间和空间复杂度,而又尽量地减少因降低向量维数对分类精度的影响,本文引入了特征相关度的概念,并使用特征相关系数来衡量特征项之间的关联程度。当特征项之间的特征相关系数大于约定的阈值时,采用一级特征项取代二级特征项来降低特征项集中同义或近义的冗余特征项。 然后对SVM算法如何解决多类分类问题进行了研究,其中二叉树分类方法应用最为广泛,但不同的二叉树结构会产生不同的分类结果。目前在生成二叉树结构时,通常依据样本的分布情况或样本类别间的距离来确定样本在树中节点的位置。本文提出了改进的方法,即在生成多类分类二叉树时,综合考虑了样本的分布情况和样本类别间的距离,通过实验分析比较改进的算法的推广性能较好。 最后本文设计了一个文本分类应用在股市行业资讯上的自动分类系统,在特征提取模块中采用本文改进的TF*IDF权重计算方法和文本特征项降维方法;在分类模块中采用本文改进的基于二叉树的SVM多类分类方法。之后,总结了本文所做的工作,同时对本文研究过程中未能深入探讨的相关问题,提出了需进一步研究的方向。
【关键词】:文本分类 支持向量机 二叉树 词频 特征项
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP181
【目录】:
- 摘要3-5
- Abstract5-7
- 目录7-10
- 第一章 绪论10-15
- 1.1 论文研究背景及意义10-11
- 1.2 文本分类国内外研究现状11-13
- 1.2.1 国外研究现状11
- 1.2.2 国内研究现状11-13
- 1.3 论文的主要研究内容13-14
- 1.4 论文的组织结构14-15
- 第二章 文本分类相关技术概述15-26
- 2.1 文本预处理16-18
- 2.1.1 文本分词16-17
- 2.1.2 去除文本停用词17-18
- 2.2 文本表示18-19
- 2.3 特征选取19-21
- 2.3.1 词频*逆文档频率(TF~*IDF)19-20
- 2.3.2 互信息(MI)20
- 2.3.3 信息增益(IG)20-21
- 2.3.4 期望交叉熵(ECE)21
- 2.4 文本分类算法21-25
- 2.4.1 朴素贝叶斯算法22
- 2.4.2 K近邻算法22-23
- 2.4.3 支持向量机算法23-25
- 2.5 本章小结25-26
- 第三章 TF~*IDF方法计算特征项权重的改进和特征项的降维26-34
- 3.1 改进的词频和逆文档频率26-29
- 3.1.1 词对于类别之间的区分能力27-28
- 3.1.2 词对于类别内部的区分能力28-29
- 3.1.3 改进的TF~*IDF公式29
- 3.2 文本特征项的降维29-33
- 3.3 本章小结33-34
- 第四章 支持向量机在多类别问题中的应用34-40
- 4.1 SVM多类分类方法34-38
- 4.1.1 一对多分类方法34-35
- 4.1.2 一对一分类方法35
- 4.1.3 二叉树分类方法35-37
- 4.1.4 有向无环图分类方法37
- 4.1.5 改进的二叉树分类方法37-38
- 4.2 实验分析38-39
- 4.3 本章小结39-40
- 第五章 文本分类应用与结果分析40-48
- 5.1 文本分类应用设计40-42
- 5.1.1 实验环境40
- 5.1.2 分类语料库40-41
- 5.1.3 分类应用总体流程41-42
- 5.2 分类应用流程模块42-45
- 5.2.1 预处理模块42-44
- 5.2.2 文本表示模块44
- 5.2.3 特征选取模块44
- 5.2.4 分类模块44-45
- 5.3 文本分类结果分析45-46
- 5.4 本章小结46-48
- 第六章 总结与展望48-50
- 6.1 工作总结48-49
- 6.2 研究展望49-50
- 参考文献50-54
- 附录A 图目录54-55
- Appendix A:Figure index55-56
- 致谢56-57
- 攻读硕士学位期间发表的论文57
【参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 叶磊;骆兴国;;支持向量机应用概述[J];电脑知识与技术;2010年34期
3 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
4 何伟;胡学钢;谢飞;;基于张量空间模型的中文文本分类[J];合肥工业大学学报(自然科学版);2010年12期
5 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 刘健;刘忠;熊鹰;;改进的二叉树支持向量机多类分类算法研究[J];计算机工程与应用;2010年33期
8 顾亚祥;丁世飞;;支持向量机研究进展[J];计算机科学;2011年02期
9 卢祖友;桑永胜;;基于球向量机的中文文本分类[J];计算机工程与科学;2008年12期
10 孟媛媛,刘希玉;一种新的基于二叉树的SVM多类分类方法[J];计算机应用;2005年11期
中国博士学位论文全文数据库 前3条
1 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
2 高鹏毅;BP神经网络分类器优化技术研究[D];华中科技大学;2012年
3 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
,本文编号:806394
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/806394.html