基于支持向量机的文本分类研究
发布时间:2017-04-20 09:21
本文关键词:基于支持向量机的文本分类研究,由笔耕文化传播整理发布。
【摘要】: Internet作为一个开放的信息空间,近年来得到了飞速发展,已经成为人们进行信息交互和处理的有效平台。但随着Internet上信息量的爆炸式增长,人们很难从大量的信息中迅速有效地获得所需的信息。为了快速地帮助用户找到所需的信息,有效地利用这些信息,就需要对信息进行分类组织管理。文本信息在网络信息资源中占有很大分量,因此文本自动分类技术的研究就显得尤为重要。 统计学习理论是一种专门研究小样本情况下机器学习规律的理论。支持向量机是建立在统计学习理论基础之上的机器学习方法,它克服了神经网络分类和传统统计分类方法的许多缺点,具有较高的泛化性能。 本文以自动文本分类的过程为主线,在深入研究了文本表示、特征提取和重构以及分类算法的基础上,提出了一种基于最小二乘支持向量机和潜在语义分析的网页分类算法。首先研究了网页文本的特征提取算法。与文本数据不同,网页数据是一种半结构化的数据,在网页表示中,对任一特征而言,有两个因素影响特征的权值:一是词在HTML文档中出现的词频,另一个是该词在该文档中出现的位置。在研究了文本特征提取算法的基础上,根据网页特征的特殊性,对网页文本特征提取和加权算法进行了改进。潜在语义分析通过奇异值分解获得原始词——文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义的问题,最小二乘支持向量机在大数据集上学习效率比较高,特别是在获得有标签样本成本较高的情况下。本文采用了一种新颖的网页特征权重计算方法,并利用摘要算法消除网页噪音,在保证了网页分类的准确性不变的情况下,提高了分类器的学习效率。 最后,通过从网络采集的中文语料库,共12684篇中文文档,其中9000篇用来训练,3684篇用于测试,对算法进行了验证,取得了较好的分类效果,这充分证明算法是有效的。
【关键词】:文本分类 支持向量机 特征选择 特征重构 直推式学习
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
- 目录5-7
- 摘要7-8
- ABSTRACT8-10
- 插图索引10-11
- 附表索引11-12
- 第一章 绪论12-20
- 1.1 研究背景12
- 1.2 研究意义12
- 1.3 研究现状12-17
- 1.3.1 文本分类研究进展总体分析13
- 1.3.2 文本表示、特征提取和降维技术的研究进展13-14
- 1.3.3 文本分类算法分析14-17
- 1.3.4 分类器性能评价17
- 1.4 存在的问题17-18
- 1.5 研究的内容18
- 1.6 论文的组织18-20
- 第二章 支持向量机理论20-32
- 2.1 机器学习20-22
- 2.1.1 机器学习的概念20-21
- 2.1.2 机器学习的模型和目标21
- 2.1.3 经验风险最小化21-22
- 2.2 统计学习理论22-26
- 2.2.1 学习过程一致性条件22-24
- 2.2.2 VC维24
- 2.2.3 推广性的界24-25
- 2.2.4 结构风险最小化25-26
- 2.3 支持向量机26-30
- 2.3.1 最大分类间隔26-27
- 2.3.2 线性可分支持向量机27-29
- 2.3.3 非线性支持向量机29-30
- 2.3.4 不可分情况的处理30
- 2.4 本章小结30-32
- 第三章 文本表示及特征选择32-41
- 3.1 文本表示32-35
- 3.1.1 向量空间模型32-33
- 3.1.2 文本预处理33-34
- 3.1.3 表示空间降维34
- 3.1.4 权重计算34-35
- 3.2 特征选择35-38
- 3.2.1 基于文档频率DF的特征选择36
- 3.2.2 基于互信息MI的特征选择36
- 3.2.3 基于信息增益IG的特征选择36-37
- 3.2.4 基于CHI统计的特征选择37
- 3.2.5 基于期望交叉熵CE的特征选择37-38
- 3.3 特征重构38-40
- 3.3.1 潜在语义分析38-39
- 3.3.2 词汇聚类方法39-40
- 3.4 本章小结40-41
- 第四章 分类模型构建41-46
- 4.1 核函数41-42
- 4.1.1 核的存在性41
- 4.1.2 核的种类及特性41-42
- 4.1.3 核函数的选择42
- 4.2 支持向量机模型的建立42-45
- 4.2.1 惩罚系数C42-43
- 4.2.2 训练算法43-45
- 4.2.3 支持向量机学习算法45
- 4.2.4 支持向量机多分类器算法45
- 4.3 本章小结45-46
- 第五章 基于LS-SVM和LSA的网页分类研究46-56
- 5.1 引言46
- 5.2 相关工作46-49
- 5.2.1 网页特征的表述46-47
- 5.2.2 最小二乘支持向量机47-48
- 5.2.3 潜在语义分析48-49
- 5.3 网页分类器的构造49-51
- 5.3.1 网页噪音消除49
- 5.3.2 文本预处理49
- 5.3.3 特征提取49
- 5.3.4 权重计算49-50
- 5.3.5 利用LSA降维50
- 5.3.6 分类器训练50-51
- 5.4 实验51-55
- 5.4.1 实验环境51
- 5.4.2 数据集51
- 5.4.3 实验设计51
- 5.4.4 实验评价51-55
- 5.5 本章小结55-56
- 第六章 总结与展望56-57
- 6.1 结论56
- 6.2 未来的展望56-57
- 参考文献57-61
- 致谢61-62
- 附录 已发表论文情况62
【引证文献】
中国硕士学位论文全文数据库 前2条
1 肖敏;基于列表级的相关文本排序学习算法研究[D];哈尔滨工业大学;2010年
2 陈澎;基于热点话题自动发现的网站搜索引擎优化[D];复旦大学;2012年
本文关键词:基于支持向量机的文本分类研究,由笔耕文化传播整理发布。
,本文编号:318388
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/318388.html