文本分类特征提取算法的研究
发布时间:2017-04-15 23:00
本文关键词:文本分类特征提取算法的研究,由笔耕文化传播整理发布。
【摘要】:文本分类是一种分析与使用海量文本数据信息的有效手段。其技术难点之一是处理特征向量空间的高维性,这种高维性使得文本分类变得十分低效,因此特征降维成为文本分类工作首先需要解决的问题。作为特征向量空间降维常用的技术,特征提取方法的性能高低直接影响到文本分类的效果。许多研究表明,信息增益是一种性能相对较好的特征提取方法。然而,信息增益算法在文本分类的问题上仍有其局限和优化空间,本文从以下三个方面对其进行了改进:(1)为了平衡每个特征词在信息增益公式中出现与否对信息增益评分的影响能力,借鉴sigmoid的函数思想,提出了基于词频的γ调节因子的信息增益改进算法。(2)为了体现特征词在各个类别分布均匀程度与区分能力的关联,确保在各个类别之间分布不均匀的特征词具有较强的区分能力,着眼于特征词在类别分布情况,对信息增益的评分结果进行进一步优化。(3)考虑到现实文本集中非均衡文本大量存在,倘若算法没有顾及各类别包含的文档数大小,则会使其优先选择趋向大类的特征词,而忽视小类的特征词。为此,本文借鉴了统计学中卡方检验的思想,针对非均衡文档类别评分排序优化的方法,使得在特征维度较小的情况下,仍能保持不错的性能。对比实验结果表明:本文的改进算法所得到的文本分类结果,在各个类别上的准确率、召回率以及F1值都取得较理想的性能提升,从而验证了本文所提出的信息增益改进算法的可行性与有效性。
【关键词】:文本分类 特征提取 信息增益 调节因子 卡方检验
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-11
- 1.1 研究背景及意义8-9
- 1.2 国内外研究现状9-10
- 1.3 本文的组织结构10-11
- 第2章 文本分类相关技术11-28
- 2.1 文本分类概述11-13
- 2.1.1 文本分类定义11
- 2.1.2 文本分类问题与其他分类问题的比较11-12
- 2.1.3 文本分类流程12-13
- 2.2 文本预处理13-15
- 2.2.1 去除格式标记13-14
- 2.2.2 中文分词14-15
- 2.2.3 去停用词15
- 2.3 文本表示模型15-17
- 2.3.1 布尔模型15-16
- 2.3.2 概率模型16
- 2.3.3 向量空间模型16-17
- 2.4 特征提取17-18
- 2.5 特征权重计算18-19
- 2.5.1 布尔权重18
- 2.5.2 词频权重18-19
- 2.5.3 逆文档频率权(InverseDocument Frequency , IDF)19
- 2.5.4 TF-IDF权重19
- 2.6 分类算法19-24
- 2.6.1 K-最近邻算法20
- 2.6.2 决策树算法20-21
- 2.6.3 朴素贝叶斯算法21-22
- 2.6.4 ROCCHIO算法22
- 2.6.5 支持向量机算法22-24
- 2.6.6 逻辑回归算法24
- 2.7 分类性能评估24-27
- 2.7.1 评估方法24-25
- 2.7.2 评估指标25-27
- 2.8 本章小结27-28
- 第3章 文本分类特征提取算法的分析及改进28-39
- 3.1 特征提取的意义28
- 3.2 特征提取的一般步骤28
- 3.3 传统的特征提取算法28-33
- 3.3.1 文档频率29
- 3.3.2 互信息29-30
- 3.3.3 统计30-31
- 3.3.4 信息增益31-33
- 3.4 信息增益算法的分析与改进33-38
- 3.4.1 信息增益算法分析33-35
- 3.4.2 基于词频的 Γ 调节因子的信息增益算法的改进35-36
- 3.4.3 基于特征词的类别分布情况优化增益评分36-37
- 3.4.4 针对非均衡文档集评分排序优化37-38
- 3.5 本章小结38-39
- 第4章 实验过程及结果分析39-51
- 4.1 实验环境39-41
- 4.1.1 语料库39-40
- 4.1.2 实验工具40-41
- 4.2 实验模块41
- 4.3 实验步骤41-47
- 4.3.1 去停用词41-43
- 4.3.2 数据结构表示43
- 4.3.3 特征提取43-44
- 4.3.4 权值分配44-46
- 4.3.5 分类算法选择46
- 4.3.6 性能评估方法选择46-47
- 4.4 实验结果分析47-50
- 4.4.1 相同特征维度不同类别之间的实验结果47-49
- 4.4.2 不同特征维度F1加权结果49-50
- 4.5 本章小结50-51
- 第5章 总结与展望51-53
- 5.1 总结51-52
- 5.2 展望52-53
- 参考文献53-56
- 致谢56
【相似文献】
中国期刊全文数据库 前10条
1 余成波;秦华锋;;手指静脉图像特征提取算法的研究[J];计算机工程与应用;2008年24期
2 周娇;李端明;曹泰峰;;导弹图像特征提取算法及系统架构[J];兵工自动化;2011年03期
3 毛建鑫;刘炜;侯秋华;孙红彬;;一种改进的水果特征提取算法[J];计算机工程与应用;2013年06期
4 张向群;张旭;;基于二维判别局部排列的特征提取算法[J];计算机工程;2013年08期
5 王化U,
本文编号:309432
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/309432.html