基于特征选择及LDA模型的中文文本分类研究与实现
本文关键词:基于特征选择及LDA模型的中文文本分类研究与实现
更多相关文章: 文本分类 特征选择 LDA模型 互信息 信息增益
【摘要】:当前,科学技术突飞猛进,信息化进程不断加快,互联网日益普及,人们也因此有了越多越多的传播、获取、共享信息的渠道。但是,与此同时,人们也面临着巨大的挑战------“信息爆炸”。因此,人们急需找到一种方法,通过这种方法正确、方便地从海量信息中筛选真正对自己有用的信息。在这种情况下,文本分类应运而生。作为数据分析的一种重要形式,文本分类可对信息进行高效地管理,如今已被广泛应用于搜索引擎、数字图书馆、电子政务、邮件过滤等多个领域。 作为文本处理的有效手段,文本分类包含了预处理、特征选择、文本表示、分类器选择、分类器训练、分类器测试以及分类效果的评估等步骤。简单来说,文本分类的作用是为文本预测类别标号。在文本分类的整个体系中,每一个环节都直接影响到最终的分类效果。预处理的作用是初步降维以减少冗余,这是为后面使用分类器所做的准备之一;特征选择能够去除噪声特征,同时也是文本降维的核心;文本表示能够将非格式化的文本转换为格式化的数据形式,以便计算机能高效地对其识别、处理;分类器担任判别类别标号的角色,通过训练使分类器学习到某个分类函数,这个分类函数能够将文本映射到某个类别,之后,使用训练得到的分类器对测试集进行预测,以检验分类器在新数据上的分类效果;分类效果评估则能够对整个分类体系作出全面、客观地评价。 本文选取特征选择、文本表示作为研究重点,针对传统特征选择方法存在的不足,进行多方面的改进,并提出将特征选择方法和LDA模型相结合以弥补单独使用LDA存在的缺陷,从而进一步提高分类效果。 首先,针对传统互信息特征选择方法忽视词频因素而存在的若干问题,本文提出了相对词频率、分散度以及绝对值最大因子。通过这三者改进传统互信息方法,以弥补其不足。 其次,针对传统信息增益特征选择方法应用于不平衡数据集时,分类效果显著下降的情况,本文提出“最大词频率比”因子,得到一种改进的信息增益方法,其在平衡、倾斜数据集上均能获得较好的效果。 最后,针对单独使用LDA主题模型所存在的分类精度不高的问题,本文提出将特征选择方法与此主题模型相结合进而进行文本分类的方法。作为主题模型,LDA不仅能够得到文本的主题概率表示,还能起到和特征选择方法类似的降维效果。但是单独使用LDA,分类精度并不高。因此,对于LDA,本文重点将其作为一种文本表示方法,在此之前,使用特征选择方法对文本进行处理,从而进一步提高分类效果。 以上即为本文的主要研究工作。实验结果表明:本文所提出的改进的互信息特征选择方法、改进的信息增益特征选择方法能够弥补传统方法存在的不足。而且,与单独使用LDA相比,将改进的特征选择方法与LDA相结合能够得到更好的文本分类效果。
【关键词】:文本分类 特征选择 LDA模型 互信息 信息增益
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要3-5
- Abstract5-7
- 目录7-10
- 第一章 绪论10-17
- 1.1 课题研究背景及意义10-12
- 1.2 文本分类研究现状12-14
- 1.2.1 国外研究现状12-13
- 1.2.2 国内研究现状13-14
- 1.3 论文的主要研究内容14-15
- 1.4 论文的组织15-17
- 第二章 中文文本分类技术综述17-46
- 2.1 文本分类流程概述17-18
- 2.2 预处理18-20
- 2.3 特征选择20-24
- 2.3.1 词频20-21
- 2.3.2 信息21-22
- 2.3.3 信息增益22-23
- 2.3.4 CHI统计量23-24
- 2.3.5 期望交叉熵24
- 2.3.6 文本证据权24
- 2.4 文本表示24-34
- 2.4.1 向量空间模型25-26
- 2.4.2 概率模型26-27
- 2.4.3 主题模型27-34
- 2.4.3.1 PLSA27-31
- 2.4.3.1.1 LSI27-29
- 2.4.3.1.2 pLSA29-31
- 2.4.3.2 LDA31-34
- 2.4.3.2.1 LDA模型的训练33
- 2.4.3.2.2 LDA模型的推断33-34
- 2.5 常用文本分类算法34-45
- 2.5.1 朴素贝叶斯分类34-36
- 2.5.2 Rocchio36
- 2.5.3 kNN36-37
- 2.5.4 决策树37-38
- 2.5.5 支持向量机38-45
- 2.5.5.1 统计学习理论38-40
- 2.5.5.2 SVM基本思想40-44
- 2.5.5.3 支持向量机多分类问题44-45
- 2.6 本章小结45-46
- 第三章 改进的特征选择方法与LDA结合46-53
- 3.1 互信息特征选择方法46-50
- 3.1.1 传统互信息特征选择方法的不足46-47
- 3.1.2 传统互信息特征选择方法的改进47-50
- 3.2 信息增益特征选择方法50-51
- 3.2.1 传统信息增益特征选择方法的不足50-51
- 3.2.2 传统信息增益特征选择方法的改进51
- 3.3 改进的特征选择方法与LDA模型结合51-52
- 3.4 本章小结52-53
- 第四章 实验与结果分析53-73
- 4.1 基于特征选择及LDA的中文文本分类流程53
- 4.2 软硬件环境53-54
- 4.3 实验语料库和结果评估指标54-55
- 4.3.1 实验语料库54
- 4.3.2 实验结果评估指标54-55
- 4.4 文本预处理55-57
- 4.5 特征选择57-60
- 4.5.1 改进的特征选择核心代码57-59
- 4.5.2 特征词典大小的确定59-60
- 4.6 LDA建模60-64
- 4.6.1 LDA相关变量的初始化60-62
- 4.6.2 LDA模型62-64
- 4.7 SVM文本分类和结果分析64-72
- 4.7.1 输入处理及参数寻优64-66
- 4.7.2 实验结果及分析66-72
- 4.7.2.1 平衡语料集上实验结果及分析66-69
- 4.7.2.2 不平衡数据集上实验结果与分析69-72
- 4.8 本章小结72-73
- 第五章 总结与展望73-75
- 5.1 工作总结73-74
- 5.2 展望74-75
- 参考文献75-80
- 致谢80
【相似文献】
中国期刊全文数据库 前10条
1 刘斌,曾立波,刘生浩;血液细胞图像自动识别系统的研究[J];计算机工程;2003年01期
2 任江涛;孙婧昊;黄焕宇;印鉴;;一种基于信息增益及遗传算法的特征选择算法[J];计算机科学;2006年10期
3 张惠春;;基于最大熵模型的中文名词短语识别[J];电脑知识与技术;2009年08期
4 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
5 孙雷,王新;一种基于遗传操作和类内类间距离判据理论的特征选择方法[J];计算机工程与应用;2004年21期
6 张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期
7 闫相国,明利强;分支定界算法在白细胞特征选择中的应用研究[J];天津职业技术师范学院学报;2004年03期
8 张莉,孙钢,郭军;基于K-均值聚类的无监督的特征选择方法[J];计算机应用研究;2005年03期
9 张维东;朱宏明;周闻钧;;特征选择算法在故障检测中的应用研究[J];无线电通信技术;2006年03期
10 徐峻岭;徐宝文;张卫丰;崔自峰;;一种启发式聚类特征选择方法(英文)[J];东南大学学报(英文版);2006年02期
中国重要会议论文全文数据库 前10条
1 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
10 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 天相投顾 闻群邋王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
3 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
4 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
5 海通证券 娄静邋吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
6 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
7 华泰证券 吴t,
本文编号:773026
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/773026.html