基于SVM的文本信息过滤算法研究
本文关键词:基于SVM的文本信息过滤算法研究
更多相关文章: 信息过滤 英文文本 特征提取 支持向量机 机器学习
【摘要】:当今社会,信息资源非常丰富,已成为行业竞争的焦点,谁掌握了信息资源谁就掌握了未来。随着互联网、信息技术的迅速发展,数据存贮技术越来越高,因此计算机能够读取的文本信息也就逐渐增多。相对于一些特定的用户来说,他们需要的信息通常只是这些信息中特别少的一部分。随着特定用户和规模庞大的信息资源对特定文本信息的需求逐渐增多,信息用户急需一套大规模文本信息处理软件。但是,要想从规模庞大的信息资源中获得用户所需的文本信息,对文本信息处理的精确度、准确性的要求较高。文本信息过滤算法主要研究的是怎样把用户的需求准确地表达出来,然后用户在规模庞大的信息资源中自动获取所需的有用信息。目前,英语在国际交流上是一种最常用的通用语言,而且对于国际化企业来说,有价值的信息资料一般都是用英文存档的,因此,对英文文本信息过滤进行研究具实用价值和现实意义。文本信息过滤是通过计算机对文本信息进行自动过滤的过程,是在文本信息内容的基础上对文本信息进行自动分类、过滤的一种核心技术。由于文本信息过滤问题具有信息特征间的相关性大、文本向量稀维数高、稀疏性大等特点,支持向量机(SVM)适用于文本信息过滤问题,在文本信息过滤中的应用潜力非常大。在文本信息过滤过程中,怎样降低特征向量空间的高维性,实现文本信息过滤算法的高效性,是急需解决的一个首要问题。因此,本文从特征值提取算法选取、信息过滤算法改进,算法参数优化等方面分别做了相应的研究,具体包括以下几个方面工作:1、分析传统特征提取方法的特点,在分析原有CHI特征选择和信息增益特征选择优缺点的基础上,提出了一种维数自适应结合的特征选择方法。通过实验对比传统的CHI特征选择、信息增益和维数自适应结合方法,维数自适应结合方法使得训练数据的交叉验证准确率以及训练验证准确率得到显著提高。2、针对SVM在训练过程中存在不平衡样本以及无用样本的缺点,并且在文本过滤中存在一些判别困难区域,本文采取了融合K-Means算法进行改进,通过K-Means算法选取合适的SVM训练子集,进而优化训练样本;通过确定正例样本聚类中心集区域,在进行SVM文本信息过滤时,对于判别困难的数据可以再次进行聚类决策,提高SVM算法在信息过滤中的精度。3、在SVM算法实际应用中,惩罚因子、核函数及其核参数这三个参数对分类精度影响较大。本文采用了一种可变步长迭代选取算法,以交叉验证准确率最佳为目的,通过粗选、精选两个过程,从而快速的确定最优参数。实验证明,改进的SVM算法,在文本信息过滤过程中,查准率、查全率以及F值等评测指标有显著的提高。4、在算法研究基础上,本文采用C#语言调用C++组件进行了算法系统化实现,并对该算法做了实际运行测试。实验证明,基于SVM的文本信息过滤算法的过滤性能较好。
【关键词】:信息过滤 英文文本 特征提取 支持向量机 机器学习
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-6
- Abstract6-13
- 第1章 绪论13-18
- 1.1 研究背景及意义13-14
- 1.1.1 研究背景13-14
- 1.1.2 研究意义14
- 1.2 文本信息过滤的研究现状14-16
- 1.2.1 国外研究现状14-15
- 1.2.2 国内研究现状15-16
- 1.3 研究内容16-17
- 1.4 本文的组织结构17-18
- 第2章 文本信息过滤相关理论18-29
- 2.1 文本信息过滤概述18-23
- 2.1.1 文本信息过滤的概念及特点18-19
- 2.1.2 信息过滤的分类方法19-20
- 2.1.3 信息过滤模型20-22
- 2.1.4 文本分类与信息过滤22-23
- 2.2 英文文本信息过滤的特点23
- 2.3 机器学习23-25
- 2.3.1 机器学习的定义及目的23-24
- 2.3.2 机器学习的分类24-25
- 2.4 文本信息过滤相关算法25-28
- 2.4.1 类中心向量算法25-26
- 2.4.2 K-邻近算法26
- 2.4.3 朴素贝叶斯算法26-27
- 2.4.4 决策树算法27
- 2.4.5 神经网络算法27-28
- 2.4.6 支持向量机算法28
- 2.5 本章小结28-29
- 第3章 文本信息预处理及特征提取算法29-39
- 3.1 文本信息预处理29-30
- 3.1.1 分词处理29
- 3.1.2 停用词处理29
- 3.1.3 词根还原29-30
- 3.2 特征提取算法30-32
- 3.2.1 文档频率30-31
- 3.2.2 互信息31
- 3.2.3 信息增益31-32
- 3.2.4 CHI统计32
- 3.3 特征提取算法的改进32-34
- 3.3.1 信息增益的优缺点33
- 3.3.2 CHI统计的优缺点33
- 3.3.3 特征提取算法的改进33-34
- 3.4 权重计算34-35
- 3.5 实验结果及分析35-38
- 3.5.1 实验环境35
- 3.5.2 实验数据集35
- 3.5.3 实验结果分析35-38
- 3.6 本章小结38-39
- 第4章 SVM文本信息过滤算法改进39-51
- 4.1 SVM理论基础39-41
- 4.1.1 SVM算法的基本原理39-40
- 4.1.2 SVM算法的特点40-41
- 4.2 SVM算法改进41-47
- 4.2.1 K-Means算法简介41-42
- 4.2.2 融合K-Means的SVM算法改进42-44
- 4.2.3 SVM参数优化44-46
- 4.2.4 改进后的算法46-47
- 4.3 实验结果与分析47-50
- 4.3.1 评价标准47-48
- 4.3.2 实验结果与分析48-50
- 4.4 本章小结50-51
- 第5章 文本信息过滤算法系统化实现51-60
- 5.1 算法实现工具51-54
- 5.1.1.NET平台51-52
- 5.1.2 Libsvm组件52-54
- 5.2 算法实现过程54-56
- 5.2.1 算法流程54
- 5.2.2 数据预处理54-55
- 5.2.3 特征提取55-56
- 5.2.4 训练过程56
- 5.2.5 过滤过程56
- 5.3 运行测试56-59
- 5.3.1 样本要求56
- 5.3.2 操作界面56-58
- 5.3.3 运行测试分析58-59
- 5.4 本章小结59-60
- 第6章 结论与展望60-62
- 6.1 结论60-61
- 6.2 展望61-62
- 参考文献62-67
- 作者简介及在学期间科研成果67-68
- 致谢68
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:976739
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/976739.html