当前位置:主页 > 科技论文 > 软件论文 >

文本分类算法的研究与实现

发布时间:2017-06-16 00:11

  本文关键词:文本分类算法的研究与实现,,由笔耕文化传播整理发布。


【摘要】:随着互联网技术的蓬勃发展及其普及应用,用户迈入了信息快速发展的时代。一方面,如此庞大的信息库满足了用户对各类信息的需求,而另一方面,信息库中内容过于繁杂,想要准确检索到所需信息已成为一个难题。为了解决此类由信息过载引起的问题,文本分类技术被提出,文本分类是依据已标记类别的信息,判别新信息的类别,能有效处理和组织互联网上的海量信息,它可以让用户更加方便快捷地获得所需信息。目前,虽然已有很多针对分类性能改进的方法,但随着信息库的快速膨胀,执行分类算法时,面临着如何快速准确找出具备代表性数据的问题,特征选择和特征加权对该问题有着最直接的影响,因此,本文主要围绕这两个过程进行深入研究,并提出相应的改进方法为:基于蚁群算法的特征选择,以及结合类别先验信息和特征项分布情况改进的加权方法。本文的主要工作可概括为:1.重点介绍了几种典型的特征选择方法和特征加权方法,分析了它们的优势与不足。2.针对文本分类中初始特征空间维数过高及特征冗余问题,结合蚁群算法和特征选择过程,采用了基于蚁群算法的特征选择方法。该方法基于对评估函数、状态转移规则和信息素更新规则的研究设计,并引入局部搜索机制,由此可有效排除大量的关联特征和冗余特征。3.针对传统的TF-IDF特征加权方法只是单纯的考虑到特征项的词频,而忽略了类别先验信息及特征项在整个训练集分布情况对分类结果的影响,本文分两步对传统TF-IDF加权方法进行改进:首先结合TF-IDF加权方法和TF-RF加权方法,提出TF-RFIDF特征加权方法;然后在TF-RFIDF加权方法的基础上,根据熵的概念,推出类内和类间信息分布熵的参数,由此提出一种有效的加权方法TF-RFIDFimp,进一步提高了特征项权重的准确性。实验表明,改进后算法的查准率、查全率及F测试值均比传统算法的值有所提高,从而进一步证实了改进算法提高了文本分类的性能。
【关键词】:蚁群算法 特征选择 TF-RF 信息分布熵 特征加权
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要3-4
  • Abstract4-9
  • 第一章 绪论9-13
  • 1.1 研究背景和意义9-10
  • 1.2 国内外研究现状10-11
  • 1.3 主要内容与论文结构11-13
  • 第二章 文本分类相关技术概述13-26
  • 2.1 文本分类基础理论13-15
  • 2.1.1 文本分类的定义13-14
  • 2.1.2 文本分类的过程14-15
  • 2.2 文本预处理15-16
  • 2.3 特征选择16-19
  • 2.3.1 文档频率16-17
  • 2.3.2 互信息17-18
  • 2.3.3 信息增益18
  • 2.3.4 χ~2统计量18-19
  • 2.4 特征加权19-20
  • 2.5 分类算法20-23
  • 2.5.1 朴素贝叶斯算法20-21
  • 2.5.2 KNN近邻算法21-22
  • 2.5.3 支持向量机算法22-23
  • 2.6 分类性能评估23-25
  • 2.7 本章小结25-26
  • 第三章 基于蚁群算法的特征选择26-39
  • 3.1 蚁群算法概述26-27
  • 3.2 构建蚁群算法的文本特征选择27-28
  • 3.3 基于蚁群算法的特征选择28-32
  • 3.3.1 评估函数28-29
  • 3.3.2 状态转移规则29-31
  • 3.3.3 信息素更新规则31
  • 3.3.4 局部搜索机制31-32
  • 3.4 算法描述32-35
  • 3.5 实验与实验结果分析35-38
  • 3.5.1 实验方法35
  • 3.5.2 实验结果35-38
  • 3.6 本章小结38-39
  • 第四章 结合特征项在类内和类间分布改进的TF-IDF方法39-53
  • 4.1 特征加权方法39-44
  • 4.1.1 布尔权重39-40
  • 4.1.2 词频权重40
  • 4.1.3 基于熵概念的权重40-41
  • 4.1.4 TF-RF41-42
  • 4.1.5 TF-IDF42-44
  • 4.2 TF-IDF算法的不足44
  • 4.3 结合特征项在类内和类间分布改进的TF-IDF方法44-49
  • 4.3.1 针对IDF的改进44-46
  • 4.3.2 针对特征项在类别内和类别间分布情况的改进46-49
  • 4.4 实验与实验结果分析49-52
  • 4.4.1 实验方法49
  • 4.4.2 实验结果49-52
  • 4.5 本章小结52-53
  • 第五章 总结与展望53-55
  • 5.1 工作总结53-54
  • 5.2 展望54-55
  • 参考文献55-59
  • 致谢59-60
  • 在读期间发表的学术论文及参与项目60-61
  • 附录61-62
  • 附录A 图索引61
  • 附录B 表索引61-62
  • Appendix62
  • Appendix A Figure Index62
  • Appendix B Table Index62

【相似文献】

中国期刊全文数据库 前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

中国重要会议论文全文数据库 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

中国重要报纸全文数据库 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

中国博士学位论文全文数据库 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年

中国硕士学位论文全文数据库 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s

本文编号:453883


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/453883.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c592***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com