基于Spark的文本分类的研究

发布时间：2017-11-03 06:10

本文关键词：基于Spark的文本分类的研究

【摘要】：随着互联网和信息技术的不断发展,文本形式的非结构化数据正在不断的增加。文本分类技术能够有效地对文本数据进行组织和处理,广泛地应用在各个领域。文本分类的预处理、特征选择、文本向量化以及文本分类器的生成都需要较大的时间和空间的开销,当面对大规模的文本数据时,传统的技术并不能满足该需求。大数据技术的出现为大规模数据的处理提供了有效的解决方案,然而Hadoop采用的MapReduce并行编程模型具有一定的局限性,它是基于磁盘的,不能高效地利用计算产生的中间结果,而Spark是一种基于内存的,能非常高效地利用中间结果,并且具有较高的处理速度。本文基于Spark对文本分类的各个过程进行并行化提高文本分类效率。本文先对文本分类和Spark计算框架分别进行了分析研究,然后完成了文本分类的各个过程在Spark平台下的并行化设计,提高文本分类各个过程的处理效率。在特征选择阶段采用χ2统计方法进行特征降维,对该方法进行分析,并针对其中的不足,引入词频因子、类内分散程度以及类间集中程度三种因子对其进行改进。在构造文本分类器时,采用朴素贝叶斯分类算法对文本进行分类,通过对朴素贝叶斯分类算法分析得知该算法中最为关键的是计算特征项在类别属性条件下的概率,将一种改进的TF-IDF算法用于计算特征词在类别条件下的概率。最后,通过实验对比,对本文提出的改进方案的有效性进行了验证,实验结果表明本文提出的改进方案提高了文本分类的准确率,基于Spark计算框架的并行化提高了文本分类各个过程的处理效率,减少了文本分类的时间开销,并且具有可扩展性。在Spark计算平台下对文本分类的预处理、特征选择、文本表示、文本分类器的训练以及对待分类文本进行分类的并行化,提高了文本分类的效率,实现了对大规模文本数据的处理。
【关键词】：文本分类 特征选择 Spark 并行化 朴素贝叶斯
【学位授予单位】：长春工业大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1
【目录】：

摘要3-4
Abstract4-7
第一章绪论7-10
1.1 研究背景与意义7
1.2 国内外研究现状7-8
1.3 论文主要内容8
1.4 论文组织结构8-10
第二章文本分类相关技术研究10-17
2.1 文本分类概述10-11
2.2 预处理11-12
2.3 特征降维12-14
2.4 文本表示模型14-15
2.5 分类算法15-16
2.6 本章小结16-17
第三章 Spark相关技术研究17-25
3.1 Spark概述17-18
3.2 Spark编程模型18-23
3.2.1 数据抽象模型RDD18-19
3.2.2 并行操作19-22
3.2.3 共享变量22-23
3.3 编程示例23-24
3.4 本章小结24-25
第四章基于Spark的文本分类并行化研究25-39
4.1 基于Spark的文本预处理25-26
4.2 基于Spark的特征选择26-31
4.2.1 χ~2 统计方法分析26-27
4.2.2 χ~2 统计方法的改进27-29
4.2.3 特征选择的并行化设计29-31
4.3 基于Spark的朴素贝叶斯分类器31-37
4.3.1 引入改进的TF-IDF算法32-33
4.3.2 朴素贝叶斯分类算法33-34
4.3.3 朴素贝叶斯分类器的并行化34-37
4.4 待分类文本分类的并行化设计37-38
4.5 本章小结38-39
第五章实验验证与分析39-45
5.1 实验环境39-41
5.2 实验语料41-42
5.3 实验结果与分析42-44
5.4 本章小结44-45
第六章总结与展望45-46
6.1 总结45
6.2 展望45-46
致谢46-47
参考文献47-50
作者简介50
攻读硕士学位期间研究成果50

【相似文献】

中国期刊全文数据库前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

中国重要会议论文全文数据库前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集（B辑）（NDBC2012）[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集（研究报告篇）[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集（上）[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集（技术报告篇）[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

中国重要报纸全文数据库前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

中国博士学位论文全文数据库前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学　;2009年

5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

9 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年

10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年

中国硕士学位论文全文数据库前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s，

本文编号：1134957

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1134957.html

上一篇：面向三角靶标的人眼对比度阈值特性实验表征
下一篇：基于HBase的分布式空间数据库技术

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|