基于云计算的文本分类研究与应用
本文关键词:基于云计算的文本分类研究与应用
更多相关文章: 云计算 文本分类 朴素贝叶斯 Hadoop Spark
【摘要】:当代互联网的高速发展产生了大量富有价值的互联网信息,其中文本数据占据着重要的位置,如何从海量的文本数据中挖掘出有用的信息是具有重大意义的课题。文本分类是文本挖掘中一项重要的研究方向,分类算法的实现是文本分类的重要部分,影响着文本分类效果和分类性能。基于传统计算机的分类算法实现过程需要消耗大量的时间,不能满足日益增长的数据处理需求,云计算平台的研究和发展就是在这一背景下兴起,满足了日益增长的海量数据处理需求。鉴于目前文本分类的研究现状和云计算平台应用的发展趋势,本文将基于云计算平台对文本分类相关技术进行研究,主要工作有以下三个方面:(1)深入分析了朴素贝叶斯文本分类算法相关理论,对条件属性独立性假设进行深入研究,重点讨论了朴素贝叶斯属性加权对独立性假设的影响。然后针对属性加权,本文提出了基于余弦相似度的加权朴素贝叶斯分类算法,采用余弦相似度优化属性权值,对分类算法进行改进。(2)研究朴素贝叶斯算法在云计算平台中的并行化实现。基于云计算平台Hadoop,根据MapReduce编程模型对贝叶斯算法并行化进行设计和实现;基于云计算平台Spark,根据基于内存的运算模式来分析和设计贝叶斯算法的并行化。然后实验对比算法在两个平台上性能提升的效果。(3)针对电子商务商品类目分类领域,在Spark平台和文本分类相关技术的研究基础上,对基于Spark平台文本分类并行化实现过程进行分析和设计,分析任务提交后各节点的作用和任务分配情况。然后研究改进的朴素贝叶斯算法在Spark上的并行化实现,给出了详细的并行化实现过程。实验结果表明,改进算法对比传统算法有一定的优势,基于内存计算的Spark在算法执行上要优于基于MapReduce模型的Hadoop。改进的算法能有效的移植到Spark上,在Spark上实现商品类目分类能有效的提高分类性能。
【关键词】:云计算 文本分类 朴素贝叶斯 Hadoop Spark
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-15
- 1.1 论文选题背景及意义9-10
- 1.2 国内外的研究现状10-13
- 1.2.1 文本分类研究现状10-12
- 1.2.2 云计算平台研究现状12-13
- 1.3 主要工作13
- 1.4 组织结构13-15
- 第二章 相关技术15-31
- 2.1 文本分类关键技术研究15-23
- 2.1.1 文本预处理16
- 2.1.2 特征选择16-19
- 2.1.3 文本表示19-21
- 2.1.4 分类算法21-22
- 2.1.5 分类评价22-23
- 2.2 云计算平台Hadoop23-26
- 2.2.1 HDFS23-24
- 2.2.2 MapReduce24-26
- 2.3 云计算平台Spark26-31
- 2.3.1 Spark RDD27-29
- 2.3.2 Spark架构29-31
- 第三章 朴素贝叶斯分类算法的改进和并行化研究31-48
- 3.1 引言31
- 3.2 传统的朴素贝叶斯分类算法31-36
- 3.2.1 概率论基础31-32
- 3.2.2 朴素贝叶斯分类算法32-35
- 3.2.3 朴素贝叶斯分类算法的优缺点35-36
- 3.3 改进的朴素贝叶斯分类算法36-39
- 3.3.1 加权朴素贝叶斯分类算法36-37
- 3.3.2 基于余弦相似度的加权朴素贝叶斯算法37-39
- 3.4 基于云计算平台的朴素贝叶斯分类算法39-42
- 3.4.1 基于Hadoop的朴素贝叶斯分类算法39-40
- 3.4.2 基于Spark的朴素贝叶斯分类算法40-42
- 3.5 实验及结果分析42-47
- 3.5.1 实验环境与实验数据集42-43
- 3.5.2 评测指标43
- 3.5.3 实验过程与结果分析43-47
- 3.6 本章小结47-48
- 第四章 基于Spark的电子商务商品类目分类研究48-62
- 4.1 引言48
- 4.2 电子商务商品文本数据获取48-49
- 4.3 基于Spark平台的商品类目分类与预测49-57
- 4.3.1 基于Spark平台的商品类目分类整体设计49-51
- 4.3.2 预处理模块51-52
- 4.3.3 特征选择模块52-53
- 4.3.4 特征权重模块53-54
- 4.3.5 改进的贝叶斯分类模块54-57
- 4.4 实验及结果分析57-61
- 4.4.1 实验环境与实验数据集57
- 4.4.2 实验评价指标57-58
- 4.4.3 实验过程与结果分析58-61
- 4.5 本章小结61-62
- 第五章 总结与展望62-64
- 5.1 全文工作总结62-63
- 5.2 展望63-64
- 参考文献64-68
- 致谢68-69
- 攻读学位期间研究成果69
【相似文献】
中国期刊全文数据库 前10条
1 赖英旭;杨震;;改进贝叶斯算法在未知恶意软件识别中的研究[J];北京工业大学学报;2011年05期
2 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期
3 李欣;;一种对贝叶斯算法的改进算法分析[J];山东省农业管理干部学院学报;2011年05期
4 皮靖;邵雄凯;肖雅夫;;基于朴素贝叶斯算法的主题爬虫的研究[J];计算机与数字工程;2012年06期
5 杨忠强;秦亮曦;;一种基于维规约的属性加权朴素贝叶斯算法[J];信息技术;2013年12期
6 丁岳伟;潘涛;;利用贝叶斯算法过滤报文内容分析系统中的垃圾信息[J];上海理工大学学报;2008年01期
7 李森;赵洁;;基于朴素贝叶斯算法的语言特征描述研究[J];农业网络信息;2012年05期
8 陈福志,史杏荣;基于改进贝叶斯算法的信息安全模型[J];计算机工程;2003年20期
9 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
10 文桥;王卫平;;基于改进贝叶斯算法的入侵检测方法[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前3条
1 顾蕊;;利用贝叶斯算法的目标探测前跟踪方法[A];第七届全国信息获取与处理学术会议论文集[C];2009年
2 许小林;唐文忠;;基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
3 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 刘大雷;基于不确定贝叶斯算法在滑坡危险性预测的应用研究[D];江西理工大学;2015年
2 王海鹏;基于HBase的人口收入水平的预测研究[D];大连海事大学;2015年
3 严嘉铭;基于云计算的文本分类研究与应用[D];浙江理工大学;2016年
4 杨忠强;基于属性加权和归约的朴素贝叶斯算法研究[D];广西大学;2013年
5 Emmanuel Kayitaba 阿玛尼;[D];中南大学;2010年
6 孙源泽;朴素贝叶斯算法及其在电信客户流失分析中的应用研究[D];湖南大学;2008年
7 朱强;贝叶斯算法在智能终端信息过滤中的应用研究[D];中南大学;2013年
8 王刚刚;贝叶斯算法在人体生理状态识别中的应用[D];大连理工大学;2008年
9 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
10 林士杰;ID3算法、朴素贝叶斯算法和BP神经网络算法的比较和分析研究[D];内蒙古大学;2013年
,本文编号:925336
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/925336.html