基于Spark计算环境的改进Bayes文本分类并行算法的研究与实现
发布时间:2021-05-15 11:29
随着信息社会的迅速发展,互联网得到了广泛的应用,目前已然成为最重要的信息来源。特别是随着云计算和大数据的出现,互联网产生的数据量呈指数等级增长。这些数据具有以下特点:数量大,维度高,结构复杂,噪声多,但具有广泛的应用前景。此外大部分的数据都是以文本的形式存储在互联网上。如何去有效的组织并使用这些数据,在当前计算能力不足的情况下将会成为一个巨大的难题,特别是在互联网应用程序中,当用户希望能准确、高效、快速地从大量的数据查找到自己需要的数据时,会对系统的计算能力和自然语言处理的算法提出更高的要求。朴素贝叶斯算法(Naive Bayesian)是十大经典的数据挖掘算法之一,它作为在文本分类中的基本理论而广为流传。随着互联网和信息系统的高速发展,海量的数据在随时随地被产生出来。当传统的Bayesian分类算法应用到海量的大数据中时一些问题就会暴露出来。文本提出了一种在Spark计算环境中进行文本分类的Bayesian改进算法:INBPCS。因为多元伯努利模型并没有考虑属性维度对文本分类的影响,因此本文改进了基于多项式模型的Bayesian算法。另外对于文本分类的数据处理过程,本文首先提出了一种...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 文本分类算法研究现状
1.2.2 大数据处理框架研究现状
1.2.3 噪声处理和维度降低研究现状
1.3 本文主要工作
1.4 论文组织架构
第2章 一种改进的多元贝叶斯模型
2.1 朴素贝叶斯分类算法原理
2.2 改进的朴素贝叶斯文本分类算法原理
2.3 噪声消除
2.4 维度缩减
2.4.1 信息增益
2.4.2 Trie树和双数组Trie树
2.4.3 Viterbi维特比算法
2.5 数据倾斜消除
2.6 本章小结
第3章 Spark在 Shuffle过程中的内存预测
3.1 MapReduce的原理
3.2 内存预测
3.3 预测算法
3.4 本章小结
第4章 INBPCS算法在Spark平台上的并行实现
4.1 INBPCS算法具体实现步骤
4.2 全局变量声明
4.3 并行算法的训练和测试
4.4 本章小结
第5章 实验结果与分析
5.1 实验设置
5.2 性能分析
5.3 本章小结
结论
参考文献
致谢
附录A 攻读学位期间所发表的学术论文目录
附录B 攻读学位期间所参与的项目
【参考文献】:
期刊论文
[1]基于双数组Trie树的中文分词词典算法优化研究[J]. 杨文川,刘健,于淼. 计算机工程与科学. 2013(09)
本文编号:3187555
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 文本分类算法研究现状
1.2.2 大数据处理框架研究现状
1.2.3 噪声处理和维度降低研究现状
1.3 本文主要工作
1.4 论文组织架构
第2章 一种改进的多元贝叶斯模型
2.1 朴素贝叶斯分类算法原理
2.2 改进的朴素贝叶斯文本分类算法原理
2.3 噪声消除
2.4 维度缩减
2.4.1 信息增益
2.4.2 Trie树和双数组Trie树
2.4.3 Viterbi维特比算法
2.5 数据倾斜消除
2.6 本章小结
第3章 Spark在 Shuffle过程中的内存预测
3.1 MapReduce的原理
3.2 内存预测
3.3 预测算法
3.4 本章小结
第4章 INBPCS算法在Spark平台上的并行实现
4.1 INBPCS算法具体实现步骤
4.2 全局变量声明
4.3 并行算法的训练和测试
4.4 本章小结
第5章 实验结果与分析
5.1 实验设置
5.2 性能分析
5.3 本章小结
结论
参考文献
致谢
附录A 攻读学位期间所发表的学术论文目录
附录B 攻读学位期间所参与的项目
【参考文献】:
期刊论文
[1]基于双数组Trie树的中文分词词典算法优化研究[J]. 杨文川,刘健,于淼. 计算机工程与科学. 2013(09)
本文编号:3187555
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3187555.html
最近更新
教材专著