基于分布式框架下的中文文本特征分类研究
发布时间:2021-04-23 17:18
互联网技术的快速发展为人类提供了一个源源不断的信息源,面对海量的信息资源,如何利用自动化的方式快速、精准地从海量的中文文本中提取出对用户有价值的信息,已成为自然语言处理领域中的核心的研究焦点之一。云计算的迅速变化为海量中文文本数据的分布式存储和挖掘分析带来了优势和友好的条件。该中文计算系统的存储是HDFS文件系统,HDFS文件系统拥有的吞吐率高和容错性好等一连串的特点,此与大数据挖掘分析的要求也很相符。本研究选取Spark用做数据分析处理的平台,由于Spark具有Apache Hadoop和MapReduce的两者优势,还有Spark因基于内存的计算引擎框架,此对迭代计算和机器学习算法效率提高有帮助。在这项研究中,朴素贝叶斯(NB)和逻辑回归分析(LR)被用于并行的中文文本分类,并对NB算法进行了优化,建立了自己的优化分类模型,最终在Spark平台上并行优化实现。其中的工作主要包括:针对海量数据的特征需要进行了一系列的预处理工作,本实验对于海量的文本数据的特征建立了改进的文本分类TNBIF模型。首先对文本数据进行去除噪声信息,句子分割,并进行分词和词性标注处理,对数据进行清洗过滤只保留...
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 本文研究背景
1.2 本文研究现状
1.2.1 Spark的研究现状
1.2.2 朴素贝叶斯算法研究现状
1.2.3 逻辑回归算法研究现状
1.2.4 TextRank模型研究现状
1.3 本文研究的主要工作
1.4 本文文章组织结构
2 理论和技术基础
2.1 中文文本特征与词分析技术
2.1.1 中文文本存在的基本特征
2.1.2 中文文本数据结构特征
2.1.3 基于统计的句法分析方法
2.1.4 中文分词技术
2.2 Spark的体系结构和编程模型
2.2.1 MapReduce计算框架
2.2.2 Spark编程模型
2.2.3 Spark内存模型
2.3 文本分类算法
2.3.1 朴素贝叶斯算法
2.3.2 Logistic回归分析
2.3.3 关键字提取的TextRank
2.4 本章小结
3 分布式框架下朴素贝叶斯改进与Logistic回归分类器实现
3.1 对数据集预处理去噪和降维
3.2 特征加权朴素贝叶斯算法
3.3 训练和测试阶段
3.3.1 改进中文分类模型在Spark上的实现
3.3.2 朴素贝叶斯(NB)
3.3.3 Logistic回归(LR)
3.4 本章小结
4 实验结果与分析
4.1 实验数据
4.2 实验环境
4.3 分布式框架下并行NB和 LR分类器实现
4.4 并行效率
4.5 性能评估
4.5.1 实验最佳影响系数的测量
4.5.2 实验中分类性能对比
4.5.3 实验中时间性能和加速比分析
4.6 本章小结
结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]一种改进的MapReduce互信息文本特征选择机制[J]. 陶永才,赵国桦,石磊,卫琳. 小型微型计算机系统. 2018(03)
[2]基于非均衡局部敏感哈希的并行文本分类研究[J]. 赵彤,刘斌,李涛. 微电子学与计算机. 2017(12)
[3]基于Spark与词语相关度的KNN文本分类算法[J]. 于苹苹,倪建成,韦锦涛,曹博,姚彬修. 计算机技术与发展. 2018(03)
[4]大数据下基于MapReduce的Dirichlet朴素贝叶斯文本分类算法[J]. 胡晓东,高嘉伟. 科技通报. 2017(09)
[5]基于Spark的MapReduce相似度计算效率优化[J]. 廖彬,张陶,于炯,国冰磊,刘炎. 计算机科学. 2017(08)
[6]Spark DAG优化MapReduce协同过滤算法[J]. 廖彬,张陶,于炯,国冰磊,张旭光,刘炎. 中山大学学报(自然科学版). 2017(03)
[7]Spark平台下的高效Web文本分类系统的研究[J]. 李涛,刘斌. 计算机应用与软件. 2016(11)
[8]一种朴素贝叶斯文本分类算法的分布并行实现[J]. 郭绪坤,范冰冰. 计算机应用与软件. 2016(11)
[9]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[10]基于图计算的论文审稿自动推荐系统[J]. 谢玮,沈一,马永征. 计算机应用研究. 2016(03)
硕士论文
[1]基于Spark的超大文本分类方法的设计与实现[D]. 宋福星.北京交通大学 2017
[2]基于Spark的文本谱聚类算法并行化研究[D]. 吴浩.华中科技大学 2016
[3]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[4]基于Hadoop的文本分类系统的设计与实现[D]. 潘振鹏.哈尔滨工业大学 2013
[5]基于Hadoop的文本分类研究[D]. 刘丛山.上海交通大学 2012
本文编号:3155724
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 本文研究背景
1.2 本文研究现状
1.2.1 Spark的研究现状
1.2.2 朴素贝叶斯算法研究现状
1.2.3 逻辑回归算法研究现状
1.2.4 TextRank模型研究现状
1.3 本文研究的主要工作
1.4 本文文章组织结构
2 理论和技术基础
2.1 中文文本特征与词分析技术
2.1.1 中文文本存在的基本特征
2.1.2 中文文本数据结构特征
2.1.3 基于统计的句法分析方法
2.1.4 中文分词技术
2.2 Spark的体系结构和编程模型
2.2.1 MapReduce计算框架
2.2.2 Spark编程模型
2.2.3 Spark内存模型
2.3 文本分类算法
2.3.1 朴素贝叶斯算法
2.3.2 Logistic回归分析
2.3.3 关键字提取的TextRank
2.4 本章小结
3 分布式框架下朴素贝叶斯改进与Logistic回归分类器实现
3.1 对数据集预处理去噪和降维
3.2 特征加权朴素贝叶斯算法
3.3 训练和测试阶段
3.3.1 改进中文分类模型在Spark上的实现
3.3.2 朴素贝叶斯(NB)
3.3.3 Logistic回归(LR)
3.4 本章小结
4 实验结果与分析
4.1 实验数据
4.2 实验环境
4.3 分布式框架下并行NB和 LR分类器实现
4.4 并行效率
4.5 性能评估
4.5.1 实验最佳影响系数的测量
4.5.2 实验中分类性能对比
4.5.3 实验中时间性能和加速比分析
4.6 本章小结
结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]一种改进的MapReduce互信息文本特征选择机制[J]. 陶永才,赵国桦,石磊,卫琳. 小型微型计算机系统. 2018(03)
[2]基于非均衡局部敏感哈希的并行文本分类研究[J]. 赵彤,刘斌,李涛. 微电子学与计算机. 2017(12)
[3]基于Spark与词语相关度的KNN文本分类算法[J]. 于苹苹,倪建成,韦锦涛,曹博,姚彬修. 计算机技术与发展. 2018(03)
[4]大数据下基于MapReduce的Dirichlet朴素贝叶斯文本分类算法[J]. 胡晓东,高嘉伟. 科技通报. 2017(09)
[5]基于Spark的MapReduce相似度计算效率优化[J]. 廖彬,张陶,于炯,国冰磊,刘炎. 计算机科学. 2017(08)
[6]Spark DAG优化MapReduce协同过滤算法[J]. 廖彬,张陶,于炯,国冰磊,张旭光,刘炎. 中山大学学报(自然科学版). 2017(03)
[7]Spark平台下的高效Web文本分类系统的研究[J]. 李涛,刘斌. 计算机应用与软件. 2016(11)
[8]一种朴素贝叶斯文本分类算法的分布并行实现[J]. 郭绪坤,范冰冰. 计算机应用与软件. 2016(11)
[9]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[10]基于图计算的论文审稿自动推荐系统[J]. 谢玮,沈一,马永征. 计算机应用研究. 2016(03)
硕士论文
[1]基于Spark的超大文本分类方法的设计与实现[D]. 宋福星.北京交通大学 2017
[2]基于Spark的文本谱聚类算法并行化研究[D]. 吴浩.华中科技大学 2016
[3]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[4]基于Hadoop的文本分类系统的设计与实现[D]. 潘振鹏.哈尔滨工业大学 2013
[5]基于Hadoop的文本分类研究[D]. 刘丛山.上海交通大学 2012
本文编号:3155724
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3155724.html