基于MapReduce的网络书写纹识别关键技术研究
本文关键词:基于MapReduce的网络书写纹识别关键技术研究,由笔耕文化传播整理发布。
【摘要】:网络书写纹是指用户在网络文字中留下的具有独特写作风格(如用词习惯、语法结构等)的特征集合。网络书写纹就像人的指纹一样,是可以标记作者写作特征的独一无二的标识符。随着研究的深入,作者数量增加,需要处理的总体数据规模也相应增加,另外,研究中还发现,在程序运行过程中,计算机的内存、CPU等资源并没有得到充分的利用。本文尝试对网络书写纹识别研究中的数据处理关键算法并行化,以期能够充分利用计算机资源,提高数据处理的效率。 Ngram是指给定一个序列的文本,根据N值选择等长或变长的连续子序列。研究证明,基于Ngram特征的抽取是构建网络书写纹个体特征集的重要技术,提高数据处理效率是Ngram特征抽取过程需要解决的重要内容。本文设计Hadoop-Ngram算法,并在Hadoop集群上实现,实验结果表明,相对未并行化的Ngram特征抽取,Hadoop-Ngram在文本数据的处理效率上有所提升,同时,CPU、内存等资源的利用率也有所提高,计算机资源得到较充分的使用。在实验中,还通过配置Hadoop通用参数选项来比较数据的处理效率,实验证明,根据处理任务的规模和特点灵活的配置Hadoop通用参数,可以使算法的运行效率进一步提高。 基于特征选择的集成学习(简称集成特征选择),是构建网络书写纹分类模型的重要技术,它首先对特征集合进行选择,去除冗余和无效特征,然后按照一定的划分算法对特征集进行划分,将划分好的特征子集分配到个体分类器,由个体分类器处理特征子集,最后将各个体分类器的结果汇总得到分类模型或分类结果。在利用集成特征选择构建分类模型的过程中也面临数据量增加,数据处理效率不理想的问题。基于此,本文设计基于MapReduce的集成特征选择算法Hadoop_F_Ensemble。实验结果表明,Hadoop_F_Ensemble执行时分类模型的构建效率也有所提高,系统资源也能得到较充分的利用,通过Hadoop通用参数选项的调整,实现的效果会更加良好。这说明,将MapReduce应用于网络书写纹识别研究是有意义的。
【关键词】:网络书写纹 Ngram MapReduce 集成学习
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:G40-057
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 研究背景10-11
- 1.2 国内外研究现状11-12
- 1.3 研究意义12-13
- 1.4 研究内容与组织结构13-15
- 第2章 MapReduce及相关技术介绍15-22
- 2.1 MapReduce相关技术介绍15-17
- 2.1.1 MapReduce编程模型15-16
- 2.1.2 MapReduce数据类型与控制节点数据结构16-17
- 2.1.3 容错机制17
- 2.2 Hadoop分布式并行计算平台17-21
- 2.2.1 Hadoop分布式文件系统17-19
- 2.2.2 Hadoop调度器19-20
- 2.2.3 Hadoop通用参数选项20-21
- 2.3 本章小结21-22
- 第3章 基于MapReduce的Ngram特征抽取22-40
- 3.1 网络书写纹特征抽取22-25
- 3.1.1 网络书写纹风格特征简介22-23
- 3.1.2 网络书写纹特征集23-24
- 3.1.3 基于Ngram的特征抽取24-25
- 3.2 基于MapReduce的Ngram特征抽取25-34
- 3.2.1 Hadoop-Ngram设计思想与简单实现26-29
- 3.2.2 Hadoop-Ngram工程的UML类图29-30
- 3.2.3 Hadoop-Ngram具体实现30-34
- 3.3 实验设计与结果分析34-39
- 3.3.1 实验设计与性能指标34-36
- 3.3.2 实验步骤与结果分析36-39
- 3.4 本章小结39-40
- 第4章 基于MapReduce的网络书写纹识别模型构建研究40-57
- 4.1 网络书写纹识别分类模型关键技术概述40-42
- 4.2 基于MapReduce的集成特征选择42-51
- 4.2.1 基于MapReduce的集成特征选择并行化设计42-45
- 4.2.2 基于MapReduce的Hadoop_F_Ensemble设计思想与简单实现45-46
- 4.2.3 基于MapReduce的Ensemble核心实现46-51
- 4.3 实验设计与结果分析51-56
- 4.3.1 实验设计51-52
- 4.3.2 实验步骤与结果分析52-56
- 4.4 本章小结56-57
- 第5章 总结和展望57-59
- 5.1 总结57-58
- 5.2 展望58-59
- 参考文献59-63
- 在校期间所参与项目和发表的论文63-64
- 致谢64
【共引文献】
中国期刊全文数据库 前8条
1 冯峰,逯贵祯,关亚林;二维FDTD算法的网络并行运算实现[J];北京广播学院学报(自然科学版);2005年02期
2 史晓霖,王菊,曹元大;语音合成服务器的设计与实现[J];北京理工大学学报;2004年01期
3 杨光亿,陈孝威;基于PVM平台的并行编程技术及其在图像处理中的应用[J];计算机工程与科学;2005年09期
4 刘维峰,卢伟,许海燕;基于局域网和MPI的PC集群计算环境[J];计算机工程与设计;2005年05期
5 罗俊,雷咏梅;基于集群SPMD算法及演化计算并行研究[J];计算机工程与设计;2005年10期
6 钟辉;点对点通信接口的并行实现[J];沈阳建筑大学学报(自然科学版);2005年01期
7 李涛,罗瑜;遗传算法的并行处理分析[J];西南科技大学学报;2004年04期
8 伍湘君,黄丽萍;超级计算机上矩阵乘的并行计算与实现[J];应用气象学报;2005年01期
中国博士学位论文全文数据库 前4条
1 魏洪涛;基于网格计算的仿真任务管理与调度方法研究[D];国防科学技术大学;2005年
2 葛培明;改进的遗传算法及其在工程优化中的应用[D];西南交通大学;2006年
3 张传富;仿真网格资源管理系统关键技术研究[D];国防科学技术大学;2006年
4 王学慧;并行与分布式仿真系统中的时间管理技术研究[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘艳;分布式网络并行系统在舰载指控系统中的应用研究[D];哈尔滨工程大学;2003年
2 彭伟;基于DVM的可视化并行程序开发平台设计[D];西北工业大学;2004年
3 韩光明;基于机群计算的热物性反问题高效分布式并行算法设计[D];武汉理工大学;2006年
4 姜豪;并行处理技术在FDTD算法中的应用[D];南京理工大学;2006年
5 王菊芬;基于Linux的PC集群系统的研究与实现[D];四川大学;2006年
6 易建波;基于P2P技术的广域网电力系统分布式并行计算平台[D];电子科技大学;2007年
7 杨帆;面向核模拟的三维可视化技术研究与系统实现[D];国防科学技术大学;2006年
8 陈艳;热传导反问题的高效分布式并行算法研究[D];武汉理工大学;2007年
9 杨学猛;基于匹配滤波原理的卫星干扰源定位分析与实现[D];北京邮电大学;2007年
10 黄玉东;合成孔径雷达实时并行数据处理[D];中国海洋大学;2007年
本文关键词:基于MapReduce的网络书写纹识别关键技术研究,由笔耕文化传播整理发布。
,本文编号:380620
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyugaigechuangxinlunwen/380620.html