基于HDFS的学习资源库数据存储管理关键技术研究
本文关键词:基于HDFS的学习资源库数据存储管理关键技术研究,由笔耕文化传播整理发布。
【摘要】:学习资源库是根据当前教育信息化和网络共享性的发展,由高校或者MOOC平台构建和管理的一种学习资源共享平台,主要以实现学习资源共享和扩展高校或者MOOC平台的学习资源建设为口的。随着海量学习资源的爆炸式增长,学习资源的存储将面临新的问题,例如学习资源的可靠性和可扩展性存储,以小文件为主的学习资源有效存储,学习资源冗余数据去重等。本文在分析了当前相关技术在解决上述问题优缺点的基础上,提出了新的技术解决方案,以解决学习资源库海量数据有效存储的问题。在海量学习资源的可靠性和可扩展性存储方面,本文提出了以HDFS存储学习资源数据文件和以HBase数据库存储学习资源元数据信息的存储架构方案。结合文件压缩存储策略,提出了基于文件访问频率的混合副本存储策略来优化基于HDFS的学习资源库数据存储架构的可靠性。采用HDFS的动态添加节点策略实现学习资源库的动态水平扩展,并且引用Balancer机制,以实现学习资源库中各存储节点的负载均衡。在大量小文件的存储方面,本文利用用户名的唯一性和HDFS 的 Append操作实现小文件合并来减少NameNode节点中元数据信息消耗的内存空间,从而实现小文件有效存储的口标。在学习资源冗余数据去重方面,本文结合Counting Bloom Filter算法,提出一种学习资源冗余数据去重技术,以解决频繁地I/O操作问题和提高学习资源冗余数据去重的效率。最后,本文开发并实现了一个学习资源库数据存储原型系统,针对本文提出的相关问题的解决方案,进行了系统性能测试和测试结果分析。实验证明,本文提出的海量学习资源数据存储解决方案是有效的。
【关键词】:学习资源库 数据存储 MOOC HDFS HBase Counting Bloom Filter 数据去重
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 引言8-15
- 1.1 研究背景8-10
- 1.2 国内外相关研究现状10-12
- 1.3 研究口标和研究内容12-13
- 1.4 本文组织结构13-15
- 第二章 相关技术理论15-24
- 2.1 HDFS分布式文件系统15-17
- 2.1.1 HDFS的特性15-16
- 2.1.2 HDFS体系架构16-17
- 2.2 HBase数据库17-18
- 2.3 小文件存储相关技术18-20
- 2.3.1 HAR小文件存储技术19
- 2.3.2 SequenceFile小文件存储技术19
- 2.3.3 多NameNode节点小文件存储技术19-20
- 2.4 数据去重相关技术20-23
- 2.4.1 数据去重技术简介20
- 2.4.2 数据去重技术分类20-22
- 2.4.3 Counting Bloom Filter算法22-23
- 2.5 本章小结23-24
- 第三章 基于HDFS的学习资源库数据存储架构的设计24-29
- 3.1 学习资源库数据存储架构的设计24
- 3.2 学习资源元数据的定义和存储24-25
- 3.3 学习资源存储可靠性和可扩展性设计25-28
- 3.3.1 学习资源存储可靠性设计25-27
- 3.3.2 学习资源存储可扩展性设计27-28
- 3.4 本章小结28-29
- 第四章 基于HDFS的学习资源库小文件存储优化29-35
- 4.1 小文件存储问题29
- 4.2 小文件存储优化设计29-33
- 4.2.1 小文件存储优化方案与架构30-31
- 4.2.2 小文件操作过程31-33
- 4.3 小文件存储优化主要实现33-34
- 4.4 本章小结34-35
- 第五章 基于HDFS的学习资源库冗余数据去重技术35-43
- 5.1 学习资源冗余数据去重技术研究35-37
- 5.1.1 学习资源冗余数据去重一般过程35-36
- 5.1.2 Counting Bloom Filter算法的计数器大小分析36-37
- 5.2 学习资源冗余数据去重实现过程37-39
- 5.3 学习资源基本操作过程39-42
- 5.3.1 学习资源上传操作过程39-41
- 5.3.2 学习资源删除操作过程41-42
- 5.4 本章小结42-43
- 第六章 系统相关性能测试与分析43-50
- 6.1 测试准备43-44
- 6.1.1 系统硬件和软件环境43-44
- 6.1.2 存储系统实现44
- 6.2 性能测试与分析44-49
- 6.2.1 数据读写性能测试44-46
- 6.2.2 小文件存储优化性能测试46-48
- 6.2.3 学习资源冗余数据去重性能测试48-49
- 6.3 本章小结49-50
- 第七章 总结与展望50-52
- 7.1 论文主要工作总结50-51
- 7.2 展望51-52
- 致谢52-53
- 参考文献53-55
【相似文献】
中国期刊全文数据库 前10条
1 袁小红;;多媒体资源库在网络教学中的应用与研究[J];网络科技时代(信息技术教育);2002年08期
2 张红侠,王芳兰;医院建立护理人力资源库的体会[J];华夏医学;2005年05期
3 杨晶石;王红梅;;长白山特色资源库的构建[J];通化师范学院学报;2009年04期
4 王碧静;;个人资源库的构建[J];电脑知识与技术;2009年15期
5 欧浩源;;构建嵌入式系统研发的资源库[J];今日电子;2010年08期
6 史栋杰;孔华锋;;领域驱动设计中资源库模式的设计与实现[J];电脑知识与技术;2010年33期
7 钟萍;黄苗珠;叶元;;妇产科多媒体资源库的建立[J];中国医学创新;2011年20期
8 陈钰华;尹晶海;;基于网络数据抓取的异构试题资源库的构建[J];科技广场;2012年08期
9 力志;东一舟;;数字化资源库的出入库策略研究[J];无线互联科技;2012年09期
10 崔亮;徐守江;;食品设备网络资源库平台的设计与实现[J];电子制作;2013年23期
中国重要会议论文全文数据库 前3条
1 解威;;明确认识中学的计算机网络 推进网络的切实应用[A];中国当代教育理论文献——第四届中国教育家大会成果汇编(下)[C];2007年
2 殷建民;刀福祥;张轴材;;西双版纳傣文“贝页经”资源库技术研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 董辉;黄兵;赵其平;姜连连;韩红玉;;中国畜禽寄生虫虫种资源库的建设[A];中国畜牧兽医学会家畜寄生虫学分会第五次代表大会暨第八次学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 茅蕾 闫惠;档案:不该被遗忘的文化产业资源库[N];中国文化报;2014年
2 通讯员 罗俊杰 李静薇;市内15家企业入选省重点上市后备企业资源库[N];永州日报;2014年
3 通讯员 韩述群 张宏斌;尼勒克建立农村劳动力“资源库”[N];伊犁日报(汉);2007年
4 万丽;资源库要重建设重管理[N];中国教育报;2001年
5 吕玉婷;江苏正式开通全国首个省级语言资源库[N];江苏教育报;2013年
6 本报记者 邹伟 本报实习生 陈艳秋;探访南京“历史文化资源库”[N];南京日报;2009年
7 卢欣欣;资源竞争迫切需要构建作者资源库[N];中国新闻出版报;2013年
8 记者 谭嘉;北京重大疾病资源库建成[N];健康报;2013年
9 杨素英;太原建立拟上市公司资源库[N];山西经济日报;2007年
10 唐华锋;思南建立第三批科学发展观活动“远教资源库”[N];铜仁日报;2009年
中国博士学位论文全文数据库 前1条
1 何丽;支持复杂产品快速设计的网络化零件资源库系统研究[D];新疆大学;2013年
中国硕士学位论文全文数据库 前10条
1 危长鑫;基于PBL的学生工程能力训练资源库的设计与实现[D];北京工业大学;2014年
2 李霄;乌鲁木齐市科技专家资源库系统的设计与实现[D];新疆大学;2015年
3 吴家奇;基于HDFS的学习资源库数据存储管理关键技术研究[D];东南大学;2015年
4 黄兰芳;“农远”网络资源库应用现状及策略研究[D];西北师范大学;2009年
5 谢高武;统一门户下分布资源库使用机制的研究[D];广东工业大学;2011年
6 夏熙茹;在线搜索动态几何资源库[D];辽宁师范大学;2014年
7 沈晓;面向银保知识资源库的关键技术研究及系统构建[D];复旦大学;2011年
8 张文娟;面向学校的陕西省民族传统体育项目资源库的构建研究[D];西安体育学院;2012年
9 张丹;教学资源配送系统中个性化规律的挖掘[D];东北师范大学;2005年
10 梁慧芝;学习资源库知识服务模型研究[D];西南师范大学;2005年
本文关键词:基于HDFS的学习资源库数据存储管理关键技术研究,由笔耕文化传播整理发布。
,本文编号:451233
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/451233.html