基于Web数据的中小学网络教学资源建设现状调查
发布时间:2017-04-11 21:18
本文关键词:基于Web数据的中小学网络教学资源建设现状调查,,由笔耕文化传播整理发布。
【摘要】:大数据技术为教育信息化带来了新的机遇,为研究者和管理者对教育中的诸多问题的研究提供了新的数据来源和方法。在海量的教育信息化数据中,教学资源作为一种承载着学习行为、学习活动、学习进程信息的教学数据,隐含着丰富的分析价值。网络的出现不仅改变了人们的生活方式而且传统的教学方式也正经历变化,借助网络的教学形式正如雨后春笋般涌现,教学资源的建设作为教学活动过程中尤为关键的一环越来越受到关注。在这样的背景下,调查教学资源建设现状是推进教育信息化有序向前发展的重要手段之一。本文从学科、地域和同质性三个方面调查建设现状,其主要研究工作内容如下:(1)针对中小学资源网站上非结构化数据设计了相应的采集和存储策略并为采集和处理大量数据建立了Hadoop分布式集群。通过二次开发网络爬虫Nutch将中小学资源网站数据不断采集到本地并存储在分布式数据库Hbase中,为后续网页分析、资源数据提取提供了高性能的数据吞吐平台。(2)依据中小学网络教学资源语言特点和网页结构提出了一种建立教学资源库的方法。教学资源数据是由标题、关键字、日期、正文内容等元数据描述,利用开源工具Jsoup抽取标题、关键字等,利用模式匹配算法抽取日期、媒体类型,利用行块分布函数抽取正文内容,最终依据网站-网页-链接间关系建立网络教学资源库。(3)中小学资源网站中的资源多以学科、地域分类展示,依据资源的链接结构和标题建立VSM模型,然后利用模式匹配和向量相似度技术分析模型中学科和地域属性。在资源同质性分析中,从三个层次界定了网络教学资源的同质性:同名的资源是初级的同质;其次是同名且同类型;第三个层次是正文相同。第三层次的研究中利用LDA模型,为教学资源正文建立一种主题模型,然后使用基于层次的聚类算法分析主题模型相似度。(4)为了解决大量数据计算问题,将网络教学资源抽取、VSM模型、LDA模型和聚类算法重新设计使其可以运行在MapReduce编程模型上,为整个调查奠定基础。实验结果发现语、数、外资源量占有的比例较大,且需要参加考试的科目比不需要的多:东部沿海和珠三角地区的资源分布量显著较高;网站资源重复建设的现象依然存在且数量不容小觑。最后,设计的对比实验表明本文实施的调查是可靠且有效的。
【关键词】:大数据 教学资源 同质性
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G434;G632.4
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 第1章 绪论9-15
- 1.1 研究背景与意义9-10
- 1.1.1 研究背景9
- 1.1.2 研究意义9-10
- 1.2 资源调查现状10-11
- 1.3 研究目标与内容11-14
- 1.3.1 研究目标11-12
- 1.3.2 研究内容12-14
- 1.4 本文组织结构14-15
- 第2章 相关概念及技术介绍15-29
- 2.1 中小学网络教学资源15-17
- 2.1.1 网络教学资源的概念界定15-16
- 2.1.2 网络教学资源的特点16-17
- 2.1.3 资源同质性17
- 2.2 大数据技术17-21
- 2.2.1 开源平台Hadoop18-19
- 2.2.2 大数据关键技术19-21
- 2.2.2.1 分布式文件系统HDFS19-20
- 2.2.2.2 分布式编程模型MapReduce20-21
- 2.3 文本模型简介21-24
- 2.3.1 VSM模型21-22
- 2.3.2 pLSA主题模型22
- 2.3.3 LDA主题模型22-24
- 2.4 资源分析算法24-29
- 2.4.1 模式匹配算法25-26
- 2.4.2 文本相似度分析算法26
- 2.4.3 聚类分析算法26-29
- 2.4.3.1 基于划分的聚类算法26-27
- 2.4.3.2 基于层次的聚类算法27-29
- 第3章 网络教学资源采集与处理29-41
- 3.1 噪音数据处理29-33
- 3.1.1 资源载体组织结构30
- 3.1.2 资源数据预处理30-31
- 3.1.3 资源数据清洗31-32
- 3.1.4 资源数据提取32-33
- 3.2 资源集成33-36
- 3.3 HADOOP云平台的搭建与编程环境设置36-40
- 3.3.1 Hadoop云平台搭建36-39
- 3.3.2 编程环境设置39-40
- 3.4 本章小结40-41
- 第4章 网络教学资源分析与处理41-53
- 4.1 分析模型概述41
- 4.2 学科和地域研究41-45
- 4.2.1 向量模型建立42-44
- 4.2.1.1 认识Web链接结构42-43
- 4.2.1.2 向量模型建立步骤43-44
- 4.2.2 学科和地域属性分析44-45
- 4.3 同质性研究45-52
- 4.3.1 LDA在Mahout下的实现46-48
- 4.3.1.1 LDA算法并行化思想46-47
- 4.3.1.2 基于MapReduce的LDA算法并行化实现47-48
- 4.3.2 聚类算法在Mahout下的实现48-52
- 4.3.2.1 层次聚类数据划分策略49-50
- 4.3.2.2 基于MapReduce的层次聚类算法50
- 4.3.2.3 基于MapReduce的层次聚类算法实现50-52
- 4.4 本章小结52-53
- 第5章 实验结果与分析53-67
- 5.1 网络教学资源库53-56
- 5.1.1 实验与分析53-54
- 5.1.2 资源库现状调查54-56
- 5.2 资源学科和地域类型56-60
- 5.2.1 实验与分析56-58
- 5.2.2 资源学科和地域现状58-60
- 5.3 网络教学资源同质性60-66
- 5.3.1 实验与分析60-63
- 5.3.2 同质性分析63-66
- 5.4 本章小结66-67
- 第6章 总结与展望67-69
- 6.1 总结67
- 6.2 展望67-69
- 参考文献69-71
- 致谢71
本文关键词:基于Web数据的中小学网络教学资源建设现状调查,由笔耕文化传播整理发布。
本文编号:300000
本文链接:https://www.wllwen.com/jiaoyulunwen/chuzhongjiaoyu/300000.html