校园网基础数据平台及用户行为分析系统
发布时间:2021-09-25 17:06
近些年来,随着大数据、物联网、云计算等技术的发展,高校网络也迎来了一个新的阶段,即大数据时代。大数据给我们的生活带来了前所未有的改变,而高校作为大数据应用的新阵地,也将给学生和教职工带来巨大的帮助。校园网数据来源丰富、数据量大,通过挖掘用户上网数据可以深入了解校园网用户的行为习惯,提高学校教学和管理水平。本文对多个校园网用户上网数据源进行了深入研究,并对系统进行了总体设计和实现。一方面通过数据预处理搭建了数据仓库,实现了基础数据平台;另一方面,在此基础上深入挖掘用户上网行为,提出了新的改进算法和公式,并实现用户行为分析系统。本文的主要工作和成果如下:研究和分析采集到的多个上网数据源,对系统进行了总体设计。其中为了实现对校园网用户上网数据的整合和统一管理,对数据平台进行了设计,从而搭建数据仓库,实现基础数据平台。为了有效挖掘校园网用户上网数据,以得到更好的聚类结果,采用基于用户过滤的数据挖掘方式对用户行为进行分析,并对校园网用户上网特征和移动轨迹相似度算法进行研究,提出了新的用户上网活跃度公式和基于改进LCSS(Longest Common Subsequence)的轨迹相似度算法,并通...
【文章来源】:浙江工业大学浙江省
【文章页数】:113 页
【学位级别】:硕士
【部分图文】:
Hadoop生态系统
图 2-1 Hadoop 生态系统Figure 2-1. The ecological system of HadoopCommon。这是 Hadoop 的一个基础模块,为生态系统中其他模块提供。HDFS。这是一个分布式文件系统,是 Hadoop 的存储模块,采用流式数式来存储超大文件。它包含一个管理节点 NameNode 和多个工作节点Node。NameNode 负责管理文件系统命名空间,维护整个文件系统树及有的文件和目录;DataNode 负责完成 NameNode 安排的工作任务,它存储并检索数据块,并且定期向 NameNode 发送它们所存储的块列表。高容错、高可靠、高扩展性等优势,而且用户不需要使用高昂可靠的硬运行 Hadoop 平台,因此适用性很高。其客户端读写数据的结构如图 2-2 HDFSSqoo读请求
浙江工业大学硕士学位论文MapReduce。作为 Hadoop 核心模块的 MapReduce,它的最大优势在于能够屏蔽底层实现细节,有效降低并行编程难度,提高编程效率[47]。它将数据操作分为多个数据块的并行处理,通过Map和Reduce两个函数实现对海量数据的各种计算。采用 MapReduce 可以解决关系型数据库管理系统在海量数据存储中效率低下的问题,传统关系型数据库使用的数据结构,也就是 B 树,由于需要使用“排序/合并”操作来重建数据库时易受寻址速率的影响,使得效率明显下降。而 MapReduce 比较适合解决需要以批处理方式分析整个数据集的问题。而且 MapReduce 对于非结构化或半结构化的数据非常有效,因为它是在处理数据时才对数据进行解释的,这种模式不仅灵活而且避免了关系型数据库管理系统在数据加载阶段带来的高开销,因此可以说 MapReduce 是关系型数据库管理系统的补充。MapReduce 的处理流程如图 2-3 所示。[Combine]Shuffle
【参考文献】:
期刊论文
[1]铁路信号设备设施技术状态大数据平台的研究[J]. 李斌,陈姝. 铁路通信信号工程技术. 2019(04)
[2]使用虚拟机搭建Hadoop3.0集群安装环境[J]. 杨云海,章芬芬. 现代信息科技. 2018(10)
[3]Hadoop研究及挑战综述[J]. 何思佑,王亚强. 信息通信. 2018(10)
[4]开放互联网中的学者画像技术综述[J]. 袁莎,唐杰,顾晓韬. 计算机研究与发展. 2018(09)
[5]基于Hadoop云计算平台的数据处理研究[J]. 朱晓丽,邓惠俊,陈小虎. 科技经济市场. 2018(07)
[6]一种潜在投诉用户画像及智能优化系统[J]. 王胜,刘满. 信息通信. 2018(07)
[7]基于用户轨迹数据的移动推荐系统研究[J]. 孟祥武,李瑞昌,张玉洁,纪威宇. 软件学报. 2018(10)
[8]应用数据挖掘技术在高校数字化校园建设中的研究[J]. 叶頔. 数码世界. 2018(05)
[9]数据挖掘技术及其在医疗质量管理中的应用[J]. 郑娟,许建强. 医学信息学杂志. 2018(03)
[10]数据挖掘常用算法及其在医学大数据研究中的应用[J]. 孙雪松,王晓丽. 中国数字医学. 2018(03)
硕士论文
[1]基于聚类技术的校园网络用户行为数据分析研究[D]. 李旭.山东师范大学 2016
[2]校园无线局域网用户行为分析研究[D]. 尧婷娟.山东大学 2014
本文编号:3410114
【文章来源】:浙江工业大学浙江省
【文章页数】:113 页
【学位级别】:硕士
【部分图文】:
Hadoop生态系统
图 2-1 Hadoop 生态系统Figure 2-1. The ecological system of HadoopCommon。这是 Hadoop 的一个基础模块,为生态系统中其他模块提供。HDFS。这是一个分布式文件系统,是 Hadoop 的存储模块,采用流式数式来存储超大文件。它包含一个管理节点 NameNode 和多个工作节点Node。NameNode 负责管理文件系统命名空间,维护整个文件系统树及有的文件和目录;DataNode 负责完成 NameNode 安排的工作任务,它存储并检索数据块,并且定期向 NameNode 发送它们所存储的块列表。高容错、高可靠、高扩展性等优势,而且用户不需要使用高昂可靠的硬运行 Hadoop 平台,因此适用性很高。其客户端读写数据的结构如图 2-2 HDFSSqoo读请求
浙江工业大学硕士学位论文MapReduce。作为 Hadoop 核心模块的 MapReduce,它的最大优势在于能够屏蔽底层实现细节,有效降低并行编程难度,提高编程效率[47]。它将数据操作分为多个数据块的并行处理,通过Map和Reduce两个函数实现对海量数据的各种计算。采用 MapReduce 可以解决关系型数据库管理系统在海量数据存储中效率低下的问题,传统关系型数据库使用的数据结构,也就是 B 树,由于需要使用“排序/合并”操作来重建数据库时易受寻址速率的影响,使得效率明显下降。而 MapReduce 比较适合解决需要以批处理方式分析整个数据集的问题。而且 MapReduce 对于非结构化或半结构化的数据非常有效,因为它是在处理数据时才对数据进行解释的,这种模式不仅灵活而且避免了关系型数据库管理系统在数据加载阶段带来的高开销,因此可以说 MapReduce 是关系型数据库管理系统的补充。MapReduce 的处理流程如图 2-3 所示。[Combine]Shuffle
【参考文献】:
期刊论文
[1]铁路信号设备设施技术状态大数据平台的研究[J]. 李斌,陈姝. 铁路通信信号工程技术. 2019(04)
[2]使用虚拟机搭建Hadoop3.0集群安装环境[J]. 杨云海,章芬芬. 现代信息科技. 2018(10)
[3]Hadoop研究及挑战综述[J]. 何思佑,王亚强. 信息通信. 2018(10)
[4]开放互联网中的学者画像技术综述[J]. 袁莎,唐杰,顾晓韬. 计算机研究与发展. 2018(09)
[5]基于Hadoop云计算平台的数据处理研究[J]. 朱晓丽,邓惠俊,陈小虎. 科技经济市场. 2018(07)
[6]一种潜在投诉用户画像及智能优化系统[J]. 王胜,刘满. 信息通信. 2018(07)
[7]基于用户轨迹数据的移动推荐系统研究[J]. 孟祥武,李瑞昌,张玉洁,纪威宇. 软件学报. 2018(10)
[8]应用数据挖掘技术在高校数字化校园建设中的研究[J]. 叶頔. 数码世界. 2018(05)
[9]数据挖掘技术及其在医疗质量管理中的应用[J]. 郑娟,许建强. 医学信息学杂志. 2018(03)
[10]数据挖掘常用算法及其在医学大数据研究中的应用[J]. 孙雪松,王晓丽. 中国数字医学. 2018(03)
硕士论文
[1]基于聚类技术的校园网络用户行为数据分析研究[D]. 李旭.山东师范大学 2016
[2]校园无线局域网用户行为分析研究[D]. 尧婷娟.山东大学 2014
本文编号:3410114
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3410114.html