大数据背景下基于Web日志的用户访问模式挖掘研究
发布时间:2021-09-08 08:05
随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点:首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加...
【文章来源】:云南财经大学云南省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
MapReduce体系架构
在 HDFS 文件系统中,存在最为合适的文件大小,约为 64MB,这样可以使调度数据文件变得更加高效,同时在多个机器之间进行数据备份,使整个系统更加可靠。通常,默认副本数为 3 份,使用此策略是在最小化读写开销和数据可靠性之间进行了一些权衡。数据文件分散在不同的机架中,并且一个数据存在多个副本。这样可以最大程度地减少 Hadoop 集群在通信期间所需的网络带宽开销和读写延迟,HDFS 在读取数据时判断读取数据请求与哪个机架最近,进而去请求相对应的机架获取数据,如果 HDFS 集群是存在多个不同地域的数据中心,这时候本地数据中心的副本会被优先访问。第五节 Hadoop 平台日志数据处理优势在互联网技术飞速发展的今天,网站、用户和服务提供商也在不断的增长,也使得 Web 日志的数量爆炸式的增长,同时用户体验也变得越来越重要,
第四章 基于大数据平台的数据挖掘算法改进重复迭代 Map 任务,即以长度为 1 的序列模式生成的每个节点作为根节点,不断的扩充投影数据集,当数据集为空时则停止。对于生成的投影数据库会递归调用 Map 函数,进行进一步的处理。在 Map 函数处理过后,需要用 Reduce 函数接受 Map 输出的中间结果,并对该结果做进一步的约束,得到最终的序列模式,此时完成 MR-PS 算法。
【参考文献】:
期刊论文
[1]基于模糊理论的入侵检测[J]. 汪涛. 信息记录材料. 2018(09)
[2]基于高斯模型和概率矩阵分解的混合推荐算法[J]. 何慧. 统计与决策. 2018(03)
[3]基于GLSLIM模型的混合推荐算法研究[J]. 杨海龙,李松林,李卫军. 信息与电脑(理论版). 2017(20)
[4]看点!第38次《中国互联网络发展状况统计报告》[J]. 科学家. 2016(09)
[5]一种基于Hadoop的大数据挖掘云服务及应用[J]. 何清,敖翔,庄福振,罗平. 信息通信技术. 2015(06)
[6]基于MapReduce的序列模式挖掘算法[J]. 余啸,马传香,李伟亮,金聪. 计算机应用研究. 2015(11)
[7]基于Kmeans算法的模糊时间序列预测模型[J]. 王国徽,姚俭. 应用泛函分析学报. 2015(01)
[8]基于Hadoop平台的XML Twig查询处理方法[J]. 何志学,庄连英,斯庆巴拉. 北华航天工业学院学报. 2015(01)
[9]Web日志挖掘中的数据预处理研究[J]. 黄宏涛. 黑龙江科技信息. 2014(31)
[10]基于用户行为分析的图书馆数据库资源的整合与利用[J]. 陈浩. 计算机应用与软件. 2014(07)
博士论文
[1]基于样本和特征的迁移学习方法及应用[D]. 杨士准.国防科学技术大学 2013
[2]网络用户行为分析的若干问题研究[D]. 刘鹏.北京邮电大学 2010
硕士论文
[1]大数据集序列模式挖掘算法研究[D]. 梁栋.山东师范大学 2015
[2]Web日志挖掘系统的研究与实现[D]. 王赋聪.北京邮电大学 2015
[3]基于协同过滤算法的个性化推荐研究[D]. 姚婷.北京理工大学 2015
[4]基于序列模式的Web日志挖掘及其应用[D]. 王合清.华南理工大学 2014
[5]Web推荐系统中协同过滤算法的研究和应用[D]. 吴忠伙.华东师范大学 2014
[6]基于Hadoop平台的日志分析系统[D]. 李荣荣.复旦大学 2013
[7]公开信息搜集方法研究与实现[D]. 徐志成.电子科技大学 2011
[8]基于用户行为分析的数据挖掘系统研究与设计[D]. 李晓辉.北京邮电大学 2011
[9]政府网站日志挖掘的研究与实践[D]. 郭东东.郑州大学 2011
本文编号:3390435
【文章来源】:云南财经大学云南省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
MapReduce体系架构
在 HDFS 文件系统中,存在最为合适的文件大小,约为 64MB,这样可以使调度数据文件变得更加高效,同时在多个机器之间进行数据备份,使整个系统更加可靠。通常,默认副本数为 3 份,使用此策略是在最小化读写开销和数据可靠性之间进行了一些权衡。数据文件分散在不同的机架中,并且一个数据存在多个副本。这样可以最大程度地减少 Hadoop 集群在通信期间所需的网络带宽开销和读写延迟,HDFS 在读取数据时判断读取数据请求与哪个机架最近,进而去请求相对应的机架获取数据,如果 HDFS 集群是存在多个不同地域的数据中心,这时候本地数据中心的副本会被优先访问。第五节 Hadoop 平台日志数据处理优势在互联网技术飞速发展的今天,网站、用户和服务提供商也在不断的增长,也使得 Web 日志的数量爆炸式的增长,同时用户体验也变得越来越重要,
第四章 基于大数据平台的数据挖掘算法改进重复迭代 Map 任务,即以长度为 1 的序列模式生成的每个节点作为根节点,不断的扩充投影数据集,当数据集为空时则停止。对于生成的投影数据库会递归调用 Map 函数,进行进一步的处理。在 Map 函数处理过后,需要用 Reduce 函数接受 Map 输出的中间结果,并对该结果做进一步的约束,得到最终的序列模式,此时完成 MR-PS 算法。
【参考文献】:
期刊论文
[1]基于模糊理论的入侵检测[J]. 汪涛. 信息记录材料. 2018(09)
[2]基于高斯模型和概率矩阵分解的混合推荐算法[J]. 何慧. 统计与决策. 2018(03)
[3]基于GLSLIM模型的混合推荐算法研究[J]. 杨海龙,李松林,李卫军. 信息与电脑(理论版). 2017(20)
[4]看点!第38次《中国互联网络发展状况统计报告》[J]. 科学家. 2016(09)
[5]一种基于Hadoop的大数据挖掘云服务及应用[J]. 何清,敖翔,庄福振,罗平. 信息通信技术. 2015(06)
[6]基于MapReduce的序列模式挖掘算法[J]. 余啸,马传香,李伟亮,金聪. 计算机应用研究. 2015(11)
[7]基于Kmeans算法的模糊时间序列预测模型[J]. 王国徽,姚俭. 应用泛函分析学报. 2015(01)
[8]基于Hadoop平台的XML Twig查询处理方法[J]. 何志学,庄连英,斯庆巴拉. 北华航天工业学院学报. 2015(01)
[9]Web日志挖掘中的数据预处理研究[J]. 黄宏涛. 黑龙江科技信息. 2014(31)
[10]基于用户行为分析的图书馆数据库资源的整合与利用[J]. 陈浩. 计算机应用与软件. 2014(07)
博士论文
[1]基于样本和特征的迁移学习方法及应用[D]. 杨士准.国防科学技术大学 2013
[2]网络用户行为分析的若干问题研究[D]. 刘鹏.北京邮电大学 2010
硕士论文
[1]大数据集序列模式挖掘算法研究[D]. 梁栋.山东师范大学 2015
[2]Web日志挖掘系统的研究与实现[D]. 王赋聪.北京邮电大学 2015
[3]基于协同过滤算法的个性化推荐研究[D]. 姚婷.北京理工大学 2015
[4]基于序列模式的Web日志挖掘及其应用[D]. 王合清.华南理工大学 2014
[5]Web推荐系统中协同过滤算法的研究和应用[D]. 吴忠伙.华东师范大学 2014
[6]基于Hadoop平台的日志分析系统[D]. 李荣荣.复旦大学 2013
[7]公开信息搜集方法研究与实现[D]. 徐志成.电子科技大学 2011
[8]基于用户行为分析的数据挖掘系统研究与设计[D]. 李晓辉.北京邮电大学 2011
[9]政府网站日志挖掘的研究与实践[D]. 郭东东.郑州大学 2011
本文编号:3390435
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3390435.html