当前位置:主页 > 科技论文 > 软件论文 >

基于用户行为时序的聚类研究与实现

发布时间:2022-10-15 14:57
  网络用户随时间变化的行为分析是近年来用户行为分析的热点,通常为了发现用户行为的特征需要对用户做聚类处理。针对用户时序数据的聚类问题,现有研究方法存在计算性能差,距离度量不准确的缺点,无法处理大规模数据。为了解决上述问题,本文研究了基于对称KL距离的用户行为时序聚类方法,同时采用分布式计算和MapReduce编程模型进一步提高聚类运算的计算效率,最终实现用户行为时序的自动聚类。本文主要的研究内容包括:(1)在现有时序聚类研究基础上,针对网络用户时序数据的特点,提出基于对称KL距离的用户行为时序聚类方法。KL距离描述的是对象在概率分布上的差异,能适应数据的平移缩放等变形,摆脱传统距离定义在几何空间上的局限性,提高时间分布差异性描述的准确性,实验结果证明,该算法相比采用欧式距离和DTW(Dynamic Time Warping,动态时间归整)距离度量的聚类算法能提高4%的准确度,与采用medoids聚类质心的聚类算法相比计算时间减少一个量级;(2)面向实网环境,实现了海量用户行为时序的分布式聚类。基于分布式平台,设计并实现了网络用户行为数据时序化,最优聚类数量自动寻参,聚类映射关系特征化等关... 

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题研究背景与意义
    1.2 本文主要研究内容
    1.3 研究生期间工作
    1.4 论文组织结构
    1.5 本章小结
第二章 时序聚类技术及大数据平台综述
    2.1 引言
    2.2 时序聚类技术综述
        2.2.1 国内外研究现状
        2.2.2 时间序列聚类
    2.3 大数据平台相关技术
        2.3.1 HDFS
        2.3.2 Hadoop Streaming
        2.3.3 MapReduce抽象编程
    2.4 本章小结
第三章 基于对称KL距离的用户行为时序聚类方法
    3.1 引言
    3.2 用户时序概率模型
        3.2.1 时序概率模型表示
        3.2.2 对称KL距离度量
    3.3 基于对称KL距离的用户行为时序聚类方法
        3.3.1 确定聚类质心
        3.3.2 算法加速
        3.3.3 聚类算法
    3.4 仿真结果与讨论
        3.4.1 评价指标
        3.4.2 人工数据仿真结果与讨论
        3.4.3 实际数据仿真结果与讨论
    3.5 本章小结
第四章 基于用户行为时序的分布式聚类实现
    4.1 引言
    4.2 基于用户行为时序的分布式聚类实现框架
    4.3 模块功能实现
        4.3.1 数据获取与存储
        4.3.2 预处理模块
        4.3.3 聚类模块
        4.3.4 聚类后处理模块
    4.4 实例评估
        4.4.1 系统环境搭建
        4.4.2 系统运行评估
        4.4.3 运行效率评估
    4.5 本章小结
第五章 结束语
    5.1 论文总结
    5.2 未来的研究工作
参考文献
致谢
攻读学位期间发表的论文及专利


【参考文献】:
期刊论文
[1]手机用户上网时段的混合Markov预测方法[J]. 方志祥,于冲,张韬,冯明翔,倪雅倩.  地球信息科学学报. 2017(08)
[2]基于用户行为的微博用户社会影响力分析[J]. 毛佳昕,刘奕群,张敏,马少平.  计算机学报. 2014(04)
[3]大数据平台技术综述[J]. 宫夏屹,李伯虎,柴旭东,谷牧.  系统仿真学报. 2014(03)

博士论文
[1]基于流量监测的网络用户行为分析[D]. 延皓.北京邮电大学 2011



本文编号:3691512

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3691512.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5f56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com