当前位置:主页 > 科技论文 > 软件论文 >

Feed流用户行为统计系统的设计与实现

发布时间:2020-11-05 16:59
   随着Feed流产品的不断更新,以及拥有千万级别的用户量,可以成为公司的业务部门向外推广自己的产品,策略部门进行小流量实验,推荐部门进行优化算法的绝佳的平台。每个部门都会在Feed流日志中加入自己的日志,来进行跟踪,检测自己的产品,算法究竟符不符合大众的要求,通过统计点击,展现量,时长等关键性指标来不断的优化自己的产品、算法。由于越来越多的部门进入Feed流,加之每个部门都有自己的日志规范,导致其日志的格式变得越来越复杂,而且还会出现日有覆盖别部门的日志字段的情况。因为数据格式的复杂,导致在解析日志字段的时候会相当的耗时。往往一些简单的需求,由于解析的耗时,导致完成时间的延后,而且产出的结果也不容易进行验证,代码的维护性也是很差的。当日志没有按照规范来开发,或者日志内容被别的业务线覆盖的时候,没有一个统一的数据监控平台来监测,报警并将情况第一时间反馈给相关人员进行补救。每天要查看的数据也没有统一的报表平台,以及查询平台。在数据方面,由于公司不同业务线都是存放在一张大表中,而且只有一个分区来区分,所以首要任务是先剥离自己需要的日志,然后再解析,转换字段,根据ods,dwd,dws,ads层来构建数据仓库,将日志进行分散,按照主题进行存放,即方便了后续的业务开发,也扩展了整体业务的灵活性,以及减少了彼此之间的耦合度。在业务开发方面,构建集数据可视化,数据查询,数据监控功能于一体的系统,开发框架为js+html+springmvc+mybatis,少量的数据存储在mysql中,大量的数据存放在分布式列式存储中。目前,数据仓库的建立提高了解决需求的效率,确保了数据产出的准确性。可配置的报表也已经开始投入使用,可以轻松完成报表的制作,减少了重复的开发。数据查询页面实现快速查询的功能,提高了工作效率。数据监控页面,能够监控到异常指标,节约人力成本。
【学位单位】:山东大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.52
【部分图文】:

数据可视化,业务系统,数据处理过程,可配置


图2-1数据处理过程??业务系统功能分析??.1可配置数据可视化需求分析??由于报表之间的结构很相似,为了防止重复开发和考虑许多需求方都没有??经验,为了减少工作成本,提高工作效率,开发出一套自定义式组件化的??,开发人员或者需求方可以直接通过拖拽的方式,然后配置相应的参数就??成一个报表页面。简单易上手。??

流程图,查询界面,流程图,用户操作


图2-3查询界面的流程图??12??

映射表,数据节点,网络架构,缓存


图3-1整体的网络架构图??对于palo数据库,一般将部分数据放入分布式缓存中,configServer中存放??数据节点映射表,由diamond统一管理,在服务启动的时候,映射表就会传给??client端,并存储起来,后续请求都会通过存储的映射表来关联,不再去与??configServer进行交互,使configServer不会成为整个系统的瓶颈,当发起请求??时,服务端发现映射表的版本过低时,会让客户端重新去请求一份新的映射表,??再次存储,当dataServer的节点出现宕机时,会将复制一份备份该节点的数据??到相对空闲的节点,当dataServer有增加的时候,会将负载最多的节点的数据??迁移到新的节点中,并且会对当前可用的节点重新生成一张表,并且通过数据??节点的心跳,将新表同步给数据节点,然后版本号加一。??分布式缓存采用的是独立集群,可以防止跨机房访问,单边集群发生故障??也不会影响缓存的和命中率。集群之间存储的数据不会出现同步操作,当Feed??
【参考文献】

相关期刊论文 前2条

1 郑晓薇;项明;张大为;刘青昆;;基于节点能力的Hadoop集群任务自适应调度方法[J];计算机研究与发展;2014年03期

2 辛大欣;刘飞;;Hadoop集群性能优化技术研究[J];电脑知识与技术;2011年22期


相关硕士学位论文 前1条

1 张密密;MapReduce模型在Hadoop实现中的性能分析及改进优化[D];电子科技大学;2010年



本文编号:2871926

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2871926.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户606f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com