基于飞天云平台的海量网络用户行为分析技术研究
本文关键词:基于飞天云平台的海量网络用户行为分析技术研究
更多相关文章: 网络用户行为分析 飞天云平台 海量数据处理 网页过滤 用户属性信息
【摘要】:随着信息化的不断普及,互联网越来越成为人们日常生活中不可缺少的一部分。人们在互联网上会产生各种各样的网络行为。对用户行为进行分析有助于构建个性化网络服务、实现更精准的广告定向和个性化推荐等,因此有越来越多的工作集中于网络用户行为的研究。目前,对网络用户行为的相关研究大部分是对用户的行为模式做统计分析,也有一部分工作对用户访问内容进行了浅层次的分析,绝大部分工作都是采用的小规模的用户行为数据。因此,针对大规模的网络用户浏览行为数据的分析工作还不足,同时缺乏一个针对大规模用户行为的分析框架。大规模用户行为数据的处理涉及海量数据的存储和处理,目前,云平台是比较常用的解决方案。本文基于飞天分布式云平台,设计了对海量网络用户行为数据进行处理和分析的方法,重点解决海量网页分类过滤时间代价高以及对用户访问网页内容分析层次浅的问题,达到了对海量网络用户行为数据分析的高效性要求。本文的主要工作包括以下几点:1.在分析飞天云平台的基础上,设计了一个面向海量网络用户行为分析系统处理架构。该架构设计了包括网络用户行为记录,网页内容爬取,网页清洗与关键词抽取,领域网页快速过滤,网页属性生成,用户属性生成,统计分析七个模块,能够有效地支撑基于飞天云计算平台的海量网络用户行为分析。后续的研究工作表明,该框架能够充分利用飞天的处理能力,实现便捷、高效的数据处理服务。2.针对海量网页分类过滤时间代价高的问题,提出了一个两阶段联合过滤的处理策略。飞天平台搜集的网络信息中,平均每天的用户浏览网页数为一百亿,针对使用常规的领域分类算法进行过滤,时间代价很大的问题,本文采用先经过领域字典粗过滤,再用分类器细过滤的两阶段处理过程,大幅度缩短了处理时间。3.针对目前的研究工作对用户访问的网页内容分析层次浅的不足,提出了基于网络浏览日志提取用户深层次属性信息的处理方法。通过构建领域描述,采用多层次分类方法,从用户浏览的页面中提取相关领域内的类别、子类别等属性信息。将页面属性信息与网页浏览日志数据进行聚合操作得到每个用户的属性信息。此外,为了能够方便地对用户属性信息进行统计分析,我们对一段时间内的用户属性信息进行了空间复杂度较低的增量聚合。本文针对海量网页数据的快速领域过滤和用户行为属性信息提取的问题进行了关键技术研究,在此基础上,实现了一个基于飞天的海量网络用户行为分析挖掘系统,实验效果表明,本文的技术方案具有有效性和高效性。
【关键词】:网络用户行为分析 飞天云平台 海量数据处理 网页过滤 用户属性信息
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09
【目录】:
- 摘要5-7
- Abs 化 act7-11
- 第一章 绪论11-15
- 1.1 研究背景11-12
- 1.2 研究现状12-13
- 1.3 本文工作13-14
- 1.4 本文的组织结构14-15
- 第二章 面向海量数据处理的飞天云平台分析15-24
- 2.1 云计算的背景15-16
- 2.1.1 云计算的概念15
- 2.1.2 云计算的分类15-16
- 2.2 飞天云平台简介16-20
- 2.2.1 飞天云平台体系架构16-17
- 2.2.2 飞天云平台内核17-20
- 2.2.3 飞天云平台开放服务20
- 2.3 飞天云平台对海量数据处理的支撑20-23
- 2.3.1 飞天云平台上的数据处理作业设计20-22
- 2.3.2 飞天云平台上的典型应用案例22
- 2.3.3 飞天云平台对海量网络用户行为数据处理的支撑22-23
- 2.4 本章小结23-24
- 第三章 海量网络用户行为分析系统设计24-34
- 3.1 网络用户行为24-26
- 3.2 网络用户行为分析技术研究26-27
- 3.3 汽车领域形态描述27-28
- 3.4 网络用户行为分析系统设计28-33
- 3.4.1 系统框架设计29-30
- 3.4.2 系统各模块功能30-33
- 3.5 本章小结33-34
- 第四章 基于两阶段联合过滤的海量网页快速过滤34-44
- 4.1 网页分类的难点34-35
- 4.2 网页分类方法研究现状35-37
- 4.3 两阶段联合过滤技术37-43
- 4.3.1 预处理38
- 4.3.2 网页特征生成38-41
- 4.3.3 基于领域字典的粗过滤技术41
- 4.3.4 基于分类的细过滤处理41-42
- 4.3.5 基于飞天云平台的两阶段过滤实现方案42-43
- 4.3.6 结果分析43
- 4.4 本章小结43-44
- 第五章 基于网络访问日志的用户属性信息生成44-52
- 5.1 用户属性信息生成分析44-45
- 5.1.1 实现目标44
- 5.1.2 用户属性信息生成的难点44-45
- 5.1.3 生成用户属性的处理思路45
- 5.2 基于飞天云平台提取页面属性信息45-47
- 5.2.1 品牌属性提取45-46
- 5.2.2 车型属性提取46
- 5.2.3 级别与价位属性提取46-47
- 5.3 基于飞天云平台提取用户属性信息47-51
- 5.3.1 单日用户属性提取47-49
- 5.3.2 用户属性信息增量聚合49-51
- 5.4 本章小结51-52
- 第六章 基于用户浏览信息的车辆关注度分析实践52-59
- 6.1 实验环境与数据52
- 6.2 实验结果可视化展示与分析52-58
- 6.2.1 微观数据展示与分析52-55
- 6.2.2 宏观数据展示与分析55-57
- 6.2.3 潜在感兴趣用户过滤57-58
- 6.3 本章小结58-59
- 第七章 总结与展望59-61
- 7.1 本文工作总结59-60
- 7.2 进一步工作展望60-61
- 参考文献61-66
- 附录66-67
- 附录A—硕士期间发表的论文66
- 附录B—硕士期间发表的专利66
- 附录C—硕士期间参与的科研项目66-67
- 致谢67-68
【相似文献】
中国期刊全文数据库 前10条
1 马维亮;;用户行为分析系统在宽带网络中的应用[J];科技信息(科学教研);2008年23期
2 乔志伟;;基于用户行为的3G业务分析与探讨[J];移动通信;2010年12期
3 龚尚福;姜晓旭;;基于用户行为分析的广告欺诈点击检测[J];计算机应用与软件;2011年04期
4 陶彩霞;谢晓军;陈康;郭利荣;刘春;;基于云计算的移动互联网大数据用户行为分析引擎设计[J];电信科学;2013年03期
5 毛承洁;张龙;庞川;陈洁敏;;社会网络服务及其用户行为分析[J];华南师范大学学报(自然科学版);2013年02期
6 雒江涛;胡燕清;徐孝娜;周进艳;;基于CDMA2000 1x EVDO网络的用户行为分析模型设计[J];电视技术;2013年07期
7 许春玲;范志刚;郑小盈;李明齐;;有线电视用户行为分析实践[J];网络新媒体技术;2014年01期
8 李朝阳;谢传中;;一种移动互联网用户行为分析系统的顶层设计[J];江西通信科技;2014年01期
9 刘英梅;;大数据时代的信息用户行为分析[J];科技情报开发与经济;2014年05期
10 陆群峰;;宽带上网用户行为分析[J];有线电视技术;2006年02期
中国重要会议论文全文数据库 前7条
1 赵勇;;移动互联网用户行为分析系统技术架构浅析[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
2 冯铭;王保进;蔡建宇;;基于云计算的可重构移动互联网用户行为分析系统的设计[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 赵艳梅;朱晓燕;;转变运维模式,迎接移动互联网新挑战[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年
5 刘奕群;张敏;马少平;;用户行为分析在网络信息检索中的应用概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 毛翔博;齐观德;李石坚;潘纲;;基于位置轨迹加权网络图的用户行为分析识别算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
7 尔古打机;苏小龙;朱征;;基于用户行为分析的移动终端偏好模型研究[A];第八届(2013)中国管理学年会——商务智能分会场论文集[C];2013年
中国重要报纸全文数据库 前3条
1 谭景华邋杨国良;IP网络用户行为分析方法的探讨[N];人民邮电;2007年
2 本报记者 逄丹;建设用户行为分析智慧模型[N];通信产业报;2010年
3 李中朝邋通讯员 黄伟;重庆电信建成宽带用户行为分析系统[N];人民邮电;2007年
中国博士学位论文全文数据库 前6条
1 王琪;新媒体系统中用户行为分析与系统设计[D];复旦大学;2014年
2 罗海艳;移动用户网络行为分析与预测方法研究[D];沈阳农业大学;2015年
3 刘鹏;网络用户行为分析的若干问题研究[D];北京邮电大学;2010年
4 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
5 窦伊男;根据多维特征的网络用户分类研究[D];北京邮电大学;2010年
6 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
中国硕士学位论文全文数据库 前10条
1 江惠彬;基于Web日志的用户行为分析系统的研究与实现[D];华南理工大学;2015年
2 李亚飞;基于用户行为分析的冰箱设计研究[D];山东大学;2015年
3 石钊;基于网络用户行为分析的用户推荐反馈系统的设计[D];北京化工大学;2015年
4 李婷蔚;基于移动校园应用的用户行为分析及性能改进[D];电子科技大学;2014年
5 王颖颖;基于Hadoop的用户行为分析系统的设计与实现[D];北京工业大学;2015年
6 马仕玉;聚类算法及其在校园网用户行为分析中的应用[D];重庆交通大学;2015年
7 徐娟;基于用户行为分析的核能领域垂直检索系统研究[D];合肥工业大学;2015年
8 陈嘉翼;基于小波聚类的网络用户行为分析研究[D];重庆大学;2015年
9 胡晓祥;基于飞天云平台的海量网络用户行为分析技术研究[D];南京大学;2014年
10 周岳;基于兴趣分类的用户行为分析系统的研究与设计[D];北京邮电大学;2010年
,本文编号:690462
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/690462.html