当前位置:主页 > 管理论文 > 移动网络论文 >

针对大规模网络访问数据的相关性及用户行为预测分析

发布时间:2018-08-30 09:32
【摘要】:随着互联网的不断普及和电子商务的深入发展,人们的生活方式也受到了深刻的影响。互联网上的各种服务,如web点击浏览、搜索引擎、网上购物、社交网站等,在为互联网用户提供便捷的同时,也记录了越来越多的用户行为数据,而这些大规模的网络访问数据间往往存在着某种隐含的特殊关系,如何从这些数据中挖掘出有价值的信息已成为研究的热点。本文以运营商大规模的DPI数据为基础,并结合爬虫获取的分类标签数据,采用分布式的思想对数据实现分布式的统计分析、关联分析,并基于用户的历史行为数据,采用Markov预测模型中的PPM模型对用户将来的行为进行预测。本文主要是针对运营商大规模的网络访问数据进行处理分析,并结合基于Python实现的爬虫程序,爬取网站URL以及对应的分类标签数据,然后采用Hadoop提供的HDFS实现对数据的分布式存储,并基于MapReduce框架实现对访问数据可靠、高效的预处理以及针对汽车行业从页面访问量、独立用户数、平均访问时长、集中访问时间点分布四个角度进行统计分析,然后利用爬虫得到的汽车URL分类标签数据对DPI数据中的汽车行业用户进行识别,并提取汽车行业用户的静态行为特征和动态行为特征,基于用户的动态行为序列即浏览行为和搜索行为进行关联规则挖掘和行为预测。以分布式的思想实现FP-Growth算法,并应用于大规模的DPI数据中,然后对用户的动态行为序列进行关联规则挖掘,找出用户动态行为特征之间的关联性,最后基于短期内用户历史动态行为特征序列的积累,构建PPM预测模型对用户的行为进行预测,在构建预测模型前,对预测周期进行了更为精确地划分,选择以小时为单位,根据用户在前几个时刻的历史行为特征预测用户下一时刻的行为,然后将预测得到的结果与用户的实际访问行为进行比较,计算预测的准确率,并得出预测准确率随着用户访问行为序列长度的增加而明显提高的结论,最后,对所有的数据输出结果进行整理并以图表的形式可视化呈现以便于进行分析。
[Abstract]:With the continuous popularization of the Internet and the further development of electronic commerce, people's way of life has also been deeply affected. Various services on the Internet, such as web click browsing, search engine, online shopping, social networking sites and so on, not only provide convenience for Internet users, but also record more and more user behavior data. However, there is an implicit special relationship between these large-scale network access data. How to extract valuable information from these data has become a hot topic. Based on the large-scale DPI data of the operator and the classified label data obtained by the crawler, the distributed statistical analysis, association analysis and user's historical behavior data are realized by using the distributed idea in this paper. The PPM model of Markov prediction model is used to predict the future behavior of users. This paper is mainly for the operators of large-scale network access data processing and analysis, and based on the implementation of Python crawler program, crawling website URL and the corresponding classification label data, Then it uses HDFS provided by Hadoop to realize the distributed storage of data, and based on MapReduce framework to realize reliable access data, efficient preprocessing and the number of page visits, the number of independent users, and the average access time for the automobile industry. This paper makes statistical analysis from four angles of centralized access to the distribution of time points, and then identifies the automobile industry users in the DPI data by using the URL classification label data obtained by the crawler. The static and dynamic behavior characteristics of users in automobile industry are extracted, and association rules mining and behavior prediction are carried out based on the dynamic behavior sequence of users, namely browsing behavior and searching behavior. FP-Growth algorithm is implemented with distributed idea and applied to large-scale DPI data. Then association rule mining is carried out on user's dynamic behavior sequence to find out the correlation between user's dynamic behavior characteristics. Finally, based on the accumulation of historical dynamic behavior characteristics of users in a short period of time, a PPM prediction model is constructed to predict the behavior of users. Before the prediction model is constructed, the forecasting period is divided more accurately and the unit of hours is selected. According to the historical behavior characteristics of the user at the first few times, the behavior of the user at the next moment is predicted, and then the predicted results are compared with the actual user's access behavior, and the accuracy of the prediction is calculated. It is concluded that the prediction accuracy increases with the increase of the length of the user's access behavior sequence. Finally, all the data output results are sorted out and visualized in the form of charts to facilitate the analysis.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.0

【相似文献】

相关期刊论文 前10条

1 弯弯;;对症下药 破解网络访问难题[J];网友世界;2011年18期

2 ;2000年的网络访问:无处不在的连接[J];计算机与网络;2000年Z1期

3 罗松林;拨号网络访问远程数据[J];上海微型计算机;2001年03期

4 黄昆;;体育比赛网上行的背后——负载均衡“抵抗”网络访问[J];中国计算机用户;2006年35期

5 曲广平;郭迎娣;;工作组模型下网络访问过程分析与故障排除[J];烟台职业学院学报;2010年03期

6 郭柏文;;网络访问系统[J];通信技术;1985年03期

7 周勇生;;不让双绞线拖累网络访问[J];电脑知识与技术(经验技巧);2014年04期

8 弯弯;;切断黑手!让网络访问更安全[J];电脑知识与技术(经验技巧);2014年06期

9 罗松林;利用拨号网络访问远程数据[J];家用电器;2000年12期

10 石恒;王勇;;企业内部用户网络访问监控系统的研究与实现[J];计算机系统应用;2009年09期

相关会议论文 前10条

1 罗志安;罗元鑫;;SSL协议及其在网络访问中的应用[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年

2 武小年;周胜源;;数据挖掘在用户行为可信研究中的应用[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年

3 樊旺斌;刘正捷;陈东;张海昕;;博客服务系统用户行为研究——用户访谈[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年

4 张书娟;董喜双;关毅;;基于电子商务用户行为的同义词识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 曹建勋;刘奕群;岑荣伟;马少平;茹立云;;基于用户行为的色情网站识别[A];第六届全国信息检索学术会议论文集[C];2010年

6 李海宏;翟静;唐常杰;李智;;基于用户行为挖掘的个性化Web浏览器原型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

7 鄢小彬;肖新平;;基于灰色马尔可夫模型的煤矿安全预测[A];第九届中国青年信息与管理学者大会论文集[C];2007年

8 寇玉波;李玉坤;孟小峰;张相於;赵婧;;个人数据空间管理中的任务挖掘策略[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

9 罗荣桂;黄敏镁;;基于自适应神经模糊推理系统的服务业发展预测模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年

10 王亮;刘豹;徐德民;;预测模型的选择及其智能化实现[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年

相关重要报纸文章 前10条

1 张树忠;《在网络中隐身》另有方法[N];中国电脑教育报;2004年

2 张旭军;焦点永远不在已经解决了的问题上[N];网络世界;2007年

3 黑海豚;网络访问被谁劫持[N];电脑报;2008年

4 编译 宋丽娜;严格控制网络访问[N];计算机世界;2006年

5 曹双力;合伙破曹[N];中国计算机报;2004年

6 ;NAP偏重终端代理及接入服务[N];中国计算机报;2008年

7 小常;巧妙控制用户访问共享[N];计算机世界;2004年

8 本报记者  张旭军;优化进行时[N];网络世界;2006年

9 张卫平;解除Windows XP的文件共享限制[N];电脑报;2004年

10 特约撰稿 董群;NAC与需求同脉搏[N];通信信息报;2007年

相关博士学位论文 前10条

1 张少敏;扩展组织PKI网络访问控制方法研究[D];西安电子科技大学;2008年

2 蒋朦;社交媒体复杂行为分析与建模[D];清华大学;2015年

3 陈亚睿;云计算环境下用户行为认证与安全控制研究[D];北京科技大学;2012年

4 张亚楠;基于用户行为的信任感知推荐方法研究[D];哈尔滨工程大学;2014年

5 杨悦;基于网络用户行为的搜索排行榜研究[D];北京交通大学;2013年

6 阳德青;面向社会网络的用户行为挖掘与应用研究[D];复旦大学;2013年

7 郭U,

本文编号:2212676


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2212676.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户02df4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com