基于协同聚类算法的互联网流量与用户行为分析

发布时间：2019-11-06 08:51

【摘要】：到目前为止,我国的网络用户数已经接近我国总人口的50%,这充分地表明了互联网已经在人们的日常活动中得到了广泛的使用,并且极大地改变了人们的生活工作方式。因此,研究和分析互联网流量和网络用户行为已经成为网络研究工作的重要内容。与此同时,海量数据的不断产生也为互联网流量与用户行为的研究带来了挑战。本文的主要工作是运用数据挖掘算法和工具实现对大规模的网络流量和用户行为的研究与分析。具体来说,本文首先基于用户点击识别构建出对象级互联网流量分析模型——网页对象依赖图。该图模型描述了网页对象之间的依赖关系,具有维度高、稀疏、复杂,但局部稠密的特点。因此,为了深入研究该图模型的内部结构特征,本文设计并实现了一种协同聚类算法——非负矩阵分解算法,用于对大规模网页对象依赖图的分解,提取出四类典型的网页结构模式。最后,本文对这四类网页结构的特点和形成原因进行了深入研究与分析。本文的主要贡献包括以下三点:第一,本文创新性地提出了基于用户点击识别的对象级互联网流量分析模型——网页对象依赖图。该图模型描述了网络中用户请求的主对象和内嵌对象的依赖关系,为进一步研究和挖掘网页结构模式提供了有效的数学模型。第二,本文基于Spark分布式架构实现并优化了并行正交非负矩阵分解(ONMTF)算法。该算法可以实现对高维、稀疏的非负矩阵的降维,同时分解结果的非负性和近似正交性使其具有更强的解释能力。基于SVD的矩阵初始化方法使ONMTF算法可以得到较好的局部最优解。第三,本文利用并行的ONMTF算法实现了对大规模网页对象依赖图的分解,提取出四类典型的网页结构,从而挖掘出网络中存在的网页结构模式。
【图文】：

过程图,通信流程,目标网,服务器

＝：：：二逡逑图３－１网页访问通信流程逡逑图３－１表示了典型的网页访问流程，具体过程如下：逡逑１）逦Ｗｅｂ客户端向首选ＤＮＳ服务器查询目标网站的ＩＰ。若响应超时，则根据本逡逑地网络中配置的ＤＮＳ服务器列表顺序依次进行查询。逡逑２）逦Ｗｅｂ客户端通过三次握手与目标网站的Ｗｅｂ服务器建立ＴＣＰ连接。若响应逡逑９逡逑

过程图,过程,网页,点击

要做一些假设，例如一个页面点击只取决于最后一次点击。然而，普遍使用多标逡逑签浏览器的并行浏览行为打破了这些假设，使得这些识别方法无效。逡逑随着现代浏览器技术和Ｗｅｂ技术的迅速发展，用户在访问网页时的点击行逡逑为也变得复杂多变。针对以上研究中存在的问题和不足，我们提出了基于请求依逡逑赖关系图的用户点击识别算法。在网络中，用户的点击行为会产生大量请求。首逡逑先，我们建立起这些请求之间的依赖关系并抽象成请求依赖关系图模型［２６】。然后，逡逑我们在该图模型上应用了一种可扩展的点击识别算法。通过实验对比分析，该点逡逑击识别算法的准确率明显高于己有的算法，并且可扩展以满足大规模的分析需求。逡逑３．１．３逦基于图模型的用户点击识别逡逑图３－２描述了用户网页访问的两种方式，图中的用户１和用户２在同一时段逡逑内访问了同一网站的３个网页ｐｐｐ２，ｐ３，其中用户１采用了顺序访问网页的方式，逡逑每个网页的所有请求响应完毕后再去访问新的网页，所以网页Ｐｌ，ｐ２，，ｐ３＆请求之逡逑间保持了一定时间间隔；用户２采用的是并行访问网页的方式，在网页？１的请求逡逑没有完全响应之前就访问了新的网页厂２，所以Ｐｌ的请求ｒ和ｐ２的请求ｒ之间产生逡逑了重叠。逡逑
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP311.13;TP393.06

【参考文献】