基于网络数据包挖掘用户行为规则
第 1 章 绪论
1.1 研究的背景及意义
互联网自 1969 年诞生以来,逐步改变着人类的生活方式。互联网最初用于网络通信与数据传输,经过近 50 年的发展,互联网应用已经融入进我们生活的方方面面。我们可以通过各大门户网站获取新闻、财经、体育、时尚等各个方面的信息;通过电子商务网站,我们可以网上购物、理财投资、出行旅游等。我们可以利用网络资源,进行远程教育,拓展知识领域;通过互联网,我们可以观看文字、音频、视频、图片、游戏和多媒体数据,在业余时间休闲娱乐;通过各种社交网站、社交软件,与他人进行交流互动,拉近彼此距离,增进感情。 随着网络规模的不断扩大,网络信息爆炸式增长,如何有效的管理网络,营造一个安全、稳定、高效和健康的网络环境,成为亟待解决的问题。网络管理的出现很好的解决了这个问题。网络管理协调软件和硬件,满足网络用户需求;及时排除故障,保证网络正常运行。 互联网给我们带来便利的同时,也带来了许多问题。许多人沉溺于网络游戏,特别是青少年儿童;过多的上网时间使得人们几乎没有时间去锻炼身体;一些人甚至更喜欢在网上交流而忽视与真实世界的人们交流;不健康的信息充斥于互联网;虚假的信息遍布于互联网等等。此外,2013 年发生的斯诺登事件,以及随后曝出的棱镜事件等监听事件,使得生活在信息时代的我们每一个人都开始怀疑,互联网是否还安全,我们的隐私是否还存在。更可怕的是,恐怖主义利用互联网进行现代化的宣传,造成恐怖主义思想在互联网上蔓延,各种社交网站成了重灾区。例如 IS 招募成员,越来越多使用现代社交手段并通过网络宣传极端主义思想。 因此,合理利用互联网资源,营造一个安全、稳定、高效和健康的网络环境,就需要对包含所有互联网信息的网络流量------网络数据包,进行有效的分析。捕获网络数据包,进而解析网络数据包,利用数据挖掘技术,发现用户行为规则。利用用户行为规则,我们可以对正确利用互联网的用户,推送他们感兴趣的信息;对于错误利用互联网的用户,我们能够加以限制。
...........
1.2 历史与发展趋势
互联网诞生于 1969 年,主要用于网络通信和数据传输。由于互联网是一个极为复杂的系统,由大量的应用程序和协议、各种类型的端系统、分组交换和各种类型的链路级媒体。如何协调互联网各个部分资源,完成各种大而复杂的互联网活动,成为亟待解决的问题。 分层的体系结构很好的解决了这一问题。每个层次通过以下方式提供了他的服务:第一,在这层中执行了某些动作;第二,使用直接下层的服务。典型的协议栈有 ISO 的 7 层模型、TCP/IP 的 5 层模型。 互联网广泛应用于现实生活。我们可以网上购物、查阅资料、浏览信息、在线学习,还可以网上聊天、娱乐游戏等等。互联网给我们带来各种各样的便利的同时,也带来了许多互联网低俗内容。为此,世界各国加大了对互联网传播内容的监管力度。例如,我国自 2011年起,为了打击利用互联网制作传播淫秽色情信息行为,发起了数次“净网行动”。 此外,互联网安全问题也越来越突出。互联网快速发展,攻击与入侵等安全问题也与日俱增。网络攻击、病毒木马、伪基站、APT 攻击、无线网络成为网络安全的主要威胁。 为了营造一个安全、稳定、高效和健康的网络环境,就需要对各种各样的网络攻击行为加以预防。我们可以从以上几个方面入手加强互联网安全措施,例如物理措施、访问控制、数据加密、使用信息过滤、容错、数据镜像、数据备份和审计、数据加密技术、防火墙、入侵检测系统、密钥管理、数字签名、认证技术、智能卡技术等等。 但是,多种多样的攻击手段,使得互联网安全保护措施,总是处于被动地位,经常是滞后的。为此,能否提出一种积极的互联网安全保护措施,在攻击行为未发生时就可以进行预测,从而使互联网安全措施赢得主动。 为此,我们想到互联网通信的本质就是数据包的交换,数据包中包含了网络用户的所有信息。如果能够获取网络数据包,对网络数据包信息进行解析,利用数据挖掘技术,发现用户行为规则。利用用户行为规则,了解不同网络用户关心的领域。 我们可以利用网络用户关心得领域,在多个方面加以应用。从商业角度,我们可以向潜在的消费群体,推荐其感兴趣的商品和服务;从互联网安全角度,我们可以根据用户行为,发现潜在的网络攻击者;从社会安全角度,我们可以根据网络用户在互联网上的浏览行为、发表言论内容,把握其思想活动,预测其在真实世界中犯罪的可能性等等。
.........
第 2 章 网络数据包的捕获与协议解析
2.1 计算机网络分层的体系结构
计算机网络非常复杂,为了能够进行网络通信和数据传输,计算机网络采用分层的体系结构,以保证相互通信的两个计算机系统能够协调工作,从而将问题转化为若干较小的局部问题。国际标准化组织 ISO 为了不同体系结构的计算机网络能够互联互通,提出开放系统互联基本参考模型 OSI/RM(Open Systems Interconnection Reference Model),简称 OSI。该模型只是抽象模型,由于它将计算机网络分成 7 层,因此又被称为 OSI/RM 7 层模型。然而,在上世纪 90 年代初,尽管 OSI 国际标准已经制定,但因特网已经在全世界大范围覆盖。一般来说,网络技术和设备只有符合有关的国际标准才能得到广泛应用。但 TCP/IP被广泛应用,成为事实国际标准。
..............
2.2 网络数据包的捕获
捕获网络数据包可以使用被动捕获的方法实现。 网络用户间的信息交换,是通过数据包的交换实现的,而识别链路上数据包是否是发给自己的,实际上是通过网卡实现的。网卡有四种工作模式:1、直接模式;2、广播模式;3、多播模式;4、混杂模式。工作在直接模式下的网卡会对流经本网卡的数据包分析其 MAC 地址,与本网卡的 MAC比较。如果匹配成功,则接收该数据包,并将数据包传递给上层协议;如果匹配失败,则放弃接收该数据包。广播模式下的网卡会接收所有 MAC 地址为 0xffffff 的数据包。多播模式下的网卡可以接收所有的多播传送帧,无论组内组外。混杂模式(Promiscuous)下的网卡,经过此网卡的所有数据包都能够被接收,即使数据包不是发给自己。默认情况下,网卡工作在直接模式和广播模式下。采用 CSMA/CD 这种广播信道争用的方式的以太网 IEEE802.3 标准,使得各站点可以捕获其他站点发送的数据。因此,将网卡工作模式设为混杂模式,是进行被动捕获网络数据包的前提。
............
第 3 章 关联规则挖掘 ......... 22
3.1 概述 ......... 22
3.1.1 基本概念......... 22
3.1.2 关联规则挖掘的步骤 ......... 23
3.2 关联规则挖掘的算法 .......... 23
3.2.1 发现频繁项集的经典算法 ........ 24
3.2.2 优化的关联规则挖掘算法 ........ 24
3.3 关联规则挖掘的数据集类型 ...... 24
3.4 本文处理的数据集类型 ....... 25
3.5 本章小结 ......... 25
第 4 章 实验设计与实验结果 .... 26
4.1 捕获网络数据包数据 .......... 26
4.1.1 捕获平台........ 26
4.1.2 数据捕获策略 ....... 27
4.1.3 网络数据包捕获结果 .......... 28
4.2 网络数据包数据的协议解析 ..... 29
4.3 生成网络数据包数据集统计信息 .... 38
4.4 关联规则挖掘........ 41
4.4 本章小结 ........ 46
第 5 章 总结 .......... 47
第 4 章 实验设计与实验结果
4.1 捕获网络数据包数据
操作系统使用 Ubuntu,个人使用版本为 ubuntu-15.10,值得注意的是一定要选择与自己的计算机 CPU 系列相符的 Ubuntu 版本,这里我们选择 ubuntu-15.10-desktop-amd64.iso。检查有线网卡、无线网卡驱动是否正确安装。经常会出现无线网卡驱动未成功安装,可以在 System Settings 中的 Additional Drivers 执行自动搜索,然后 active,最后 reboot使得设置生效。确保计算机在有线环境、无线环境能正常接入互联网。本实验是在吉林大学校园网内,依靠有线、无线两种方式接入吉林大学校园网。需要注意的是,吉林大学校园网客户端Dr Client.zip 不要在 windows 下解压再复制到 Ubuntu 操作系统,这是因为这样获得的文件,在 Ubuntu 下没有可执行权限。安装网络数据包捕获工具 netsniff-ng,,可以在 Terminal 中输入 sudo apt-get install netsniff-ng,即可完成 netsniff-ng 的安装。执行 netsniff-ng 必须要 root 权限,获取netsniff-ng 的帮助文档请在 Terminal 中输入 man netsniff-ng。通过 netsniff-ng –V得知当前 netsniff-ng 版本为 0.5.9。 从网络接口卡接口名为 wlp2s0 的网卡捕获数据包,并将数据包数据以文件形式存储到/opt/目录下,在捕获过程中不向 Terminal 打印捕获数据,捕获并写入 pcap 文件中时使用mmap I/O,每一个捕获文件接收 10 分钟内的数据,使用 cup 编号为 0 的处理器进行捕获。
..........
总结
本文先介绍网络数据流量获取的方式被动捕获,进而探讨影响网络数据包捕获效率的因素,最终选择基于零拷贝技术思想的 netsniff-ng,作为网络数据包捕获工具。而后,又探讨了关联规则挖掘的基础知识,并简要介绍了关联规则挖掘的基本和改进算法。最后,将关联规则挖掘应用于离线网络数据包数据集,挖掘用户行为规则。 本文探讨的是关联规则挖掘算法应用于网络流量数据的具体应用。以往对网络流量数据应用数据挖掘算法,更多是从网络安全角度考虑,例如基于数据挖掘的入侵检测系统和防火墙。入侵检测系统是根据协议字段,判断是否发生入侵行为;防护墙更侧重将内部网络和外部网络分开,从而为内部网络提供安全保护。但是,以这种方式为计算机提供安全保护,总是处于被动。为此,我们重点对网络流量数据------网络数据包应用层信息进行关联规则分析,进而刻画出隐藏在计算机背后的网络用户的行为特征,从而为网络安全维护人员提供一份“黑名单”,这些人很可能是损坏网络安全的潜在人群,需要给予更多的关注。因此,挖掘网络用户行为规则从网络安全角度,可以认为是一种主动的防御手段。此外,我们还可以利用网络用户行为规则为识别出网络用户的兴趣域,从而为服务行业完善服务质量、商家发现潜在的客户群提供决策支持。当然,在互联网上经常发表带有强烈激进思想的言论的人,很有可能在真实世界中实施暴力行为,危害公共安全。例如,美国校园枪击案的凶手,在案发前在社交媒体就已经发表过激进的言论,如果能及早的识别出网络用户行为的异常,就可以阻止许多悲剧。恐怖组织利用互联网,宣传恐怖主义思想、招募成员。恐怖分子正是利用了我们对网络用户行为管控不力的这个弱点,使得我们在互联网上打击恐怖主义思潮泛滥总是处于被动的防御。通过对网络流量的挖掘,分析出网络用户行为规则,能够使我们在打击恐怖主义的过程中处于主动。
.........
参考文献(略)
本文编号:117688
本文链接:https://www.wllwen.com/wenshubaike/shuzhibaogao/117688.html