基于流量的网络用户关联分析方法研究与实现
发布时间:2020-12-04 06:44
从大规模的网络流量中分析挖掘出用户特征、分析用户行为,现如今已经是互联网时代的一项关键技术,引起了业内广泛的重视与研究。如何通过用户在网络上的行为数据,发现用户之间潜在的关系,从而转化为辅助网络安全建设和互联网发展的有用知识,是现阶段亟需解决的问题。本文对网络协议的结构和通信方式以及数据挖掘算法进行了深入研究,分析了每种协议可以提取的用户特征,利用这些特征数据从繁杂的流量中找出用户账号,并提出了基于流量和属性相似度的用户关联性分析模型,最后设计并实现了网络用户关联分析系统。论文的主要的研究内容和相关成果包括以下几个方面:(1)针对多种网络主流协议的结构和用户关联性分析的需求,设计了解析模型实现了对网络流量的数据挖掘和特征提取,模型根据各种主流协议的结构,明确了相应的解析方法,并对关键字段进行了自动化的提取。(2)对流量中的用户账号进行了提取,并且为判断用户之间是否有关联提取出了相应的账号属性特征,并另外提出了四种会话属性特征以增强关联效果。并为不同用户间的特征相似度提出了 N-Gram、Jaro距离等不同的度量方式。(3)利用SVM机器学习理论和提取的用户数据特征,提出使用属性相似度特...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
离群噪声点示意图
??(4)目前两两之间的用户匹配基本时间复杂是0(W2),如果N数量很际上消耗的时间是较高的,如何去提升时间效率,也是一个亟待研究的问本章主要针对以上提出的几个问题,提出了属性相似度的网络爪户关联章建立的模型将挖掘出不同平台网络用户互相之间是否属于同一实体用,尽可能地从复杂流量中挖掘对应关系,除了利用社会属性特征之外,本对用户关联这一问题,新提出了会话特征和[P-SimRank算法,结合SVM型,来判断两两用户间是否有是否属于同一实体用户。??.2基于属性相似度的网络用户关联模型结构??本文以分析两两用户之间的关联性(是否属于同一实体用户)为目标,了基于属性相似度的网络用户关联模型。首先该模型将用户之间是否关联转类问题,并使用SVM算法去进行分类,主要在特征和用户相似度度量方几个方向上对整个分类模型进行优化,整个模型的流程图如图3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??图3-?3?HTTP请求消息结构图??上图中第一行表示的是HTTP请求行,表示客户端通过POST方法请求指定??URL下的资源。URL对应着网站的某一处资源,这些URL在对应特定的网站,??比如本文所涉及的百度搜索,通过对URL进行判断,可以知道该会话可能携带??百度账号的相关用户信息,进而可以通过Cookie来提取相应的账号,百度搜索??URL示例如图3-4。??图3-4百度搜索对应的URL??要想分析用户之间的关联性,首要的便是需要能够挖掘出流量中存在的用户??账号,本节就此采用一种利用正则表达式匹配的账号1D提取技术,以提取流量??中存在的用户账号。即通过分析HTTP会话的内容,判断哪些会话的域名是平台??相关的域名
【参考文献】:
期刊论文
[1]面向社会网络融合的关联用户挖掘方法综述[J]. 周小平,梁循,赵吉超,李志宇,马跃峰. 软件学报. 2017(06)
[2]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[3]RBF-SVM的核参数选择方法及其在故障诊断中的应用[J]. 周绍磊,廖剑,史贤俊. 电子测量与仪器学报. 2014(03)
[4]两种基于双向比较的最长公共子串算法[J]. 王开云,孔思淇,付云生,潘泽友,马卫东,赵强. 计算机研究与发展. 2013(11)
[5]基于HTTP协议的POST数据分析与还原[J]. 陈雷,刘嘉勇. 通信技术. 2011(04)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[7]基于关联规则的高校课程关联性分析[J]. 邓砚谷,佘颖. 现代教育技术. 2010(05)
[8]TCP协议简述与三次握手原理解析[J]. 朱晶. 电脑知识与技术. 2009(05)
[9]Cookie技术在Web日志挖掘预处理中的应用[J]. 周增国,庞有军. 大连大学学报. 2006(02)
[10]基于有向图的对象范式生成算法[J]. 刘国华,汪卫,张亮,施伯乐. 软件学报. 2004(05)
硕士论文
[1]多社交网络用户身份识别算法研究[D]. 孟波.大连理工大学 2015
[2]支持向量机增量学习算法研究[D]. 李金凤.中南民族大学 2011
本文编号:2897175
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
离群噪声点示意图
??(4)目前两两之间的用户匹配基本时间复杂是0(W2),如果N数量很际上消耗的时间是较高的,如何去提升时间效率,也是一个亟待研究的问本章主要针对以上提出的几个问题,提出了属性相似度的网络爪户关联章建立的模型将挖掘出不同平台网络用户互相之间是否属于同一实体用,尽可能地从复杂流量中挖掘对应关系,除了利用社会属性特征之外,本对用户关联这一问题,新提出了会话特征和[P-SimRank算法,结合SVM型,来判断两两用户间是否有是否属于同一实体用户。??.2基于属性相似度的网络用户关联模型结构??本文以分析两两用户之间的关联性(是否属于同一实体用户)为目标,了基于属性相似度的网络用户关联模型。首先该模型将用户之间是否关联转类问题,并使用SVM算法去进行分类,主要在特征和用户相似度度量方几个方向上对整个分类模型进行优化,整个模型的流程图如图3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??图3-?3?HTTP请求消息结构图??上图中第一行表示的是HTTP请求行,表示客户端通过POST方法请求指定??URL下的资源。URL对应着网站的某一处资源,这些URL在对应特定的网站,??比如本文所涉及的百度搜索,通过对URL进行判断,可以知道该会话可能携带??百度账号的相关用户信息,进而可以通过Cookie来提取相应的账号,百度搜索??URL示例如图3-4。??图3-4百度搜索对应的URL??要想分析用户之间的关联性,首要的便是需要能够挖掘出流量中存在的用户??账号,本节就此采用一种利用正则表达式匹配的账号1D提取技术,以提取流量??中存在的用户账号。即通过分析HTTP会话的内容,判断哪些会话的域名是平台??相关的域名
【参考文献】:
期刊论文
[1]面向社会网络融合的关联用户挖掘方法综述[J]. 周小平,梁循,赵吉超,李志宇,马跃峰. 软件学报. 2017(06)
[2]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[3]RBF-SVM的核参数选择方法及其在故障诊断中的应用[J]. 周绍磊,廖剑,史贤俊. 电子测量与仪器学报. 2014(03)
[4]两种基于双向比较的最长公共子串算法[J]. 王开云,孔思淇,付云生,潘泽友,马卫东,赵强. 计算机研究与发展. 2013(11)
[5]基于HTTP协议的POST数据分析与还原[J]. 陈雷,刘嘉勇. 通信技术. 2011(04)
[6]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[7]基于关联规则的高校课程关联性分析[J]. 邓砚谷,佘颖. 现代教育技术. 2010(05)
[8]TCP协议简述与三次握手原理解析[J]. 朱晶. 电脑知识与技术. 2009(05)
[9]Cookie技术在Web日志挖掘预处理中的应用[J]. 周增国,庞有军. 大连大学学报. 2006(02)
[10]基于有向图的对象范式生成算法[J]. 刘国华,汪卫,张亮,施伯乐. 软件学报. 2004(05)
硕士论文
[1]多社交网络用户身份识别算法研究[D]. 孟波.大连理工大学 2015
[2]支持向量机增量学习算法研究[D]. 李金凤.中南民族大学 2011
本文编号:2897175
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2897175.html