当前位置:主页 > 管理论文 > 移动网络论文 >

基于行为相似性的网络用户识别系统设计与实现

发布时间:2020-09-29 20:50
   社交网络用户身份识别是网络用户研究的一个重要领域,在跟踪用户行为、检测非法活动中发挥着重要的作用。然而在现有的用户识别方法中,用户信息的收集存在一定困难,因此大部分方法属于课题研究,处理数据量较少,难以用于实际工程领域。现有方法的识别准确率有待提高。因此对网络用户识别算法进行研究,设计实现一套能够应对大规模数据处理的高精度的网络用户识别系统成为了一个重要的研究方向。本文对网络用户识别中的Learning from Positive and Unlabled Example(PU_learning)算法进行了研究和改进,并设计实现了一套基于行为相似性的网络用户识别系统。本文所做的工作及取得的成果如下:(1)在充分调研网络用户识别、机器学习等相关算法和技术的基础上,理清现有方法与技术的不足,重点研究了半监督学习领域的应用。(2)改进了 PU_learning算法。从时间和空间的角度出发设计用户行为特征,将传统的PU_learning算法与GBDT(梯度提升决策树)结合,以迭代训练的方式逐步提高模型精度,用于识别跨平台的网络用户。实验结果表明,改进后PU_learning算法的准确率、召回率分别有1%、3%的提升。(3)设计实现了基于行为相似性的网络用户识别系统。从原始流量捕获出发,设计实现了流量捕获、用户信息匹配、模型训练与预测模块,重点解决了用户信息匹配模块中的HTTP流还原问题和模型训练与预测模块中ETL特征提取和模型训练精度提升问题。在大数据背景下,引入了 Hadoop和Hive作为数据的处理平台与工具,保证了系统高效稳定的运行。(4)对系统各功能模块进行测试。结果表明,基于行为相似性的网络用户识别系统功能稳定,识别结果准确。用户信息匹配过程中流量解析速率达到1.6Mbit/s左右,ETL能在一小时内处理两个千万数据级别的网络平台特征数据提取。本文对基于行为相似性的网络用户识别系统设计与实现过程中存在的问题进行了总结分析,提出了改进思路与方法,对后续工作提出了展望。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP393.0
【部分图文】:

分离平面,样本


基于行为相似性的网络用户识别系统算法设计,所占比例太大,样本比例严重不均衡,这两个方面成严重的影响。因此,若采用传统的PUJeaming算样本,一方面本身正样本数量远小于无标签样本,会引入更多噪声;另一方面朴素贝叶斯算法在小规模网络用户识别所面临的海量数据,会存在较大偏差。逡逑用于分类的本质,可以理解为就是在空间中构造一以将越多的正负样本分离开,就认为这个分类器的y邋.逡逑

数据分布,换行,特征值,样本


图3-5实验数据格式逡逑特征值之间以tab隔开,不同样本换行。数据格式适应于Python相关机器函数库对数据文件的读取支持。逡逑.2实验过程与结果逡逑在训练数据进入模型之前,需要对其做一些处理以保障结果准确性。主要个方面的处理。逡逑(1)在无标签样本的提取过程中,由于之前的处理过程,包括流量的采集,逡逑TP流重组,正则匹配写入Hive表,存在按照IP分组或者构建链表等相关,所以样本数据在Hive表中按照IP存在一定顺序进行排列。为保证训练样于IP分布均匀,分布区域更加广泛合理,在提取无标签样本参与训练的过,采用随机抽取的思想,利用shuffle函数过程从全排列中得到随机数组,数组下标从无标签样本中提取相应下标的数据,尽量保证数据分布均匀,具表性。逡逑(2)训练样本数不均衡,正样本较少而无标签样本数目很大。需要确定训练过程中合适的正样本和无标签样本的比例。一般而言,机器学习的正负

准确率,召回率,样本,回归树


图3-7正样本各项指标逡逑因此,实验中以1:3的比例提取训练样本。首先,所有未标记的样本被视本,并使用GBDT直接进行训练。正负样本的准确率和召回率如表3-1逦表3-1邋GBDT运行指标结果逦逡逑一类别邋准确率|召回率|邋F1指数逡逑0逦0.93逦0.97逦0.95逡逑逦1逦0.89逦0.78逦0.83逡逑GBDT每一棵子树虽然都为回归树,但设定阈值对回归值进行划分就可以树改为分类树,默认阈值为0.5。第一步GBDT模型为分类模型,得到有分类结果,即1或0,邋1代表判定为正,0代表判定为负。准确率召回标的统计也是基于将所有无标签样本视为负样本的基础,这里的0,实际的是无标签样本。由于实验的目的是获取属于同一用户的帐户对,因此此准确率和召回率实际意义其实只是一定程度上帮助衡量分类器的好坏。正25逡逑

【相似文献】

相关期刊论文 前10条

1 徐湛;;台区用户识别仪应用分析[J];计量与测试技术;2009年11期

2 ;用户识别卡里有什么[J];监督与选择;1998年12期

3 蔡秋芸;;脉冲载波技术在台区用户识别中的应用[J];科技创新导报;2010年24期

4 梁万荣;;载波技术在台区用户识别中的应用[J];农村电气化;2007年03期

5 梁万荣;;载波技术在台区用户识别中的应用[J];江西电力职业技术学院学报;2007年02期

6 朱皖宁;刘志昊;;基于量子计算的用户识别算法[J];电子学报;2018年01期

7 范荻;李绍山;李海涛;王卫;;台区用户识别仪关键技术应用研究[J];华北电力技术;2010年07期

8 原欣伟;杨少华;王超超;杜占河;;基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究[J];数据分析与知识发现;2017年11期

9 李楠;;基于改进PROMETHEE的领先用户识别方法[J];数学的实践与认识;2014年10期

10 艾达;罗爱平;;移动通信重入网用户识别算法分析研究[J];西安邮电学院学报;2012年03期

相关会议论文 前3条

1 童建刚;;计算机用户识别技术[A];第三次全国计算机安全技术交流会论文集[C];1988年

2 吕华辉;吴丹;;基于社交关系和语义特征的异常微博用户识别[A];2015电力行业信息化年会论文集[C];2015年

3 孙伟;周灿;徐春虎;房晨婕;张超;李占先;严纯华;;构筑具有用户识别能力的分子计算平台[A];中国化学会第26届学术年会无机与配位化学分会场论文集[C];2008年

相关重要报纸文章 前6条

1 康梁;帮用户识别耗材真伪[N];中华工商时报;2000年

2 本报记者 刘可;大数据如何支撑汽车产业未来[N];中华工商时报;2015年

3 赵慧玲 吴江;VPN放心用[N];中国计算机报;2001年

4 本报记者 张海燕;汽车大数据时代悄然来临[N];中国质量报;2015年

5 夏马江 整理;张小萍委员:建立和完善闽东政务官方微博[N];闽东日报;2016年

6 斯伦贝谢技术(亚洲)有限公司 杨凯莉;SIM卡与WAP应用的配合——WIM卡[N];中国电子报;2000年

相关博士学位论文 前3条

1 李楠;软件产品创新中的领先用户识别研究[D];东北财经大学;2012年

2 刘士喜;社会网络环境下基于信任关系的影响用户识别方法研究[D];合肥工业大学;2016年

3 杨波;大规模定制产品开发中的领先用户识别与参与行为研究[D];重庆大学;2011年

相关硕士学位论文 前10条

1 曾思源;基于行为相似性的网络用户识别系统设计与实现[D];北京邮电大学;2018年

2 李自豪;微博恶意用户识别方法的研究[D];北京交通大学;2017年

3 杨少华;在线创新社区领先用户识别研究[D];西安理工大学;2017年

4 陈晓萍;一种新的基于用户识别的图形口令机制的设计与实现[D];西安电子科技大学;2009年

5 赵建勋;微博恶意用户识别[D];北京交通大学;2016年

6 李桐;消费类软件产品的领先用户识别研究[D];东北财经大学;2013年

7 何荣华;智能云电视的用户识别系统设计与实现[D];大连理工大学;2014年

8 潘培龙;面向高速流量环境的网络用户识别技术研究[D];东南大学;2017年

9 李福明;基于海量信令数据的服务业线上活跃用户识别系统的设计与实现[D];北京邮电大学;2015年

10 田中生;基于影响力的社会网络关键用户识别方法研究[D];吉林大学;2015年



本文编号:2830242

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2830242.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b87fb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com