基于行为相似性的网络用户识别系统设计与实现
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP393.0
【部分图文】:
基于行为相似性的网络用户识别系统算法设计,所占比例太大,样本比例严重不均衡,这两个方面成严重的影响。因此,若采用传统的PUJeaming算样本,一方面本身正样本数量远小于无标签样本,会引入更多噪声;另一方面朴素贝叶斯算法在小规模网络用户识别所面临的海量数据,会存在较大偏差。逡逑用于分类的本质,可以理解为就是在空间中构造一以将越多的正负样本分离开,就认为这个分类器的y邋.逡逑
图3-5实验数据格式逡逑特征值之间以tab隔开,不同样本换行。数据格式适应于Python相关机器函数库对数据文件的读取支持。逡逑.2实验过程与结果逡逑在训练数据进入模型之前,需要对其做一些处理以保障结果准确性。主要个方面的处理。逡逑(1)在无标签样本的提取过程中,由于之前的处理过程,包括流量的采集,逡逑TP流重组,正则匹配写入Hive表,存在按照IP分组或者构建链表等相关,所以样本数据在Hive表中按照IP存在一定顺序进行排列。为保证训练样于IP分布均匀,分布区域更加广泛合理,在提取无标签样本参与训练的过,采用随机抽取的思想,利用shuffle函数过程从全排列中得到随机数组,数组下标从无标签样本中提取相应下标的数据,尽量保证数据分布均匀,具表性。逡逑(2)训练样本数不均衡,正样本较少而无标签样本数目很大。需要确定训练过程中合适的正样本和无标签样本的比例。一般而言,机器学习的正负
图3-7正样本各项指标逡逑因此,实验中以1:3的比例提取训练样本。首先,所有未标记的样本被视本,并使用GBDT直接进行训练。正负样本的准确率和召回率如表3-1逦表3-1邋GBDT运行指标结果逦逡逑一类别邋准确率|召回率|邋F1指数逡逑0逦0.93逦0.97逦0.95逡逑逦1逦0.89逦0.78逦0.83逡逑GBDT每一棵子树虽然都为回归树,但设定阈值对回归值进行划分就可以树改为分类树,默认阈值为0.5。第一步GBDT模型为分类模型,得到有分类结果,即1或0,邋1代表判定为正,0代表判定为负。准确率召回标的统计也是基于将所有无标签样本视为负样本的基础,这里的0,实际的是无标签样本。由于实验的目的是获取属于同一用户的帐户对,因此此准确率和召回率实际意义其实只是一定程度上帮助衡量分类器的好坏。正25逡逑
【相似文献】
相关期刊论文 前10条
1 徐湛;;台区用户识别仪应用分析[J];计量与测试技术;2009年11期
2 ;用户识别卡里有什么[J];监督与选择;1998年12期
3 蔡秋芸;;脉冲载波技术在台区用户识别中的应用[J];科技创新导报;2010年24期
4 梁万荣;;载波技术在台区用户识别中的应用[J];农村电气化;2007年03期
5 梁万荣;;载波技术在台区用户识别中的应用[J];江西电力职业技术学院学报;2007年02期
6 朱皖宁;刘志昊;;基于量子计算的用户识别算法[J];电子学报;2018年01期
7 范荻;李绍山;李海涛;王卫;;台区用户识别仪关键技术应用研究[J];华北电力技术;2010年07期
8 原欣伟;杨少华;王超超;杜占河;;基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究[J];数据分析与知识发现;2017年11期
9 李楠;;基于改进PROMETHEE的领先用户识别方法[J];数学的实践与认识;2014年10期
10 艾达;罗爱平;;移动通信重入网用户识别算法分析研究[J];西安邮电学院学报;2012年03期
相关会议论文 前3条
1 童建刚;;计算机用户识别技术[A];第三次全国计算机安全技术交流会论文集[C];1988年
2 吕华辉;吴丹;;基于社交关系和语义特征的异常微博用户识别[A];2015电力行业信息化年会论文集[C];2015年
3 孙伟;周灿;徐春虎;房晨婕;张超;李占先;严纯华;;构筑具有用户识别能力的分子计算平台[A];中国化学会第26届学术年会无机与配位化学分会场论文集[C];2008年
相关重要报纸文章 前6条
1 康梁;帮用户识别耗材真伪[N];中华工商时报;2000年
2 本报记者 刘可;大数据如何支撑汽车产业未来[N];中华工商时报;2015年
3 赵慧玲 吴江;VPN放心用[N];中国计算机报;2001年
4 本报记者 张海燕;汽车大数据时代悄然来临[N];中国质量报;2015年
5 夏马江 整理;张小萍委员:建立和完善闽东政务官方微博[N];闽东日报;2016年
6 斯伦贝谢技术(亚洲)有限公司 杨凯莉;SIM卡与WAP应用的配合——WIM卡[N];中国电子报;2000年
相关博士学位论文 前3条
1 李楠;软件产品创新中的领先用户识别研究[D];东北财经大学;2012年
2 刘士喜;社会网络环境下基于信任关系的影响用户识别方法研究[D];合肥工业大学;2016年
3 杨波;大规模定制产品开发中的领先用户识别与参与行为研究[D];重庆大学;2011年
相关硕士学位论文 前10条
1 曾思源;基于行为相似性的网络用户识别系统设计与实现[D];北京邮电大学;2018年
2 李自豪;微博恶意用户识别方法的研究[D];北京交通大学;2017年
3 杨少华;在线创新社区领先用户识别研究[D];西安理工大学;2017年
4 陈晓萍;一种新的基于用户识别的图形口令机制的设计与实现[D];西安电子科技大学;2009年
5 赵建勋;微博恶意用户识别[D];北京交通大学;2016年
6 李桐;消费类软件产品的领先用户识别研究[D];东北财经大学;2013年
7 何荣华;智能云电视的用户识别系统设计与实现[D];大连理工大学;2014年
8 潘培龙;面向高速流量环境的网络用户识别技术研究[D];东南大学;2017年
9 李福明;基于海量信令数据的服务业线上活跃用户识别系统的设计与实现[D];北京邮电大学;2015年
10 田中生;基于影响力的社会网络关键用户识别方法研究[D];吉林大学;2015年
本文编号:2830242
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2830242.html