基于集成学习的异常电话识别分析与建模
发布时间:2021-11-22 02:14
通信以及网络技术的高速发展极大的丰富了人们的生活。但网络安全的漏洞造成了大量的个人信息泄漏,进而导致骚扰和诈骗电话等异常电话像病毒一样蔓延在人们的日常生活中。为了降低由异常电话带来的财产损失和困扰,许多研究人员提出了一些异常电话检测的解决方案。但是现有的工作更多的是关注人群的数据标注,忽略了特征挖掘的有效性和数据分布带来的影响。这些检测方法大多数为被动的检测,不能及时、主动的给出准确的预测。电信运营商通过构建数据中心存储了海量的电信用户行为记录,这些大数据为主动识别异常电话提供了新的机会。如何从海量数据中准确的获取能代表用户类别的用户行为特征、构建异常电话识别模型进而主动的识别异常电话,成为通信运营商和研究人员迫切关注的问题。本文研究了一种基于特征挖掘和集成学习技术相结合的异常电话检测模型,主要工作如下:1、提出一种电信数据预处理和特征提取分析方法(Data preprocessing and Feature extraction analysis,简称DF)来处理电信数据,并对用户历史行为数据进行特征提取、分析与特征降维。首先对电信样本数据进行预处理,并从七个大的维度充分挖掘电信用户...
【文章来源】:济南大学山东省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
整体研究框架
基于集成学习的异常电话识别分析与建模16全下实现多源异构电信数据的获取与融合,从而扩展了传统单一数据源分析方法,如图3.1所示。图3.1获取数据流程图项目的核心目标是以电信运营商数据中心为依托,以移动安全应用为重要补充,基于时间窗口内积累的电信大数据,探究异常电信用户的行为特征与通信机制。在前期多源异构数据接入与用户身份保护等数据基础工作完成下我们从运营商数据平台中获取了包括300000条的正常用户和520条确定的异常电话数据,数据样本分布如表3.1。本文将根据此数据展开一系列的研究和探索。表3.1电信数据集样本分布正常用户异常用户样本数量3000005203.2.2数据分析在运营商提供给我们的300000条正常用户中存在着一些不确定性。在用户数据中一些用户具备一些异常行为的属性但没有被发现被误当成了正常电话,另外有一些正常用户可能突变为异常电话但是没有被正确归类,我们将这种数据统一称为脏数据。因此,在研究中如何克服数据的不确定性,构建鲁棒性强、分类精准的异常电话模型是一个关键的问题。在获取的数据中有另外一个显著的特点为不平衡性。在运营商平台中有大量
基于集成学习的异常电话识别分析与建模18()0DiN=Lph(3-1)()1DiP=Lph(3-2)为了最大程度降低用户隐私泄露的风险,实验采用小样本的数据进行研究。由于真实电信样本中往往存在一些不能确定类别的“脏数据”,我们通过构建混合数据集的方式更真实的还原样本分布情况、构建抗干扰能力强的异常电话识别模型。从原始数据的300000条DN中随机抽取3000条dN放入新的数据集D中,从DP的520条数据样本中随机抽取100条混入dN中作为正常电信用户数据,混合后的正常电信用户表示为d"N,最后将剩下的420条DP放入数据集D中。具体的混合方式如图3.3所示。图3.3混合数据集流程图经过混合后的混合数据集D中有3100条Nd’,420条PD,如表3.2所示。通过混合数据集来更好的还原真实数据中正常用户数据中的“脏数据”的情况,训练异常电话识别模型,来增加模型的抗干扰能力以及鲁棒性。表3.2电信混合数据集样本分布DNd’PD样本数量31004203.2.4数据规范在构建混合集后,分析数据内容,整理重复和缺失数据,对数据特征缺失值进行填充。在本文所研究的异常电话识别中,对于电信用户,单一的指标不能够合理的评价用户类别,需要全面的多指标的来考虑。由于各个维度的指标的性质不同,通常具有不同的数据范围和数量级。在特征数据值水平范围相差较大的情况下,直接进行分析时数值
本文编号:3510726
【文章来源】:济南大学山东省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
整体研究框架
基于集成学习的异常电话识别分析与建模16全下实现多源异构电信数据的获取与融合,从而扩展了传统单一数据源分析方法,如图3.1所示。图3.1获取数据流程图项目的核心目标是以电信运营商数据中心为依托,以移动安全应用为重要补充,基于时间窗口内积累的电信大数据,探究异常电信用户的行为特征与通信机制。在前期多源异构数据接入与用户身份保护等数据基础工作完成下我们从运营商数据平台中获取了包括300000条的正常用户和520条确定的异常电话数据,数据样本分布如表3.1。本文将根据此数据展开一系列的研究和探索。表3.1电信数据集样本分布正常用户异常用户样本数量3000005203.2.2数据分析在运营商提供给我们的300000条正常用户中存在着一些不确定性。在用户数据中一些用户具备一些异常行为的属性但没有被发现被误当成了正常电话,另外有一些正常用户可能突变为异常电话但是没有被正确归类,我们将这种数据统一称为脏数据。因此,在研究中如何克服数据的不确定性,构建鲁棒性强、分类精准的异常电话模型是一个关键的问题。在获取的数据中有另外一个显著的特点为不平衡性。在运营商平台中有大量
基于集成学习的异常电话识别分析与建模18()0DiN=Lph(3-1)()1DiP=Lph(3-2)为了最大程度降低用户隐私泄露的风险,实验采用小样本的数据进行研究。由于真实电信样本中往往存在一些不能确定类别的“脏数据”,我们通过构建混合数据集的方式更真实的还原样本分布情况、构建抗干扰能力强的异常电话识别模型。从原始数据的300000条DN中随机抽取3000条dN放入新的数据集D中,从DP的520条数据样本中随机抽取100条混入dN中作为正常电信用户数据,混合后的正常电信用户表示为d"N,最后将剩下的420条DP放入数据集D中。具体的混合方式如图3.3所示。图3.3混合数据集流程图经过混合后的混合数据集D中有3100条Nd’,420条PD,如表3.2所示。通过混合数据集来更好的还原真实数据中正常用户数据中的“脏数据”的情况,训练异常电话识别模型,来增加模型的抗干扰能力以及鲁棒性。表3.2电信混合数据集样本分布DNd’PD样本数量31004203.2.4数据规范在构建混合集后,分析数据内容,整理重复和缺失数据,对数据特征缺失值进行填充。在本文所研究的异常电话识别中,对于电信用户,单一的指标不能够合理的评价用户类别,需要全面的多指标的来考虑。由于各个维度的指标的性质不同,通常具有不同的数据范围和数量级。在特征数据值水平范围相差较大的情况下,直接进行分析时数值
本文编号:3510726
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3510726.html