基于话单大数据的诈骗电话识别与响应模型研究
发布时间:2020-11-11 00:33
目前,我国电信网络诈骗长期处于高发态势,人民群众财产安全面临严重威胁。其中,电话诈骗是最普遍、后果最严重的一种。但由于电话诈骗组织严密、诈骗手段隐蔽、犯罪涉案链条长,打击治理难;且对电话诈骗的事后打击并未达到治标治本的目标。如何在事前事中及时发现电话诈骗、阻止电话诈骗,防止电话诈骗的发生,将其对人民群众和社会的危害降到最低,就成为了一个非常重要的研究课题。本文从话单大数据的角度切入,通过数据挖掘的技术手段,对诈骗电话通话话单进行离线分析,构建诈骗电话识别与响应模型,识别出特定时间内的诈骗电话,为反电信网络诈骗平台提供有效的技术支撑。首先,实现了话单大数据的预处理。搭建了基于配置开放式的数据ETL架构,支撑了运营商将业务数据库中的MC话单数据保存到反电信网络诈骗中心的数据仓库中;基于PCA主成分分析法提取了MC话单数据的属性特征;通过号码所属类别对话单数据进行分类并增加了特征字段,实现了将通信运营商的MC话单数据处理为具有完备特征值的CDR话单数据。其次,提出了一种诈骗电话识别模型。提取了号码活跃度特征、号码通话行为特征、社交网络特征、配对特征、地区特征及虚拟配对特征,构建实施诈骗的行为事件流;基于随机森林算法离线训练得到诈骗电话识别模型,并通过调优测试提高了模型的性能。实现了诈骗电话的在线检测,基于Spark Streaming实时流框架,统计得到可疑号码通话行为特征,判定号码信用度;加载诈骗电话识别模型,通过建立公共分析逻辑、获取号码分析逻辑、获取通话记录分析逻辑,识别得到诈骗电话以及深浅度受害用户,并通过参数调优实验满足了大数据吞吐量需求。最后,提出了一种基于多方联动的诈骗电话响应模型。通过共享数据、协同处置,在电信网络诈骗的事前、事中、事后进行响应,通过阻止受害者受骗来降低诈骗分子的得逞率,保护人民群众财产安全。
【学位单位】:中国人民公安大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:D631.1
【部分图文】:
话单数据信网络中用户通信信号在移动台、基站、基站控制中心以及移实现对这些通信信号的分析、处理,引入一系列通信操作控制信道共用等。信令就是用来表示移动通信系统状态信息和完成方法。信系统的信令按应用范围可分为 MSC(Mobile Switching Cen与 PSTN(Public Switch Telephone Network,公用电话交换网令、MSC 与 BS(Base Station,基站)间的信令以及 MS(M BS 之间的信令等,各通信运营商公司的话单数据中均存储着数据成为分析识别诈骗电话的数据基础。移动为例,其上网日志留存系统的数据合成服务器以 CS(Circ MC 接口为规范,产生全量话单数据(以下简称 MC 话单)
图 2.2 随机森林分类结果判定2.待选特征的随机选取在待选特征的随机选取中采用随机子空间思想,即在对随机森林中的子决策树点进行分裂时,从全部属性中以同等概率随机抽取一个属性子集(通+ 1个属性, 为特征总数),再从该属性子集中选择一个最优属性对结裂。随机子空间采用随机的部分特征替代所有特征来对每个分类器进行训练,了分类器间的相关性,提升分类性能。如图 2.3 所示,白色方块代表所有可被选择的特征,即待选特征,黑色方块代征。左侧为一棵决策树的特征选取过程,通过在待选特征中选取最优的分裂特裂;右侧为一个随机森林中的子决策树的特征选取过程。
图 2.3 随机森林特征选择过程在 Python 环境下使用随机森林算法来构建数据分类模型时,通过引用 sklearn 成。以如下例子说明:特征是通过统计得到的 A、B、C 三个指标,训练样本的从2018年1月1日到2018年2月1日期间的A、B、C指标,训练样本的类别是1月1日到2018年2月1日期间通信号码为诈骗电话,若属于诈骗电话结果为Tr则为 False,测试样本是 2018 年 3 月 1 日当天的三个指标以及是否为诈骗电话。 Random Forest 判断的结果和实际是否属于诈骗电话情况相符,则输出 True,若果和实际情况不符,则输出False。从上述随机森林的基本工作原理的阐述可以看出,随机森林算法支持高度并行实现快速训练大数据级别的话单数据样本;且随机选择决策树节点来划分特征,单样本在特征维度较高的时候仍能保持模型的高效训练;采用随机采样,使得训模型方差小、泛化能力强;对部分特征缺失不敏感,对通信话单数据采集不完整错误等情况具有一定的容错性[30],因此在本文对诈骗电话识别模型的研究中采用
【参考文献】
本文编号:2878512
【学位单位】:中国人民公安大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:D631.1
【部分图文】:
话单数据信网络中用户通信信号在移动台、基站、基站控制中心以及移实现对这些通信信号的分析、处理,引入一系列通信操作控制信道共用等。信令就是用来表示移动通信系统状态信息和完成方法。信系统的信令按应用范围可分为 MSC(Mobile Switching Cen与 PSTN(Public Switch Telephone Network,公用电话交换网令、MSC 与 BS(Base Station,基站)间的信令以及 MS(M BS 之间的信令等,各通信运营商公司的话单数据中均存储着数据成为分析识别诈骗电话的数据基础。移动为例,其上网日志留存系统的数据合成服务器以 CS(Circ MC 接口为规范,产生全量话单数据(以下简称 MC 话单)
图 2.2 随机森林分类结果判定2.待选特征的随机选取在待选特征的随机选取中采用随机子空间思想,即在对随机森林中的子决策树点进行分裂时,从全部属性中以同等概率随机抽取一个属性子集(通+ 1个属性, 为特征总数),再从该属性子集中选择一个最优属性对结裂。随机子空间采用随机的部分特征替代所有特征来对每个分类器进行训练,了分类器间的相关性,提升分类性能。如图 2.3 所示,白色方块代表所有可被选择的特征,即待选特征,黑色方块代征。左侧为一棵决策树的特征选取过程,通过在待选特征中选取最优的分裂特裂;右侧为一个随机森林中的子决策树的特征选取过程。
图 2.3 随机森林特征选择过程在 Python 环境下使用随机森林算法来构建数据分类模型时,通过引用 sklearn 成。以如下例子说明:特征是通过统计得到的 A、B、C 三个指标,训练样本的从2018年1月1日到2018年2月1日期间的A、B、C指标,训练样本的类别是1月1日到2018年2月1日期间通信号码为诈骗电话,若属于诈骗电话结果为Tr则为 False,测试样本是 2018 年 3 月 1 日当天的三个指标以及是否为诈骗电话。 Random Forest 判断的结果和实际是否属于诈骗电话情况相符,则输出 True,若果和实际情况不符,则输出False。从上述随机森林的基本工作原理的阐述可以看出,随机森林算法支持高度并行实现快速训练大数据级别的话单数据样本;且随机选择决策树节点来划分特征,单样本在特征维度较高的时候仍能保持模型的高效训练;采用随机采样,使得训模型方差小、泛化能力强;对部分特征缺失不敏感,对通信话单数据采集不完整错误等情况具有一定的容错性[30],因此在本文对诈骗电话识别模型的研究中采用
【参考文献】
相关期刊论文 前7条
1 李祥池;;基于ELK和Spark Streaming的日志分析系统设计与实现[J];电子科学技术;2015年06期
2 周国民;陈光宣;周银座;;基于CDR分析的电信诈骗用户行为的研究[J];信息安全与通信保密;2015年11期
3 秦帅;陈刚;;近年来电信诈骗案件侦查研究综述[J];公安学刊(浙江警察学院学报);2015年03期
4 李欣海;;随机森林模型在分类与回归分析中的应用[J];应用昆虫学报;2013年04期
5 韩胜兵;;电信诈骗犯罪的起源、特点及防治[J];中国刑警学院学报;2013年02期
6 洪新德;姚理;;试论电信诈骗的类型及防控[J];长江大学学报(社会科学版);2010年06期
7 孙立智;;论网络犯罪及其侦查对策[J];湖北警官学院学报;2008年04期
本文编号:2878512
本文链接:https://www.wllwen.com/shekelunwen/gongan/2878512.html