基于密集子图的银行电信诈骗检测方法
发布时间:2021-08-05 22:47
目前银行对电信诈骗的标记数据积累少,人工标记数据的代价大,导致电信诈骗检测的有监督学习方法可使用的标记数据不足。针对这个问题,提出一种基于密集子图的无监督学习方法用于电信诈骗的检测。首先,通过在账户-资源(IP地址和MAC地址统称为资源)网络搜索可疑度较高的子图来识别欺诈账户;然后,设计了一种符合电信诈骗特性的子图可疑度量;最后,提出一种磁盘驻留、线性内存消耗且有理论保障的可疑子图搜索算法。在两组模拟数据集上,所提方法的F1-score分别达到0.921和0.861,高于CrossSpot、fBox和EvilCohort算法,与M-Zoom算法的0.899和0.898相近,但是所提方法的平均运行时间和内存消耗峰值均小于M-Zoom算法;在真实数据集上,所提方法的F1-score达到0.550,高于fBox和EvilCohort算法,与M-Zoom算法的0.529相近。实验结果表明,所提方法能较好地应用于现阶段的银行反电信诈骗业务,且非常适合于实际应用中的大规模数据集。
【文章来源】:计算机应用. 2019,39(04)北大核心CSCD
【文章页数】:6 页
【部分图文】:
电信诈骗的基本流程Fig.1Basicflowchartoftelecommunicationfraud
电信诈骗的检测可以从诈骗交易的特征、洗钱交易的特征和提现交易的特征三方面进行。本文从洗钱交易的特征入手,对欺诈者控制的账户的识别进行研究。本文经研究发现许多欺诈账户共用一组相同的互联网协议(InternetProtocol,IP)地址或者媒体访问控制(MediaAccessControl,MAC)地址,如图2(a)中显示的45个欺诈账户的IP地址使用情况;而图2(b)中正常账户使用的IP地址则比较分散。本文推测该现象产生的原因是欺诈者的人力、设备和网络资源通常有限,但是控制的欺诈账户和需要的洗钱交易数量都比较大。这就会造成部分欺诈账户使用相同的设备和网络资源进行交易的现象。图2正常账户和欺诈账户的不同IP使用特性Fig.2DifferentcharacteristicsofIPusageamongfraudaccountsandnormalaccounts本文根据上述现象,提出了一种符合电信诈骗特征的子图可疑度量,通过在账户-资源网络(IP地址和MAC地址统称为资源)搜索可疑度较高的子图来识别欺诈者控制的账户。1相关工作基于账户交易特征的有监督学习方法在银行欺诈检测中应用广泛。这类方法通过在大量已标记的数据中提取能够有效区分正常交易和欺诈交易的特征,例如交易频度、交易平均金额和交易网络结构等,并使用这些特征,通过机器学习的方法训练分类器,最终利用训练好的分类器来识别交易是否为欺诈交易。Jha等[1]提取了基于不同时间窗口的RFM(Recency,FrequencyandMonetary)特征用于训练逻辑回归分类模型,并以此模型来检测信用卡欺诈。vanVlasselaer等[2]在RFM特征中加了基于PageRank的交易网络结构特征,发现该特征可以提升模型的分?
然文献[13]称fBox能找出规模较小且密度较高的欺诈账户社区,但实际fBox只能有效地找到规模相对正常账户社区较小且密度较高的欺诈账户社区。M-Zoom的性能基本没有变化。Balanced-w和Biased-w的精准率与在模拟数据集1上的精准率基本一样,说明加权策略有效地解决了2.2节中所述的问题。图4~5显示了M-Zoom的密集子图搜索算法和DENSEST_SUBGRAPH算法的算法复杂度。实验中的图使用文献[20]方法生成,实验时保持p=0.001不变,然后逐步增加图中的节点数。图4显示了算法平均运行时间和|V||E|的关系,虽然DENSEST_SUBGRAPH算法在最坏情况下的时间复杂度是O(|V||E|),但是实际的平均运行时间要好于最坏的情况,且比M-Zoom的平均运行时间更短。图5显示了算法峰值内存消耗和|V|的关系,可以发现本文方法的内存消耗要小于M-Zoom。图4不同算法的时间复杂度对比Fig.4Timecomplexitycomparisonofdifferentalgorithms图5不同算法的空间复杂度对比Fig.5Spacecomplexitycomparisonofdifferentalgorithms3.2真实数据本节在真实数据上进行实验。数据由合作银行提供,包含从2016年1月1日至2017年7月1日的银行交易日志。去除如企业交易、内网交易等特殊交易后,数据基本情况见表2。由于银行提供的欺诈账户仅包含本行账户,而且非本行的账户交易的MAC地址和IP地址缺失,实验仅从本行账户中选取标记样本作为测试数据。测试数据选取195个已确认的本行欺诈账户和10000个已确认的本行正常账户作为标记样本,来测试不同算法对欺诈账户的识别性能。对比的算法去除了效果较差的
【参考文献】:
期刊论文
[1]基于交易网络特征向量中心度量的可疑洗钱识别系统[J]. 喻炜,王建东. 计算机应用. 2009(09)
本文编号:3324594
【文章来源】:计算机应用. 2019,39(04)北大核心CSCD
【文章页数】:6 页
【部分图文】:
电信诈骗的基本流程Fig.1Basicflowchartoftelecommunicationfraud
电信诈骗的检测可以从诈骗交易的特征、洗钱交易的特征和提现交易的特征三方面进行。本文从洗钱交易的特征入手,对欺诈者控制的账户的识别进行研究。本文经研究发现许多欺诈账户共用一组相同的互联网协议(InternetProtocol,IP)地址或者媒体访问控制(MediaAccessControl,MAC)地址,如图2(a)中显示的45个欺诈账户的IP地址使用情况;而图2(b)中正常账户使用的IP地址则比较分散。本文推测该现象产生的原因是欺诈者的人力、设备和网络资源通常有限,但是控制的欺诈账户和需要的洗钱交易数量都比较大。这就会造成部分欺诈账户使用相同的设备和网络资源进行交易的现象。图2正常账户和欺诈账户的不同IP使用特性Fig.2DifferentcharacteristicsofIPusageamongfraudaccountsandnormalaccounts本文根据上述现象,提出了一种符合电信诈骗特征的子图可疑度量,通过在账户-资源网络(IP地址和MAC地址统称为资源)搜索可疑度较高的子图来识别欺诈者控制的账户。1相关工作基于账户交易特征的有监督学习方法在银行欺诈检测中应用广泛。这类方法通过在大量已标记的数据中提取能够有效区分正常交易和欺诈交易的特征,例如交易频度、交易平均金额和交易网络结构等,并使用这些特征,通过机器学习的方法训练分类器,最终利用训练好的分类器来识别交易是否为欺诈交易。Jha等[1]提取了基于不同时间窗口的RFM(Recency,FrequencyandMonetary)特征用于训练逻辑回归分类模型,并以此模型来检测信用卡欺诈。vanVlasselaer等[2]在RFM特征中加了基于PageRank的交易网络结构特征,发现该特征可以提升模型的分?
然文献[13]称fBox能找出规模较小且密度较高的欺诈账户社区,但实际fBox只能有效地找到规模相对正常账户社区较小且密度较高的欺诈账户社区。M-Zoom的性能基本没有变化。Balanced-w和Biased-w的精准率与在模拟数据集1上的精准率基本一样,说明加权策略有效地解决了2.2节中所述的问题。图4~5显示了M-Zoom的密集子图搜索算法和DENSEST_SUBGRAPH算法的算法复杂度。实验中的图使用文献[20]方法生成,实验时保持p=0.001不变,然后逐步增加图中的节点数。图4显示了算法平均运行时间和|V||E|的关系,虽然DENSEST_SUBGRAPH算法在最坏情况下的时间复杂度是O(|V||E|),但是实际的平均运行时间要好于最坏的情况,且比M-Zoom的平均运行时间更短。图5显示了算法峰值内存消耗和|V|的关系,可以发现本文方法的内存消耗要小于M-Zoom。图4不同算法的时间复杂度对比Fig.4Timecomplexitycomparisonofdifferentalgorithms图5不同算法的空间复杂度对比Fig.5Spacecomplexitycomparisonofdifferentalgorithms3.2真实数据本节在真实数据上进行实验。数据由合作银行提供,包含从2016年1月1日至2017年7月1日的银行交易日志。去除如企业交易、内网交易等特殊交易后,数据基本情况见表2。由于银行提供的欺诈账户仅包含本行账户,而且非本行的账户交易的MAC地址和IP地址缺失,实验仅从本行账户中选取标记样本作为测试数据。测试数据选取195个已确认的本行欺诈账户和10000个已确认的本行正常账户作为标记样本,来测试不同算法对欺诈账户的识别性能。对比的算法去除了效果较差的
【参考文献】:
期刊论文
[1]基于交易网络特征向量中心度量的可疑洗钱识别系统[J]. 喻炜,王建东. 计算机应用. 2009(09)
本文编号:3324594
本文链接:https://www.wllwen.com/falvlunwen/xingfalunwen/3324594.html