面向银行内网日志的用户异常行为检测模型设计与实现
发布时间:2021-08-30 02:59
随着银行IT业务的不断扩展,数据中心的各种设备数量越来越庞大,庞大且异构的各种软硬件设备集群日夜不停的工作运转,对网络的安全管理工作提出了更高的要求。用户行为分析是网络安全管理工作中非常重要的一环,是挖掘内网中风险信息的主要手段。目前银行在进行用户异常行为分析时普遍采用的方法是构建规则库,规则库设置严谨,内容可解释性强,具有更好的针对性。但是庞大的规则库规则构建复杂、过于依靠专业人员的经验、且无法深度挖掘用户行为等缺点,导致难以应付日益复杂的内网环境。因此需要一个更好的方法代替现有的规则库方法。本文依托于某安全领域公司为某银行开发的网络安全管理平台项目,研究了告警模块中的用户行为分析的相关方法,设计并实现了词向量+梯度提升决策树的分类模型和自回归预测模型以互补的方式,分别在实时逐条过滤的角度和分析统计信息的角度对银行数据中心的各种设备产生的日志数据进行分析,挖掘行为异常的用户,找出可能的风险行为,为网络安全管理人员提供决策信息。作者主要完成的工作如下:1.分析Syslog协议格式的日志MSG内容部分,创建个性化的词库训练Word2Vecter词向量;2.实现梯度提升决策树实时的对每一条...
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:72 页
【学位级别】:硕士
【图文】:
图1.1本文工作的具体范围??
UTPUT??W<t_2)?\?J?w(t-2)??:?’?\?/?^ ̄??「\?/「??w{M)!?\?\?j?4'??——?_?」/l?? ̄[?I ̄?i ̄ ̄I? ̄1/??J?1?W(t}?W{t);?????[???I?L?????...,?丨?I??k\??—Z’/?\\?1? ̄ ̄I??W{t+1)?’?f?\?|w(t+1)??一?/?\?u??wCt-^21?!?^?|w(!+2)??CBOW?Skip-gram??图2.?2?fford2Vecter网络结构图[32]??Figure2.2?Word2Vecter?Network?Structure|32]??12??
?第2章日志数据与训练模型介绍???平稳非白噪声序列?? ̄?1??计算?ACF,PACF??1??选择模型阶数?&??r?-?■?^???\??I?5角定模型参数值?'??、聋j??\??使用模型??图2.?4自回归模型建模流程??Figure2.4?Autoregressive?Modeling?Process??使用AR?(p)模型对平稳非白噪声序列建模的步骤如图2.?4所示:??1)?计算序列的自相关系数(ACF)和偏自相关系数(PACF)。??2)?分析自相关系数和偏自相关系数的拖尾和截尾性,选择合适的模型??及其阶数(本文确定的是使用AR模型)。??3)?估计模型的参数值。??4)?检验模型的效果,根据结果选择返回步骤2)或是进行下一步。??5)?模型的优化,可以估计多组参数值,建立多个模型,从模型中选择??最优的模型使用。??6)?使用模型。??以上步骤中,不难看出计算序列的自相关系数和偏自相关系数是训练模型的??关键步骤,第(2)步等之后的步骤都需要在这一步的前提下才能继续操作。??求解序列的自相关系数公式如下:??Pu?=?S;变恐?V0?<k<n?…(2J0)??23??
【参考文献】:
期刊论文
[1]一种基于深度学习的中文文本特征提取与分类方法[J]. 曹鲁慧,邓玉香,陈通,李钊. 山东科学. 2019(06)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]基于Syslog的网络日志管理平台[J]. 刘磊,孙路强,周利霞,许贺. 电子技术与软件工程. 2019(05)
[4]一种基于集成学习的入侵检测算法[J]. 黄金超,马颖华,齐开悦,李怡晨,夏元轶. 上海交通大学学报. 2018(10)
[5]面向微博短文本分类的文本向量化方法比较研究[J]. 李心蕾,王昊,刘小敏,邓三鸿. 数据分析与知识发现. 2018(08)
[6]基于TF-IDF逻辑回归算法的Web攻击行为检测方法研究[J]. 郭晓明,孙丹. 科技广场. 2017(06)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]分布式I/O日志收集系统的设计与实现[J]. 詹玲,马骏,陈伯江,陈维梁,吕睿. 计算机工程与应用. 2010(36)
[9]模糊C均值聚类与硬聚类的性能比较及改进[J]. 杨建. 电脑知识与技术. 2008(S2)
博士论文
[1]基于行为特征的海量Web流量的识别与分析[D]. 桂小林.北京邮电大学 2016
硕士论文
[1]时间序列异常子序列检测算法研究[D]. 尹奥.哈尔滨工业大学 2019
[2]基于Android日志的APP用户行为分析研究与实现[D]. 李冰.北京邮电大学 2018
[3]基于时间序列数据挖掘的日志分析技术的研究[D]. 王陈.北京交通大学 2018
[4]基于词向量的搜索词分类、聚类研究[D]. 杨河彬.华东师范大学 2015
[5]基于日志特征的异常检测系统的设计与实现[D]. 刘凯.西安电子科技大学 2014
本文编号:3371923
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:72 页
【学位级别】:硕士
【图文】:
图1.1本文工作的具体范围??
UTPUT??W<t_2)?\?J?w(t-2)??:?’?\?/?^ ̄??「\?/「??w{M)!?\?\?j?4'??——?_?」/l?? ̄[?I ̄?i ̄ ̄I? ̄1/??J?1?W(t}?W{t);?????[???I?L?????...,?丨?I??k\??—Z’/?\\?1? ̄ ̄I??W{t+1)?’?f?\?|w(t+1)??一?/?\?u??wCt-^21?!?^?|w(!+2)??CBOW?Skip-gram??图2.?2?fford2Vecter网络结构图[32]??Figure2.2?Word2Vecter?Network?Structure|32]??12??
?第2章日志数据与训练模型介绍???平稳非白噪声序列?? ̄?1??计算?ACF,PACF??1??选择模型阶数?&??r?-?■?^???\??I?5角定模型参数值?'??、聋j??\??使用模型??图2.?4自回归模型建模流程??Figure2.4?Autoregressive?Modeling?Process??使用AR?(p)模型对平稳非白噪声序列建模的步骤如图2.?4所示:??1)?计算序列的自相关系数(ACF)和偏自相关系数(PACF)。??2)?分析自相关系数和偏自相关系数的拖尾和截尾性,选择合适的模型??及其阶数(本文确定的是使用AR模型)。??3)?估计模型的参数值。??4)?检验模型的效果,根据结果选择返回步骤2)或是进行下一步。??5)?模型的优化,可以估计多组参数值,建立多个模型,从模型中选择??最优的模型使用。??6)?使用模型。??以上步骤中,不难看出计算序列的自相关系数和偏自相关系数是训练模型的??关键步骤,第(2)步等之后的步骤都需要在这一步的前提下才能继续操作。??求解序列的自相关系数公式如下:??Pu?=?S;变恐?V0?<k<n?…(2J0)??23??
【参考文献】:
期刊论文
[1]一种基于深度学习的中文文本特征提取与分类方法[J]. 曹鲁慧,邓玉香,陈通,李钊. 山东科学. 2019(06)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]基于Syslog的网络日志管理平台[J]. 刘磊,孙路强,周利霞,许贺. 电子技术与软件工程. 2019(05)
[4]一种基于集成学习的入侵检测算法[J]. 黄金超,马颖华,齐开悦,李怡晨,夏元轶. 上海交通大学学报. 2018(10)
[5]面向微博短文本分类的文本向量化方法比较研究[J]. 李心蕾,王昊,刘小敏,邓三鸿. 数据分析与知识发现. 2018(08)
[6]基于TF-IDF逻辑回归算法的Web攻击行为检测方法研究[J]. 郭晓明,孙丹. 科技广场. 2017(06)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]分布式I/O日志收集系统的设计与实现[J]. 詹玲,马骏,陈伯江,陈维梁,吕睿. 计算机工程与应用. 2010(36)
[9]模糊C均值聚类与硬聚类的性能比较及改进[J]. 杨建. 电脑知识与技术. 2008(S2)
博士论文
[1]基于行为特征的海量Web流量的识别与分析[D]. 桂小林.北京邮电大学 2016
硕士论文
[1]时间序列异常子序列检测算法研究[D]. 尹奥.哈尔滨工业大学 2019
[2]基于Android日志的APP用户行为分析研究与实现[D]. 李冰.北京邮电大学 2018
[3]基于时间序列数据挖掘的日志分析技术的研究[D]. 王陈.北京交通大学 2018
[4]基于词向量的搜索词分类、聚类研究[D]. 杨河彬.华东师范大学 2015
[5]基于日志特征的异常检测系统的设计与实现[D]. 刘凯.西安电子科技大学 2014
本文编号:3371923
本文链接:https://www.wllwen.com/guanlilunwen/bankxd/3371923.html