基于特征选择和超参数优化的恐怖袭击组织预测方法
发布时间:2021-09-21 22:48
针对恐怖袭击事件难以找到恐怖袭击组织以及恐怖袭击事件数据的样本不平衡问题,提出了一种基于特征选择和超参数优化的恐怖袭击组织预测方法。首先,利用随机森林(RF)在处理不平衡数据上的优势,通过RF迭代来进行后向特征选择;然后,利用决策树(DT)、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织进行分类预测,并利用贝叶斯优化方法对这些分类器进行超参数优化;最后,利用全球恐怖主义数据库(GTD)评价了这些分类器在多数类样本和少数类样本上的分类预测性能。实验结果表明:所提方法提高了对恐怖袭击组织的分类预测性能,其中使用RF和Bagging时的分类预测性能最佳,准确率分别达到0.8239和0.8316,特别是在少数类样本上的分类预测性能有明显提高。
【文章来源】:计算机应用. 2020,40(08)北大核心CSCD
【文章页数】:6 页
【部分图文】:
恐怖袭击组织预测模型
这43 335个样本的恐怖袭击组织个数为826,其中每个恐怖袭击组织的样本个数(即每个恐怖袭击组织的袭击次数)最小为2,最大为6 310,且差异很大,如图2所示。因此,这43 335个样本是一个不平衡数据集。从图2数据统计分析可知,样本个数为100及以上的恐怖袭击组织有56个,但是总样本个数为34 374,属于多数类样本;而样本个数为100以下的恐怖袭击组织有770个之多,但是总样本个数只有9 151,属于少数类样本;特别地,样本个数为20及以下的恐怖袭击组织有641个之多,但是总样本个数只有3 519。
从图3可知,在进行特征选择和超参数优化后,在不同样本分段上,使用这四个分类器的分类预测精确度、召回率和F1分数都有相应的提高。特别地,在少数类样本分段上,RF和Bagging的分类预测精确度、召回率和F1分数均提高明显,优于DT和XGBoost。因此,通过特征选择和超参数优化,可以提高DT、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织的分类预测准确率、精确度、召回率和F1分数,其中RF和Bagging对恐怖袭击组织的分类预测准确率分别达到0.823 9和0.831 6,并且在少数类样本分段上对恐怖袭击组织的精确度、召回率和F1分数有明显的提高。10折交叉验证法[14]和随机过采样[30]是缓解数据不平衡问题的常用方法。为了与本文方法进行对比,针对数据预处理后的数据集,首先分别进行10折交叉验证和随机过采样(70%为训练集,30%为测试集),然后使用DT、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织进行分类预测,并进行超参数优化。表4为三种方法的准确率对比,可以看出,在按本文方法进行特征选择和超参数优化后,四种主流分类器的预测准确率要高于使用10折交叉验证法+超参数优化,以及使用随机过采样+超参数优化的方法。
【参考文献】:
期刊论文
[1]基于机器学习的恐怖分子预测算法[J]. 李慧,张南南,曹卓,郑海,陈湘萍. 计算机工程. 2020(02)
[2]基于HMIGW特征选择和XGBoost的毕业生就业预测方法[J]. 李琦,孙咏,焦艳菲,高岑,王美吉. 计算机系统应用. 2019(06)
[3]基于特征选择和XGBoost的风机叶片结冰预测[J]. 曹渝昆,朱萌,王晓飞. 电气自动化. 2019(03)
[4]基于PCA的决策树优化算法[J]. 谢霖铨,徐浩,陈希邦,赵楠. 软件导刊. 2019(09)
[5]机器学习分类问题及算法研究综述[J]. 杨剑锋,乔佩蕊,李永梅,王宁. 统计与决策. 2019(06)
[6]未来反恐态势预测研究[J]. 冒伟. 软件导刊. 2019(07)
[7]基于改进集成学习算法的在线空气质量预测[J]. 夏润,张晓龙. 武汉科技大学学报. 2019(01)
[8]我国反恐问题定量分析研究综述[J]. 王一伊. 情报杂志. 2017(11)
[9]基于贝叶斯方法和变化表的恐怖行为预测算法[J]. 薛安荣,毛文渊,王孟頔,陈泉浈. 计算机科学. 2016(12)
[10]用于分类的随机森林和Bagging分类树比较[J]. 马景义,谢邦昌. 统计与信息论坛. 2010(10)
硕士论文
[1]基于机器学习的中文期刊论文自动分类研究[D]. 叶鹏.南京大学 2013
本文编号:3402644
【文章来源】:计算机应用. 2020,40(08)北大核心CSCD
【文章页数】:6 页
【部分图文】:
恐怖袭击组织预测模型
这43 335个样本的恐怖袭击组织个数为826,其中每个恐怖袭击组织的样本个数(即每个恐怖袭击组织的袭击次数)最小为2,最大为6 310,且差异很大,如图2所示。因此,这43 335个样本是一个不平衡数据集。从图2数据统计分析可知,样本个数为100及以上的恐怖袭击组织有56个,但是总样本个数为34 374,属于多数类样本;而样本个数为100以下的恐怖袭击组织有770个之多,但是总样本个数只有9 151,属于少数类样本;特别地,样本个数为20及以下的恐怖袭击组织有641个之多,但是总样本个数只有3 519。
从图3可知,在进行特征选择和超参数优化后,在不同样本分段上,使用这四个分类器的分类预测精确度、召回率和F1分数都有相应的提高。特别地,在少数类样本分段上,RF和Bagging的分类预测精确度、召回率和F1分数均提高明显,优于DT和XGBoost。因此,通过特征选择和超参数优化,可以提高DT、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织的分类预测准确率、精确度、召回率和F1分数,其中RF和Bagging对恐怖袭击组织的分类预测准确率分别达到0.823 9和0.831 6,并且在少数类样本分段上对恐怖袭击组织的精确度、召回率和F1分数有明显的提高。10折交叉验证法[14]和随机过采样[30]是缓解数据不平衡问题的常用方法。为了与本文方法进行对比,针对数据预处理后的数据集,首先分别进行10折交叉验证和随机过采样(70%为训练集,30%为测试集),然后使用DT、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织进行分类预测,并进行超参数优化。表4为三种方法的准确率对比,可以看出,在按本文方法进行特征选择和超参数优化后,四种主流分类器的预测准确率要高于使用10折交叉验证法+超参数优化,以及使用随机过采样+超参数优化的方法。
【参考文献】:
期刊论文
[1]基于机器学习的恐怖分子预测算法[J]. 李慧,张南南,曹卓,郑海,陈湘萍. 计算机工程. 2020(02)
[2]基于HMIGW特征选择和XGBoost的毕业生就业预测方法[J]. 李琦,孙咏,焦艳菲,高岑,王美吉. 计算机系统应用. 2019(06)
[3]基于特征选择和XGBoost的风机叶片结冰预测[J]. 曹渝昆,朱萌,王晓飞. 电气自动化. 2019(03)
[4]基于PCA的决策树优化算法[J]. 谢霖铨,徐浩,陈希邦,赵楠. 软件导刊. 2019(09)
[5]机器学习分类问题及算法研究综述[J]. 杨剑锋,乔佩蕊,李永梅,王宁. 统计与决策. 2019(06)
[6]未来反恐态势预测研究[J]. 冒伟. 软件导刊. 2019(07)
[7]基于改进集成学习算法的在线空气质量预测[J]. 夏润,张晓龙. 武汉科技大学学报. 2019(01)
[8]我国反恐问题定量分析研究综述[J]. 王一伊. 情报杂志. 2017(11)
[9]基于贝叶斯方法和变化表的恐怖行为预测算法[J]. 薛安荣,毛文渊,王孟頔,陈泉浈. 计算机科学. 2016(12)
[10]用于分类的随机森林和Bagging分类树比较[J]. 马景义,谢邦昌. 统计与信息论坛. 2010(10)
硕士论文
[1]基于机器学习的中文期刊论文自动分类研究[D]. 叶鹏.南京大学 2013
本文编号:3402644
本文链接:https://www.wllwen.com/shekelunwen/waijiao/3402644.html