混合案例推理系统及其应用
发布时间:2021-07-27 07:17
案例推理(case-based reasoning)是一种基于人类认知模型的机器学习算法,其根据以往的案例或经验高效地解决类似的新问题,已被广泛应用于各个领域。但由于传统的案例推理系统在赋予特征权重方面存在权重失衡和过度依赖专家经验等局限,且随着案例库规模的不断增长,案例推理的效率也受到了限制。因此,本文针对传统案例推理的局限性,从特征加权和案例组织两个方面进行了研究,构建了混合案例推理系统。同时,将所构建的混合案例推理系统应用于公安应急预案生成,设计实现了公安智能应急预案系统。其主要创新和工作如下。首先,提出一种随机森林加权的KNN(k-Nearest Neighbor,K最近邻)算法。在分析研究案例推理基本原理和循环结构的基础上,针对传统案例推理系统特征加权方面的不足,在案例推理的案例检索阶段引入随机森林算法,为案例检索的相似性度量算法提供合适的特征权重。通过实验对所提出算法的性能进行测试,实验结果证明所提出算法具有更高的准确度。其次,利用改进的动态分层自组织映射算法对案例推理系统进行优化。由于传统案例推理系统在案例检索时,需将新案例与案例库中所有历史案例进行相似性度量,导致案例检...
【文章来源】:中国人民公安大学北京市
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
案例推理运作流程
随机森林算法是2001年由Breiman[31]提出的一种基于决策树的算法,其可以用于处理分类和回归问题。随机森林是利用bootstrap的方法从原数据集中有放回的抽取样本构成K个子数据集,构成K棵决策树,然后选取样本的部分特征进行分裂,每次分裂均选择最好的特征,直至该节点的所有训练样本都属于同一类,训练完成的决策树组成的决策森林,但每棵决策树之间没有关联。当输入一个新的样本时,就让随机森林中的每一棵决策树对它进行判断,最后大多数决策树将它判断为哪一类,就预测它是哪一类,并输出类别。随机森林算法相比普通决策树不容易陷入过拟合,并且具有良好的抗噪性、训练速度快,能够处理高维数据等优点[32]。图3.1是随机森林的分类示意图。信息增益是随机森林中决策树分裂属性常用的选择度量。介绍信息增益就必须先介绍信息不确定性度量单位:信息熵,其计算方式如公式3.2所示:
实验将对KNN算法、决策树加权KNN算法(Tree_KNN)与所提出的随机森林加权KNN算法(Rf_KNN)的分类性能进行对比分析,其中决策树加权KNN算法是使用普通决策树算法为KNN算法计算特征权重。实验使用准确度、F1值、AUC值三种分类器度量指标对三种算法的性能进行度量,并对三种算法在最佳K值处的三种度量值进行对比分析。图3.2中的三幅折线图分别表示三种算法在肝炎数据集上的准确度、F1值、AUC值表现,其中横坐标为K值,纵坐标分为准确度、F1值、AUC值。图3.3中的三幅折线图分别表示三种算法在山谷噪音数据集上的准确度、F1值、AUC值表现,其中横坐标为K值,纵坐标分别为准确度、F1值、AUC值。图3.4中的三幅折线图分别表示三种算法在印度肝病患者数据集上的准确度、F1值、AUC值表现,横坐标为K值,纵坐标分别为准确度、F1值、AUC值。图3.5中的三幅折线图分别表示三种算法在超声波诊断数据集上的准确度、F1值、AUC值表现,横坐标为K值,纵坐标分别为准确度、F1值、AUC值。在图3.2、图3.3、图3.4、图3.5中点线代表KNN算法,虚线代表决策树加权KNN算法,实线代表随机森林加权KNN算法。图3.3 三种算法在山谷噪音数据集上的准确度、F1值、AUC值表现
【参考文献】:
期刊论文
[1]基于数据分析的高血压中医智能诊疗专家系统设计[J]. 刘健,蒋卫民,沈宫建. 北京中医药. 2019(09)
[2]应急预案管理系统设计与实现[J]. 崔浩,卜凡亮,李锦涛. 软件导刊. 2018(12)
[3]公安应急预案与辅助决策平台设计与实现[J]. 蔡胜胜,卜凡亮. 智能计算机与应用. 2019(01)
[4]煤矿智能应急预案生成系统设计与关键技术[J]. 杨梦,周恩波. 煤矿安全. 2018(07)
[5]公路突发事件应急预案自动生成系统开发及应用[J]. 刘君,胡伟超,孙广林. 中国安全生产科学技术. 2017(10)
[6]智能预案信息化在公安行业的研究与应用[J]. 何芬. 中国安全防范认证. 2017(05)
[7]基于案例推理的群体性事件智能决策支持WEB系统研究[J]. 张双狮,兰月新,刘冰月,夏一雪,张鹏. 情报杂志. 2017(04)
[8]基于随机森林的不平衡特征选择算法[J]. 尹华,胡玉平. 中山大学学报(自然科学版). 2014(05)
[9]基于改进的GHSOM的入侵检测研究[J]. 杨雅辉,姜电波,沈晴霓,夏敏. 通信学报. 2011(01)
[10]基于事例的推理(CBR)研究综述[J]. 郭艳红,邓贵仕. 计算机工程与应用. 2004(21)
硕士论文
[1]公安应急预案数字化管理平台的设计与实现[D]. 崔浩.中国人民公安大学 2019
本文编号:3305354
【文章来源】:中国人民公安大学北京市
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
案例推理运作流程
随机森林算法是2001年由Breiman[31]提出的一种基于决策树的算法,其可以用于处理分类和回归问题。随机森林是利用bootstrap的方法从原数据集中有放回的抽取样本构成K个子数据集,构成K棵决策树,然后选取样本的部分特征进行分裂,每次分裂均选择最好的特征,直至该节点的所有训练样本都属于同一类,训练完成的决策树组成的决策森林,但每棵决策树之间没有关联。当输入一个新的样本时,就让随机森林中的每一棵决策树对它进行判断,最后大多数决策树将它判断为哪一类,就预测它是哪一类,并输出类别。随机森林算法相比普通决策树不容易陷入过拟合,并且具有良好的抗噪性、训练速度快,能够处理高维数据等优点[32]。图3.1是随机森林的分类示意图。信息增益是随机森林中决策树分裂属性常用的选择度量。介绍信息增益就必须先介绍信息不确定性度量单位:信息熵,其计算方式如公式3.2所示:
实验将对KNN算法、决策树加权KNN算法(Tree_KNN)与所提出的随机森林加权KNN算法(Rf_KNN)的分类性能进行对比分析,其中决策树加权KNN算法是使用普通决策树算法为KNN算法计算特征权重。实验使用准确度、F1值、AUC值三种分类器度量指标对三种算法的性能进行度量,并对三种算法在最佳K值处的三种度量值进行对比分析。图3.2中的三幅折线图分别表示三种算法在肝炎数据集上的准确度、F1值、AUC值表现,其中横坐标为K值,纵坐标分为准确度、F1值、AUC值。图3.3中的三幅折线图分别表示三种算法在山谷噪音数据集上的准确度、F1值、AUC值表现,其中横坐标为K值,纵坐标分别为准确度、F1值、AUC值。图3.4中的三幅折线图分别表示三种算法在印度肝病患者数据集上的准确度、F1值、AUC值表现,横坐标为K值,纵坐标分别为准确度、F1值、AUC值。图3.5中的三幅折线图分别表示三种算法在超声波诊断数据集上的准确度、F1值、AUC值表现,横坐标为K值,纵坐标分别为准确度、F1值、AUC值。在图3.2、图3.3、图3.4、图3.5中点线代表KNN算法,虚线代表决策树加权KNN算法,实线代表随机森林加权KNN算法。图3.3 三种算法在山谷噪音数据集上的准确度、F1值、AUC值表现
【参考文献】:
期刊论文
[1]基于数据分析的高血压中医智能诊疗专家系统设计[J]. 刘健,蒋卫民,沈宫建. 北京中医药. 2019(09)
[2]应急预案管理系统设计与实现[J]. 崔浩,卜凡亮,李锦涛. 软件导刊. 2018(12)
[3]公安应急预案与辅助决策平台设计与实现[J]. 蔡胜胜,卜凡亮. 智能计算机与应用. 2019(01)
[4]煤矿智能应急预案生成系统设计与关键技术[J]. 杨梦,周恩波. 煤矿安全. 2018(07)
[5]公路突发事件应急预案自动生成系统开发及应用[J]. 刘君,胡伟超,孙广林. 中国安全生产科学技术. 2017(10)
[6]智能预案信息化在公安行业的研究与应用[J]. 何芬. 中国安全防范认证. 2017(05)
[7]基于案例推理的群体性事件智能决策支持WEB系统研究[J]. 张双狮,兰月新,刘冰月,夏一雪,张鹏. 情报杂志. 2017(04)
[8]基于随机森林的不平衡特征选择算法[J]. 尹华,胡玉平. 中山大学学报(自然科学版). 2014(05)
[9]基于改进的GHSOM的入侵检测研究[J]. 杨雅辉,姜电波,沈晴霓,夏敏. 通信学报. 2011(01)
[10]基于事例的推理(CBR)研究综述[J]. 郭艳红,邓贵仕. 计算机工程与应用. 2004(21)
硕士论文
[1]公安应急预案数字化管理平台的设计与实现[D]. 崔浩.中国人民公安大学 2019
本文编号:3305354
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3305354.html