混合采样方法的研究及其在医疗问答系统中的应用
发布时间:2021-04-14 11:56
随着机器学习与数据挖掘领域的迅速发展,不平衡数据集分类已经成为当前的研究热点之一。在实际应用中经常遇到数据集不平衡问题,比如:医疗诊断、欺诈检测、地震预测等,如何提高正类样本的分类精度是研究的重点。大部分分类算法往往会偏向负类,而对正类识别率却很低。在深入分析了不平衡数据处理方法及医疗问答系统的基础上,本文在二分类不平衡数据集上,提出了基于样本细分的混合采样算法(Hybrid Sampling Algorithm Based On Sample Subdivision),简称SS-HSA算法,并研究了该算法在医疗问答系统中的应用。本文主要内容包括:(1)详细分析了ENN(Edited Nearest Neighbor)欠采样、Borderline-SMOTE过采样、Random-SMOTE+ENN混合采样、ISMOTE过采样算法,为本文提出的SS-HSA算法提供理论基础。(2)基于样本细分的混合采样算法,本文在数据层面提出的SS-HSA算法结合了Borderline-SMOTE、ISMOTE过采样算法以及ENN欠采样算法的优点,同时加入了样本细分的思想。一方面,对生成的样本数量精细控制...
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
采样前分类效果图
采样后分类效果图
原始数据集的分布
【参考文献】:
期刊论文
[1]知识图谱发展与构建的研究进展[J]. 朱木易洁,鲍秉坤,徐常胜. 南京信息工程大学学报(自然科学版). 2017(06)
[2]基于邻域混合抽样和动态集成的不平衡数据分类方法[J]. 高锋,黄海燕. 计算机科学. 2017(08)
[3]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[4]面向不均衡数据集中少数类细分的过采样算法[J]. 古平,杨炀. 计算机工程. 2017(02)
[5]不平衡数据集的混合采样方法[J]. 尚旭. 数字技术与应用. 2016 (12)
[6]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[7]基于混合采样的非平衡数据集分类研究[J]. 古平,欧阳源遊. 计算机应用研究. 2015(02)
[8]基于改进SMOTE的非平衡数据集分类研究[J]. 王超学,潘正茂,董丽丽,马春森,张星. 计算机工程与应用. 2013(02)
[9]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军. 计算机应用. 2011(09)
[10]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
本文编号:3137273
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
采样前分类效果图
采样后分类效果图
原始数据集的分布
【参考文献】:
期刊论文
[1]知识图谱发展与构建的研究进展[J]. 朱木易洁,鲍秉坤,徐常胜. 南京信息工程大学学报(自然科学版). 2017(06)
[2]基于邻域混合抽样和动态集成的不平衡数据分类方法[J]. 高锋,黄海燕. 计算机科学. 2017(08)
[3]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[4]面向不均衡数据集中少数类细分的过采样算法[J]. 古平,杨炀. 计算机工程. 2017(02)
[5]不平衡数据集的混合采样方法[J]. 尚旭. 数字技术与应用. 2016 (12)
[6]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[7]基于混合采样的非平衡数据集分类研究[J]. 古平,欧阳源遊. 计算机应用研究. 2015(02)
[8]基于改进SMOTE的非平衡数据集分类研究[J]. 王超学,潘正茂,董丽丽,马春森,张星. 计算机工程与应用. 2013(02)
[9]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军. 计算机应用. 2011(09)
[10]不平衡分类问题研究综述[J]. 叶志飞,文益民,吕宝粮. 智能系统学报. 2009(02)
本文编号:3137273
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3137273.html