基于医保业务的规则执行优化及应用

发布时间：2020-06-21 03:11

【摘要】：近年来,随着国家层面上对医疗保险的大力推广,防范医疗保险欺诈、保护医保基金的稳定安全显得愈发重要。现阶段,医疗保险的主要工作方向在于使用信息化技术构建合理的监管系统,以及利用大数据技术从海量医疗保险数据中识别异常数据和行为。本文主要从以上两点出发,针对历史医保数据挖掘医保规则,丰富现有的规则库,并采用以规则引擎为核心,构建一套完善的针对医保业务的审核系统。同时,为了应对大量的数据审核需求,采用MapReduce模型的思想,提出基于现有规则引擎的并行化执行方案,有效的提升了系统的审核能力。通过以上方式形成一套从挖掘新规则,应用规则,再到优化规则执行性能的解决方案。主要工作有以下几个方面:1.医保规则挖掘:分析医保规则挖掘的问题所在,针对某地医保费用数据集进行预处理和特征选取,对数据集存在分类不平衡问题做处理,对比了多种数据平衡策略在医保数据集的表现,最后通过Ripper规则提取算法挖掘医保规则,并和其他常用的规则学习算法做对比。2.规则执行优化:基于现有的规则引擎Drools,结合MapReduce模型的思想,提出针对医保审核业务的规则并行化执行方案。具体的,在子规则的拆分和分配方式、事实数据的分配方式、中间结果的规约方式上详细阐述了方案的设计思路。在这个过程中,结合规则引擎Rete算法的特点进一步优化。最后对比基于该方案的原型系统和单机系统的性能,证明方案的可行性。3.医保审核系统:分析系统需求所在,并提出系统整体的设计实现架构。针对详细功能模块设计,依次介绍了规则管理、规则流管理、审核服务和规则监控等核心模块。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：R197.1;F842.6;TP311.13
【图文】：

网络结构图,网络结构,算法,中间结果

图 2-2 Rete 算法网络结构2.3 MapReduceMapReduce 是谷歌在 2004 年提出的一种并行编程模型，它具有易用且功能强大的优点，其开源实现的 Hadoop 已经广泛应用于许多大数据领域[23]。MapReduce是一个并行库，它的并行原理是将数据切片并分布在多个 Map 节点上，并行处理后的中间结果经过 Shuffle 后，执行 Reduce 操作汇总各自的结果以形成最终结果[24]。MapReduce 在处理大量数据计算方面是较为流行的分布式并行编程模型，它提供较为简便的使用性，并支持负载均衡和容错等。MapReduce 不需要编程人员掌握分布式并行编程的底层技术细节，也能较简便的将应用程序运行于分布式系统上，完成海量数据的计算[25]。MapReduce 高度抽象并行计算过程为 Map 函数和 Reduce 函数。采用“分而治之”的思想，数据集被预先拆分为多个独立的分片（split），分片被分配到多个Map工作节点并行地处理并产生中间结果，而后中间结果在Reduce 工作节点汇总。

欠采样,算法,样本,方法

第三章基于医保费用数据的分类规则提取样本错误分类导致的代价，用代价矩阵（Cost Matrix）来表示不同误分类的成本。在代价矩阵中，错误的将 i 类分类为 j 类的代价定义为 C(i, j)，正确分类时即 i=j，此时 C(i, j)=0。对于本文对应的二分类问题，通过提高少数类（Minority）误分类为多数类（Majority）的代价，即 C(Minority, Majority) < C(Majority, Minority)，避免算法倾向于多数类的分类结果。除了随机过采样，SMOTE(Synthetic Sampling with Data Generation)也是一种过采样方法，它基于现有的少数类之间的特征空间相似度来生成一些数据，使得少数类和多数类样本趋于平衡。例如下图 3-3(a)所示了典型的不平衡数据分布，其中星形和圆形分别代表少数类和多数类的样本，图中设置 K 个近邻的数量被设置为K = 6。图 3-3(b)表示沿着选定的样本和随机选定的相邻样本之间创建连线，然后在该连线上随机选择一点作为新产生的少数类样本，如图中由菱形形状所示。SMOTE 通过以上步骤不断生成少数类样本，和同样是增加少数类样本的随机过采样相比能够防止过拟合，同时也避免欠采样导致缺失有价值的信息。同时，SMOTE 方法也存在容易过泛化、数据重叠等弊端。

【参考文献】