基于医保业务的规则执行优化及应用
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R197.1;F842.6;TP311.13
【图文】:
图 2-2 Rete 算法网络结构2.3 MapReduceMapReduce 是谷歌在 2004 年提出的一种并行编程模型,它具有易用且功能强大的优点,其开源实现的 Hadoop 已经广泛应用于许多大数据领域[23]。MapReduce是一个并行库,它的并行原理是将数据切片并分布在多个 Map 节点上,并行处理后的中间结果经过 Shuffle 后,执行 Reduce 操作汇总各自的结果以形成最终结果[24]。MapReduce 在处理大量数据计算方面是较为流行的分布式并行编程模型,它提供较为简便的使用性,并支持负载均衡和容错等。MapReduce 不需要编程人员掌握分布式并行编程的底层技术细节,也能较简便的将应用程序运行于分布式系统上,完成海量数据的计算[25]。MapReduce 高度抽象并行计算过程为 Map 函数和 Reduce 函数。采用“分而治之”的思想,数据集被预先拆分为多个独立的分片(split),分片被分配到多个Map工作节点并行地处理并产生中间结果,而后中间结果在Reduce 工作节点汇总。
第三章 基于医保费用数据的分类规则提取样本错误分类导致的代价,用代价矩阵(Cost Matrix)来表示不同误分类的成本。在代价矩阵中,错误的将 i 类分类为 j 类的代价定义为 C(i, j),正确分类时即 i=j,此时 C(i, j)=0。对于本文对应的二分类问题,通过提高少数类(Minority)误分类为多数类(Majority)的代价,即 C(Minority, Majority) < C(Majority, Minority),避免算法倾向于多数类的分类结果。除了随机过采样,SMOTE(Synthetic Sampling with Data Generation)也是一种过采样方法,它基于现有的少数类之间的特征空间相似度来生成一些数据,使得少数类和多数类样本趋于平衡。例如下图 3-3(a)所示了典型的不平衡数据分布,其中星形和圆形分别代表少数类和多数类的样本,图中设置 K 个近邻的数量被设置为K = 6。图 3-3(b)表示沿着选定的样本 和随机选定的相邻样本 之间创建连线,然后在该连线上随机选择一点作为新产生的少数类样本,如图中由菱形形状所示。SMOTE 通过以上步骤不断生成少数类样本,和同样是增加少数类样本的随机过采样相比能够防止过拟合,同时也避免欠采样导致缺失有价值的信息。同时,SMOTE 方法也存在容易过泛化、数据重叠等弊端。
【参考文献】
相关期刊论文 前10条
1 金维刚;;城乡居民医保整合及其发展趋势[J];中国医疗保险;2016年03期
2 李亚子;尤斌;;医疗保险骗保特征分析[J];中国社会保障;2015年02期
3 陈帅均;蒋平;吴钦章;;基于代价模型的RETE优化算法[J];光电工程;2014年07期
4 顾小东;高阳;;Rete算法:研究现状与挑战[J];计算机科学;2012年11期
5 张桂刚;;一种海量规则模式匹配方法[J];计算机科学;2012年01期
6 丁渊;;规则引擎技术分析及在电信计费系统中的应用[J];邮电设计技术;2011年07期
7 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
8 郭海锋;;计算思维及开源WEKA在人工智能教学中的应用[J];长春师范学院学报;2011年06期
9 鄂旭;邵良杉;张毅智;杨芳;李晗;杨佳欣;;一种基于粗糙集理论的规则提取方法[J];计算机科学;2011年01期
10 潘超;古辉;;本体推理机及应用[J];计算机系统应用;2010年09期
相关硕士学位论文 前7条
1 尚尔路;规则自动生成技术研究及其在医保审核中的应用[D];电子科技大学;2017年
2 彭超;面向税务稽查系统的规则引擎研究与设计[D];上海交通大学;2015年
3 张鑫;一种Rete算法的改进方法[D];哈尔滨工程大学;2014年
4 顾小东;基于RETE算法的大规模规则推理引擎研究与应用[D];南京大学;2013年
5 李华;智能化通信网络综合管理技术[D];电子科技大学;2011年
6 童毅;规则引擎中模式匹配算法及规则引擎应用的研究[D];北京邮电大学;2010年
7 刘岩;FSRL模糊推理机的设计与实现[D];天津大学;2009年
本文编号:2723412
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2723412.html