当前位置:主页 > 社科论文 > 社会保障论文 >

基于社保的数据关联处理方法

发布时间:2017-06-23 13:11

  本文关键词:基于社保的数据关联处理方法,由笔耕文化传播整理发布。


【摘要】:数据挖掘是数据库或数据创库技术发展到一定程度的产物,使用数据挖掘的目的是利用有效的算法,从海量的数据中挖掘或发现我们未知,并且有价值的信息,最终用简单的方法展现出来。目前数据挖掘的技术已经应用到商业销售,投资市场,建筑工业等多个领域,但是在社保领域方面还处在初级阶段。 本文以关联规则的挖掘作为理论基础,通过实际应用系统的需求分析,结合社保数据自身的特点,挖掘出了社保数据中蕴含的属性与属性、事务与事务之间的关联,说明了将数据挖掘技术应用到社保数据分析中的重要性和实际意义。其次,对数据挖掘的相关概念、主要任务、过程跟方法、发展现状和发展趋势作了比较详细的阐述.本文以佛山社保信息系统的建设为背景,以系统运行的过程中大量的社保数据作为基础进行数据挖掘技术的探索和研究,并通过相关文献的分析和对比,在数据挖掘、数据仓库、数据关联等知识的基础上,针对大量的社保数据关联规则的挖掘进行了探索性的分析。阐述关联规则的相关概念和问题,设计和实现了关联规则发现算法,依据系统的实际应用和社保数据的特点,在Apriori算法的基础上提出了挖掘社保数据关联规则。使用了加权参数来加强重要社保开户类型的重要性,以挖据出开户时间、开户类型、医疗费用之间的关系。使用本算法挖掘出的关联规则有比较高的应用价值,能帮助医保决策人员在正确的时间有重点的开展医保业务,提高工作效率和收益。 最后,在对序列模式的基础知识有了全面的理解之后,然后对常用的序列模式发现算法进行了比较细致的分析和比较,在此基础上,本文也对发现社保数据中的序列模式的问题进行了创造性的开发和研究,并提出了发现社保数据序列模式需要解决的几个问题,主要有:数据量大;分析对象不固定;序列的长度较长;属性之间重要性不同.针对这几个问题,本文在PrefixSpan算法的基础之上提出了算法的改进方法:使用数据划分,减少数据量,建设通用平台,根据应用的实际需求来确定分析的对象,从而发现不同类型的序列模式;通过使用记录的前缀来大大的缩短待分析的序列的长度;并且在扫描投影数据库的过程中引入“加权前缀’方法的思想来强调属性的重要性,使大型商户类型投保出现在发现的频繁序列之中,以分析其发生规律在大量时序数据中挖掘出社保数据潜在的序列模式,有利于社保预测和社保部门前期计划,对合理安排工作,提高社保部门反应速度和处理能力都有重大意义.
【关键词】:数据挖掘 数据仓库 数据关联 社保数据
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • Contents9-11
  • 第一章 数据挖掘与社保数据分析11-17
  • 1.1 社保数据可用性分析11-13
  • 1.1.1 社保数据可验证性11-12
  • 1.1.2 社保数据的可理解性12
  • 1.1.3 社保数据的可采集性12-13
  • 1.1.4 社保数据的可分析性13
  • 1.2 社保数据的真实性分析13-15
  • 1.2.1 社保数据的完整性分析13
  • 1.2.2 社保数据的一致性分析13
  • 1.2.3 社保数据的正确性分析13-14
  • 1.2.4 社保数据库schema分析14
  • 1.2.5 社保审计数据质量特点14-15
  • 1.3 数据挖掘(Data Mining)概念与技术15-17
  • 第二章 数据挖掘的理论基础17-27
  • 2.1 数据挖掘和KDD的基本概念17-18
  • 2.2 数据挖掘技术的模型18-20
  • 2.3 数据挖掘技术的分类20-21
  • 2.4 数据挖掘任务与知识类型21-24
  • 2.5 数据挖掘的过程24-25
  • 2.6 数据挖掘采用的方法25-26
  • 2.7 面临的挑战26-27
  • 第三章 关联规则挖掘基础27-34
  • 3.1 关联规则的问题定义27
  • 3.2 关联规则的种类27-28
  • 3.3 关联规则的挖掘方法28
  • 3.4 关联规则的发展方向28-29
  • 3.5 关联规则的应用领域29-30
  • 3.6 数据仓库及其管理30-34
  • 3.6.1 数据仓库的定义与特点30-31
  • 3.6.2 数据仓库的体系结构31-32
  • 3.6.3 数据仓库逻辑模型设计32
  • 3.6.4 数据仓库与数据挖掘的关系32-34
  • 第四章 数据关联在社保数据分析中的应用34-56
  • 4.1 关联规则在社保数据分析中应用34-44
  • 4.1.1 关联规则的发现算法35
  • 4.1.2 提取频繁项目集的算法35
  • 4.1.3 经典的关联规则发现算法35-39
  • 4.1.4 问题定义与数据的准备39-40
  • 4.1.5 算法的选择与改进40-44
  • 4.1.6 结果与评价44
  • 4.2 序列模式在社保数据分析中的应用44-56
  • 4.2.1 问题模型44-45
  • 4.2.2 序列的支持度和频繁序列45
  • 4.2.3 序列模式挖掘算法45-48
  • 4.2.4 挖掘社保数据中的序列模式48-49
  • 4.2.5 算法的选择与改进49-50
  • 4.2.6 序列模式的挖掘过程50-54
  • 4.2.7 结果与评价54-56
  • 总结与展望56-57
  • 参考文献57-59
  • 攻读学位期间发表的论文59-61
  • 致谢61

【引证文献】

中国硕士学位论文全文数据库 前2条

1 张玉东;PG炼钢厂MES系统数据挖掘的设计与开发[D];电子科技大学;2011年

2 李永祥;基于OLAP的电力客户能效评估方法及应用[D];兰州理工大学;2012年


  本文关键词:基于社保的数据关联处理方法,由笔耕文化传播整理发布。



本文编号:475139

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shehuibaozhanglunwen/475139.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户030be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com