审计监测指标发现与提取技术研究与应用
发布时间:2017-10-17 09:11
本文关键词:审计监测指标发现与提取技术研究与应用
更多相关文章: 社会保障审计 监测指标 聚类 关联规则 最小规则覆盖集
【摘要】:数据挖掘是机器学习领域重要的技术之一,也是知识发现的一个重要过程。其目的就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取或挖掘隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。现有计算机审计方法零散,均是人工手动处理和分类,且社保审计监测指标的发现和提取工作也是人工手动进行,使得审计经验的共享程度比较低,为审计工作者带来了诸多不便。 本文在总结数据挖掘技术的国内外研究现状和研究成果的基础上,介绍了数据挖掘相关技术和理论知识,特别是关联规则分析技术和聚类分析技术;针对现有社保审计词库的不足,使用新词的识别算法,给出了社保审计词库的动态更新过程;并在此基础之上,以社会保险审计方法集为实验数据集,针对聚类算法中经典k-均值算法的两大缺陷,首次给出了关联规则分析技术中最小规则覆盖集的概念,,并提出了基于最小规则覆盖集的K-均值改进算法,有效地改善了聚类效果,并成功应用于审计监测指标发现和提取过程中,从而进一步研究社保审计监测指标的发现和提取方法;审计监测指标发现和提取系统也应运而生,为后期的审计工作奠定了良好的基础。
【关键词】:社会保障审计 监测指标 聚类 关联规则 最小规则覆盖集
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:F239.1;TP311.13
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-14
- 1.1 研究背景及意义9-10
- 1.1.1 研究背景9
- 1.1.2 研究意义9-10
- 1.2 国内外研究现状10-12
- 1.2.1 基于聚类的关联规则分析技术10
- 1.2.2 基于关联规则的聚类分析技术10-11
- 1.2.3 文本聚类分析技术11
- 1.2.4 关联规则分析技术11-12
- 1.3 论文组织结构12-14
- 1.3.1 论文主要研究内容12-13
- 1.3.2 论文内容安排13-14
- 第2章 数据挖掘相关理论14-19
- 2.1 数据挖掘技术14-16
- 2.2 关联规则分析技术16
- 2.3 聚类分析技术16-18
- 2.3.1 聚类分析技术16-17
- 2.3.2 聚类效果评估指数17-18
- 2.4 本章小结18-19
- 第3章 社保审计领域词库的动态更新19-25
- 3.1 社保审计领域词库构建19-20
- 3.2 社保审计领域词库动态更新过程20-22
- 3.3 社保领域新词识别算法22-24
- 3.4 本章小结24-25
- 第4章 审计监测指标的发现和提取25-47
- 4.1 k-均值算法及其局限性25-27
- 4.1.1 k-均值算法作为基础算法的原因25-26
- 4.1.2 k-均值算法的局限性26-27
- 4.2 基于最小规则覆盖集的 k-均值算法改进27-34
- 4.2.1 基于最小规则覆盖集的 k-均值改进算法28-31
- 4.2.2 改进算法举例31-34
- 4.3 审计监测指标发现和提取过程及实验分析34-46
- 4.3.1 实验数据集35-36
- 4.3.2 审计方法文本分词36-37
- 4.3.3 审计方法空间向量表示37-39
- 4.3.4 审计方法相似度函数定义39-40
- 4.3.5 关联规则分析40-43
- 4.3.6 聚类分析43-45
- 4.3.7 审计监测指标的发现与提取45-46
- 4.4 本章小结46-47
- 第5章 系统设计47-56
- 5.1 概要设计47-49
- 5.2 详细设计49-51
- 5.3 系统工作流程及模块功能设计51-55
- 5.3.1 审计方法导入模块52-53
- 5.3.2 审计方法分词模块53
- 5.3.3 词频统计模块53-54
- 5.3.4 审计方法聚类分析模块54-55
- 5.3.5 审计监测指标发现和提取模块55
- 5.4 本章小结55-56
- 结论56-57
- 参考文献57-61
- 攻读硕士学位期间发表的论文和取得的科研成果61-63
- 致谢63
【参考文献】
中国期刊全文数据库 前10条
1 马莉;杜鹃;;一种生成最小关联规则集的算法[J];电脑知识与技术;2011年03期
2 蔡勇智;;未登录词识别算法的改进[J];福建电脑;2006年03期
3 王慧;郑涛;张建岭;;基于聚类的关联规则算法在刑事犯罪行为分析中的应用[J];中国人民公安大学学报(自然科学版);2010年03期
4 阮备军,朱扬勇;基于商品分类信息的关联规则聚类[J];计算机研究与发展;2004年02期
5 宋威;杨炳儒;徐章艳;高静;;一种改进的频繁闭项集挖掘算法[J];计算机研究与发展;2008年02期
6 梁成军;虞丽娟;王继红;;网球技战术关联分析数据挖掘研究[J];计算机工程与应用;2012年07期
7 龙昊;冯剑琳;李曲;;R-means:以关联规则为簇中心的文本聚类[J];计算机科学;2005年09期
8 马光志,崔荣晓;基于覆盖运算挖掘最小规则集[J];计算机工程与科学;2005年06期
9 曲守宁;王钦;邹燕;朱强;;基于关联规则的文本聚类算法的研究[J];计算机应用研究;2008年04期
10 王清毅,蔡智,邹翔,蔡庆生;部分数据缺失环境下的知识发现方法[J];软件学报;2001年10期
本文编号:1047972
本文链接:https://www.wllwen.com/guanlilunwen/shenjigli/1047972.html