数据模板匹配研究及在社保审计中的应用
发布时间:2017-08-20 08:41
本文关键词:数据模板匹配研究及在社保审计中的应用
【摘要】: 社会保障关系到人民群众的切身利益,因此对其进行相应的监督和审查是审计工作的重中之重。由于社保信息系统的多样性和异构性,在将社保数据库中的数据导入到审计数据库中时,经常会遇到数据项不一致的情况。目前解决该问题的方法是由审计人员对双方数据模板进行分析,手工建立二者间的对应关系。虽然该方法具有较高的准确度,却需要花费大量的时间和精力。因此实现社保审计数据模板的半自动/自动匹配,已成为审计机关亟待解决的问题。 本文从模式匹配入手,结合已有的国内外模式匹配技术研究社保审计数据模板匹配方法,对数据模板手工匹配遇到的匹配空间过大难于确定匹配范围、名称不规则难于发现匹配关系等问题进行深入分析,设计出一种融合语义的社保审计数据模板匹配模型,围绕该模型中模式分类和匹配生成两个主要部分的构建进行研究,主要包括:模式分类部分中社保审计数据模板模式类别划分、分类信息提取及处理、基于朴素贝叶斯模式分类方法的实现、基于知网模式分类方法的实现以及分类结果的合并,匹配生成部分中基于语义相似度传播的模式匹配生成以及匹配结果选择等。 最后,本文通过实验验证社保审计数据模板匹配模型,并对实验结果进行对比分析,最终验证该模型在社会保障审计领域执行数据模板匹配过程中的正确性与高效性。
【关键词】:社会保障审计 模式匹配 数据模板 知网
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:F239.6;F842.6;F224
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-17
- 1.1 研究背景及意义10-12
- 1.2 国内外研究现状12-14
- 1.3 研究内容14-15
- 1.4 论文结构15-17
- 第2章 数据模板匹配中的关键技术概述17-24
- 2.1 模式匹配技术17-19
- 2.1.1 模式匹配概述17-18
- 2.1.2 模式匹配流程18-19
- 2.2 文本分类技术19-22
- 2.2.1 文本分类步骤19-20
- 2.2.2 朴素贝叶斯分类方法20-22
- 2.3 中文分词技术22-23
- 2.4 知网23
- 2.5 本章小结23-24
- 第3章 社保审计数据模板匹配方法研究24-33
- 3.1 社保审计数据模板匹配中的异构问题分析24-27
- 3.2 现有模式匹配方法在社保审计应用中的不足27-29
- 3.3 融合语义的社保审计数据模板匹配模型29-32
- 3.3.1 模式分类29-31
- 3.3.2 匹配生成31-32
- 3.4 本章小结32-33
- 第4章 社保审计数据模板的模式分类实现33-47
- 4.1 模式分类的基本思想33-35
- 4.2 模式分类准备35-38
- 4.2.1 社保审计数据模板匹配中的类别划分35-36
- 4.2.2 社保审计数据模板匹配中的分类信息选择36
- 4.2.3 社保审计数据模板匹配中的分类信息处理36-38
- 4.3 基于朴素贝叶斯的模式分类方法38-40
- 4.4 基于知网的模式分类方法40-46
- 4.4.1 词语相似度计算41-43
- 4.4.2 描述相似度计算43-45
- 4.4.3 文本相似度计算45-46
- 4.4.4 文本与类别相似度计算46
- 4.5 结果合并46
- 4.6 本章小结46-47
- 第5章 社保审计数据模板的模式匹配生成47-56
- 5.1 基于相似度传播的模式匹配算法思想47-48
- 5.2 基于语义相似度传播的模式匹配算法48-55
- 5.2.1 匹配预处理48-50
- 5.2.2 初始相似度计算50-52
- 5.2.3 语义相似度传播52-54
- 5.2.4 匹配选择54-55
- 5.3 本章小结55-56
- 第6章 实验与分析56-62
- 6.1 模式分类实验56-58
- 6.1.1 实验方案56-58
- 6.1.2 实验结果58
- 6.2 匹配生成实验58-61
- 6.2.1 实验方案58-59
- 6.2.2 评价指标59-60
- 6.2.3 实验结果60-61
- 6.3 本章小结61-62
- 结论62-63
- 参考文献63-67
- 攻读硕士学位期间发表的论文和取得的科研成果67-68
- 致谢68
【参考文献】
中国期刊全文数据库 前10条
1 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
2 张治;施鹏飞;;一种有效的贪婪模式匹配算法[J];计算机研究与发展;2007年11期
3 张凌宇;刘国华;褚兵义;王聪;麻会东;苑迎;;基于源模式分裂的模式匹配算法[J];计算机研究与发展;2008年S1期
4 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 于波;唐世渭;张鹏;童云海;;基于实体分类的数据库模式匹配方法[J];计算机科学;2004年10期
7 程伟;周龙骧;林河水;孙玉芳;;一种多策略通用模式匹配方法[J];计算机科学;2004年11期
8 李由;刘东波;张维明;;基于数据实例分布特征的自动模式匹配方法[J];计算机科学;2005年11期
9 余恩运;申德荣;张旭;王广奇;于戈;;SMGM:一种基于模式结构和已有匹配知识的模式匹配模型[J];计算机科学;2007年03期
10 万狄飞;樊兴华;王国胤;;基于朴素贝叶斯和遗传算法的两类文本分类方法[J];计算机科学;2008年04期
,本文编号:705639
本文链接:https://www.wllwen.com/shekelunwen/shehuibaozhanglunwen/705639.html