档案系统中半结构化数据重复录入侦测技术研究

发布时间:2021-10-08 14:45
  随着计算机的日益普及以及互联网技术的不断更新,电子档案的应用优势逐渐突出,越来越多的企业选择使用计算机实现对档案信息的录入和储存,这样不仅可以避免数据丢失,而且还能实现对数据的高效化管理。但是,随着数据信息复杂度的逐渐增加,在对数据进行录入存储时,就给数据的重复录入埋下了相应的安全隐患。倘若不做好数据录入之前的侦测工作,就会给数据库的运行造成负担。本文在研究过程中,运用vue.js框架设计与开发了档案录入管理系统,该系统具备数据信息规范化录入、查看、多条件搜索等多种功能,并对不同的人员设置了不同的使用权限,保障了数据存储的安全性。但是当录入数据时,为了避免重复性数据的录入,只对档案名称进行了唯一性限制,即:只要与档案同名的都不准予录入,这样就增大了恶意性重复数据的录入。而数据在录入之前,为了避免出现错录、漏录以及重录的情况,需要对半结构化数据进行解析与判重,故就将问题归结为半结构化数据重复录入问题的研究。在解决问题时,运用案例分析法、文献分析法以及比较归纳法,对档案录入管理系统的录入方式进行了创新,构建了一种基于权重分析法的相似度判定模型,提出了半结构化数据重复录入侦测技术。该种方法不... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

档案系统中半结构化数据重复录入侦测技术研究


图2.1结构2.1.2非结构化数据??

分号,数据格式,数据表示,对象


?硕士学位论文??MASTF.R'STIIF.SIS??;!?11?//javascript??12-?var?person={??13?"name..:?"Nicholas",??14?Hagen:29??IS?};??::16??17-?{??18?"name":?"Nicholas1',??19?“age":29??20?}??21?.?■?,>i苧周??22-{??23?"name":?"Nicholas",??24?"age":29,??2S?"school":{??26?"name":?"Merrimack?College",??27?"location":?"North?Andover^MA"??28?}??29?}??30??图2.3?JSON数据格式表示对象??运用jSON表示数组时,通常与JavaScript语言表示方法炎:似,采用字而量??的形式实现对数组的表示,但是JSON数据表示形式一般不具备变量和分号。如??图2.4所示。??.31/7??32?var?values=[25,hi”,tnje];??:33?//—VNA式_亍?域??34?E25,"hi",true]??35??图2.4?JSON数据格式表示数m??JSON数則格式还可表示史为杂的数据类型,即将数纟丨I与对象结合起来,??既可以在一个数组中表示多个对象,又可以在一个对象中表示一个数组。如图2.5??所示。??8??

数据格式,数据类型,对象,格式


?硕士学位论文??MASTF.R'STIIF.SIS??;!?11?//javascript??12-?var?person={??13?"name..:?"Nicholas",??14?Hagen:29??IS?};??::16??17-?{??18?"name":?"Nicholas1',??19?“age":29??20?}??21?.?■?,>i苧周??22-{??23?"name":?"Nicholas",??24?"age":29,??2S?"school":{??26?"name":?"Merrimack?College",??27?"location":?"North?Andover^MA"??28?}??29?}??30??图2.3?JSON数据格式表示对象??运用jSON表示数组时,通常与JavaScript语言表示方法炎:似,采用字而量??的形式实现对数组的表示,但是JSON数据表示形式一般不具备变量和分号。如??图2.4所示。??.31/7??32?var?values=[25,hi”,tnje];??:33?//—VNA式_亍?域??34?E25,"hi",true]??35??图2.4?JSON数据格式表示数m??JSON数則格式还可表示史为杂的数据类型,即将数纟丨I与对象结合起来,??既可以在一个数组中表示多个对象,又可以在一个对象中表示一个数组。如图2.5??所示。??8??

【参考文献】:
期刊论文
[1]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁.  清华大学学报(自然科学版). 2018(12)
[2]轻量级响应式框架Vue.js应用分析[J]. 陈岩.  中国管理信息化. 2018(03)
[3]基于VueJs的WEB前端开发研究[J]. 徐頔,朱广华,贾瑶.  科技风. 2017(14)
[4]基于WEB开发中的XML与JSON数据传输格式研究[J]. 仇小花,秦栓栓,邱果.  信息技术与信息化. 2017(04)
[5]面向论文相似性检测的数据预处理研究[J]. 刘伙玉,王东波.  现代图书情报技术. 2015(05)
[6]Node.js:一种新的Web应用构建技术[J]. 王金龙,宋斌,丁锐.  现代电子技术. 2015(06)
[7]基于Simhash算法的大规模文档去重技术研究[J]. 余意,张玉柱,胡自健.  信息通信. 2015(02)
[8]中文短文本去重方法研究[J]. 高翔,李兵.  计算机工程与应用. 2014(16)
[9]JSON格式数据在Web开发中的应用[J]. 龚建华.  办公自动化. 2013(20)
[10]不确定数据的重复记录检测[J]. 邓慧挺,毛宇光.  计算机技术与发展. 2012(08)

硕士论文
[1]基于simhash的文本相似检测算法研究[D]. 姜雪.中国工程物理研究院 2017
[2]非结构化到结构化数据转换的研究与实现[D]. 万里鹏.西南交通大学 2013
[3]数据预处理系统的几个关键技术研究与实现[D]. 白凤伟.北京交通大学 2012
[4]基于Web的企业文件档案管理信息系统软件开发与研究[D]. 高剑坤.重庆大学 2004



本文编号:3424373

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3424373.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8d9ce***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com