面向政府数据开放的数据清洗框架与应用研究
发布时间:2021-12-02 16:55
政府掌握着丰富且具有价值的数据资源,“开放政府数据”可以推动资源的有效利用,避免数据资源的闲置与浪费。我国的“开放政府数据”运动正处于快速发展阶段,仅2019年便新增50多个地方政府数据开放平台,但快速发展的同时也存在着很多问题。我国的政府开放数据与美国、欧盟等发达国家相比存在着数据质量较低、格式不规范等问题。数据质量决定数据的可用性与易用性,数据质量问题影响我国政府数据开放的效果,只有高质量的数据才是可用的数据。数据清洗是提高我国政府开放数据的数据质量的方式,但针对我国政府开放数据中存在的数据质量问题,目前并没有合适的数据清洗框架与工具,这将影响到数据开放的效果。为此,本文的主要工作有:(1)调研我国政府开放数据,发现其存在的数据质量问题,并按照政府开放数据领域通用的数据质量维度标准记录每个维度存在的质量问题;(2)根据我国政府开放数据中“脏数据”的种类与特点,明确了我国政府开放数据的清洗需求,分别为“脏数据”清洗与数据的格式转换。设计开发适用于我国政府开放数据的基于规则的数据清洗框架,根据国际与国内的数据标准,利用清洗规则实现对“脏数据”的清洗,提高数据质量,同时将清洗后的数据通过...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:105 页
【学位级别】:硕士
【部分图文】:
图4.?8深圳市待清洗数据集模式层的字段名称??Fig.?4.8?Field?name?of?data?set?mode?layer??
305?南山区?MB2C132]深圳大学『518000??聚圳市南综合医院?0755-21839000?-?r4403050(-??47?46『440310坪山区PDY7119彳深圳平乐『518000深圳市坪中西医结0755-28328011?-?『4403100^??48?\l?r440310坪山区-?深圳市坪%18000深圳市坪妇幼保健-?-?-??49?"48?340310坪山区-?深圳市坪^18000深圳市坪综合医院-??集:深圳市设置发热门诊的医疗机构名单??图5.?3深圳市设置发热门诊的医疗机构名单清洗前后对比??Fig.?5.3?Comparison?of?list?of?medical?institutions?with?fever?clinic?in?Shenzhen?before?and?after?cleaning??根据上图可以看出,清洗前“TELPHONE_NUMBER”字段中电话号码未加区号,同??时21行区号与电话号码的分隔符一列中格式不一致(E1),多个字段中存在数据缺失??(A1),利用清洗规则RNol、RN〇8和RNolO完成了实例层数据清洗;该数据集还存??在模式层的数据模式定义不明晰(P3)的问题,利用元数据中数据项的定义完成模式替??换,具体替换过程见4.4.3小节的模式层清洗实现。??图5.4为山东省新型冠状病毒感染确诊病例信息清洗前后对比,结合表5.5山东新??冠肺炎疫情数据的质量元数据表,检测出该数据集的第4个字段存在数据不是原子的??(F6)的数据质量问题,利用清洗规则RN〇14完成数据清洗。??-70?-??
??8?房山区?0?16????9?通州区?0?19???10?颠义区?0?10???11?昌平区?0??29??12?大兴区?0??39??13?怀柔区?0?;?7???14?平?gR?0?0_???15?密云区?0?7???16?延庆区?0?1???17?外地来京人员?0??25???18丨境外输入人员|?1?167??图5.?7待格式转换的北京疫情数据??Fig.?5.7?Beijing?epidemic?data?to?be?converted??利用清洗框架中的格式转换模块将CSV格式的数据转换分别为JSON格式和XML??格式,图5.8和图5.9分别为格式转换后的JSON格式和XML格式的数据??_匕)北京疫情教据.JS<mE3|??' ̄I?"4M;?Sfe'a^L^S:":??0",?"4^2&24?t?:?"14"),?(—??”生5/’:?”2",?"西域K'?"4月2日新增病例数”0”,n4月2曰24时累计病砀数登":”53"},?{??"庄S":?w3”,"区”數風区”,"4月2彐佘增病沅教登”:"0”,"4月2曰24B^■累计病M僉:!:":?"72”},?{??"庄5":?"4",?"龜淀?区'?"4月2曰新增病例數:!;":?n0”,"4月2曰24#僉计病加致音”:”64”},?{??”庄衰”:n5”,niS>:?”丢息区",月2曰新增病例数登”:”0”,M片2曰■累计病沅僉登":"43”},?{??”庚吾:":”6
本文编号:3528816
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:105 页
【学位级别】:硕士
【部分图文】:
图4.?8深圳市待清洗数据集模式层的字段名称??Fig.?4.8?Field?name?of?data?set?mode?layer??
305?南山区?MB2C132]深圳大学『518000??聚圳市南综合医院?0755-21839000?-?r4403050(-??47?46『440310坪山区PDY7119彳深圳平乐『518000深圳市坪中西医结0755-28328011?-?『4403100^??48?\l?r440310坪山区-?深圳市坪%18000深圳市坪妇幼保健-?-?-??49?"48?340310坪山区-?深圳市坪^18000深圳市坪综合医院-??集:深圳市设置发热门诊的医疗机构名单??图5.?3深圳市设置发热门诊的医疗机构名单清洗前后对比??Fig.?5.3?Comparison?of?list?of?medical?institutions?with?fever?clinic?in?Shenzhen?before?and?after?cleaning??根据上图可以看出,清洗前“TELPHONE_NUMBER”字段中电话号码未加区号,同??时21行区号与电话号码的分隔符一列中格式不一致(E1),多个字段中存在数据缺失??(A1),利用清洗规则RNol、RN〇8和RNolO完成了实例层数据清洗;该数据集还存??在模式层的数据模式定义不明晰(P3)的问题,利用元数据中数据项的定义完成模式替??换,具体替换过程见4.4.3小节的模式层清洗实现。??图5.4为山东省新型冠状病毒感染确诊病例信息清洗前后对比,结合表5.5山东新??冠肺炎疫情数据的质量元数据表,检测出该数据集的第4个字段存在数据不是原子的??(F6)的数据质量问题,利用清洗规则RN〇14完成数据清洗。??-70?-??
??8?房山区?0?16????9?通州区?0?19???10?颠义区?0?10???11?昌平区?0??29??12?大兴区?0??39??13?怀柔区?0?;?7???14?平?gR?0?0_???15?密云区?0?7???16?延庆区?0?1???17?外地来京人员?0??25???18丨境外输入人员|?1?167??图5.?7待格式转换的北京疫情数据??Fig.?5.7?Beijing?epidemic?data?to?be?converted??利用清洗框架中的格式转换模块将CSV格式的数据转换分别为JSON格式和XML??格式,图5.8和图5.9分别为格式转换后的JSON格式和XML格式的数据??_匕)北京疫情教据.JS<mE3|??' ̄I?"4M;?Sfe'a^L^S:":??0",?"4^2&24?t?:?"14"),?(—??”生5/’:?”2",?"西域K'?"4月2日新增病例数”0”,n4月2曰24时累计病砀数登":”53"},?{??"庄S":?w3”,"区”數風区”,"4月2彐佘增病沅教登”:"0”,"4月2曰24B^■累计病M僉:!:":?"72”},?{??"庄5":?"4",?"龜淀?区'?"4月2曰新增病例數:!;":?n0”,"4月2曰24#僉计病加致音”:”64”},?{??”庄衰”:n5”,niS>:?”丢息区",月2曰新增病例数登”:”0”,M片2曰■累计病沅僉登":"43”},?{??”庚吾:":”6
本文编号:3528816
本文链接:https://www.wllwen.com/shoufeilunwen/shuoshibiyelunwen/3528816.html