CGSS数据质量评估体系建模及应用
发布时间:2024-05-18 00:54
目前可查文献对于数据质量的研究工作大部分围绕政府官方数据库、企业或机构内部数据库展开,而对于非官方微观数据库的数据质量却鲜有讨论,但无可否认这些数据库在学术研究、实证分析中均发挥着不可替代的作用。因此本文致力于研究CGSS数据质量,试图在微观数据库质量研究方面做一些有益的尝试,进而对国内微观数据库的建设起到正向的推动作用。本文的实证部分包括指标体系构建与最优权重确定两大模块。在指标体系构建模块中,通过对比各类已提出的数据质量评估指标体系,并针对CGSS数据库的应用场景创造性增加了数据平衡性指标;最终构建了包含准确性、一致性、数据完整性、描述完备性、及时性、丰富性、可靠性与数据平衡性8个方面的CGSS数据质量评估体系。在最优权重确定模块中,通过权重赋值方法计算每个数据集的综合质量得分,并借鉴文献计量学中的学术迹方法来确定最优权重;该方法既摆脱了主观赋权法的人为因素影响,又因为不参与指标体系得分计算而避免了客观赋权法对指标体系建立科学性的依赖。通过建模发现,在CGSS项目公布的9个数据集中,数据质量得分超过0.6的数据集有三个,按照得分由大到小依次为CGSS2010、CGSS2015、CG...
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
本文编号:3976211
【文章页数】:99 页
【学位级别】:硕士
【部分图文】:
图1-1数据类型分类图
2制指明了前进目标;另一方面不断加大统计执法检查力度,对于数据造假案件做到“发现一起、查处一起、曝光一起”。2018年底,国家统计局通报7起第三次农业普查数据造假典型案件,并对案件处理结果及时向社会公开,我国的统计数据质量监测控制正向好发展。统计数据类型众多,形式各异,概括的讨论....
图1-2CGSS历年发文量②正是由于CGSS调查数据被各个学科广泛使用,所以讨论其数据存在的质量
6成,CGSS2005、2006、2008通过调查公司完成,最终将学术网络关系确定为CGSS收集数据的标准模式。以上两点表明CGSS项目产出的数据在数据管理与影响范围上具有的优越性,属于我国建设先进的非官方微观数据库,对其产出的数据质量进行研究对提高学术实证数据质量方面有着积极的....
图1-3本文分析框架
景与研究意义,表明数据质量问题对模型结果的重要影响,同时指出当前微观数据库的广泛使用与质量研究不足的现状。最后介绍了本论文的研究办法,引入文献计量分析辅佐数据质量分析,并对全文的研究框架做出说明。第2章:主要介绍本文的模型理论,首先综合已有文献结论,明晰了本文对数据质量的定义,使....
图2-1本文数据质量评估框架
17质出现频次较高,可归于数据质量评价的基本维度。其次,“可达性”、“安全性”、“可访问性”、“溯源性”、“访问安全性”、“可恢复性”、“安全性”、“隐私性”、“生命周期”、“可解释性”等指标大都是在描述数据库建设程度,这些指标是基于数据管理者的角度。与之相对,“切题性”、“相关....
本文编号:3976211
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3976211.html
最近更新
教材专著