高校数据生态体系建设探索
发布时间:2021-04-04 13:41
随着教育信息化的逐步深入,数据已经成为保障学校信息化持续健康发展的最重要资产,数据质量的好坏直接影响着高校信息化未来发展的方方面面.为提高数据质量,很多高校都开展了数据治理工作,但对于学校信息化发展步伐,数据治理的速度相对缓慢,无法完全满足各项工作对数据的要求.针对该问题,南开大学因地制宜,积极探索改革,修订数据治理框架和技术路线,使数据治理及服务形成可持续发展的生态,解决了数据治理速度缓慢问题,实现了数据质量的快速提升.
【文章来源】:深圳大学学报(理工版). 2020,37(S1)北大核心CSCD
【文章页数】:7 页
【部分图文】:
数据治理过程示意图
表1对评价数据质量5个重要维度的检查内容及检查后输出的报告内容分别进行描述.表1 评价数据质量的5个重要维度 维度 检查内容描述 报告输出 完备性 将数据集中重复记录占总记录的比例与数据集以前的实例做比较 重复数据记录列表,定义相似重复判定规则 是否所有不可为空的字段都被填充 所有包含空(没有被填充)字段的数据记录 一致性 数值字段计算结果是否一致 幅度超过阈值后,输出所有参与求和和求平均的数据记录 及时性 将数据实际和计划可交付、可用时间进行比较 如果有更新,输出添加和更新的数据记录(此处不是脏数据) 有效性 将传入数据的值与既定的域(字典表、范围或数据规则)中的有效值作比较 不符合记录占比超过阈值后,输出所有无效的数据记录 完整性 评估列属性和数据在整个数据库中相同数据类型的字段内数据格式的一致性 如果格式不同的数据记录数比例超出阈值,则相应监控报警消息,并输出所有不同的数据记录,含参照和被检测的 有效性检查,跨表,详细结果 如果值不同的数据记录数比例超出阈值,则生成相应监控报警消息,并输出所有不同的数据记录,含参照和被检测的 父子参照 “孤儿”记录的父记录数据量占比超出阈值后,生成相应监控报警消息和对应的父记录 子父参照 无子记录的父记录数据量占比超出阈值后,生成相应监控报警消息和对应的父记录
数据质量作为决定数据生态建设效果的关键因素,可通过数据治理的内部和外部两个循环来予以保证(图4).数据治理内部循环以校务管理为中心. 数据源自业务系统,通过ETL过程采集进入全量数据中心,通过数据质量平台进行质量检测分析,生成数据质量报告反馈到相关职能部门,通过修正更新业务系统的数据实现数据质量的提升.
【参考文献】:
期刊论文
[1]智慧校园视域下高等教育数据生态治理体系研究[J]. 余鹏,李艳. 中国电化教育. 2020(05)
[2]高校数据治理中提升数据质量的方法研究[J]. 巫莉莉,张波. 重庆理工大学学报(自然科学). 2019(08)
[3]高校教育大数据治理的框架设计与实施[J]. 董晓辉,郑小斌,彭义平. 中国电化教育. 2019(08)
[4]数据治理技术[J]. 吴信东,董丙冰,堵新政,杨威. 软件学报. 2019(09)
[5]美国通用教育数据标准对我国高等教育数据治理的启示[J]. 许晓东,彭娴,周可. 高等工程教育研究. 2019(01)
[6]美国高校数据治理及其借鉴[J]. 彭雪涛. 电化教育研究. 2017(06)
[7]数据质量多种性质的关联关系研究[J]. 丁小欧,王宏志,张笑影,李建中,高宏. 软件学报. 2016(07)
[8]高等教育的数据治理研究[J]. 许晓东,王锦华,卞良,孟倩. 高等工程教育研究. 2015(05)
[9]《数据治理白皮书》国际标准研究报告要点解读[J]. 张明英,潘蓉. 信息技术与标准化. 2015(06)
[10]大数据系统综述[J]. 李学龙,龚海刚. 中国科学:信息科学. 2015(01)
本文编号:3118140
【文章来源】:深圳大学学报(理工版). 2020,37(S1)北大核心CSCD
【文章页数】:7 页
【部分图文】:
数据治理过程示意图
表1对评价数据质量5个重要维度的检查内容及检查后输出的报告内容分别进行描述.表1 评价数据质量的5个重要维度 维度 检查内容描述 报告输出 完备性 将数据集中重复记录占总记录的比例与数据集以前的实例做比较 重复数据记录列表,定义相似重复判定规则 是否所有不可为空的字段都被填充 所有包含空(没有被填充)字段的数据记录 一致性 数值字段计算结果是否一致 幅度超过阈值后,输出所有参与求和和求平均的数据记录 及时性 将数据实际和计划可交付、可用时间进行比较 如果有更新,输出添加和更新的数据记录(此处不是脏数据) 有效性 将传入数据的值与既定的域(字典表、范围或数据规则)中的有效值作比较 不符合记录占比超过阈值后,输出所有无效的数据记录 完整性 评估列属性和数据在整个数据库中相同数据类型的字段内数据格式的一致性 如果格式不同的数据记录数比例超出阈值,则相应监控报警消息,并输出所有不同的数据记录,含参照和被检测的 有效性检查,跨表,详细结果 如果值不同的数据记录数比例超出阈值,则生成相应监控报警消息,并输出所有不同的数据记录,含参照和被检测的 父子参照 “孤儿”记录的父记录数据量占比超出阈值后,生成相应监控报警消息和对应的父记录 子父参照 无子记录的父记录数据量占比超出阈值后,生成相应监控报警消息和对应的父记录
数据质量作为决定数据生态建设效果的关键因素,可通过数据治理的内部和外部两个循环来予以保证(图4).数据治理内部循环以校务管理为中心. 数据源自业务系统,通过ETL过程采集进入全量数据中心,通过数据质量平台进行质量检测分析,生成数据质量报告反馈到相关职能部门,通过修正更新业务系统的数据实现数据质量的提升.
【参考文献】:
期刊论文
[1]智慧校园视域下高等教育数据生态治理体系研究[J]. 余鹏,李艳. 中国电化教育. 2020(05)
[2]高校数据治理中提升数据质量的方法研究[J]. 巫莉莉,张波. 重庆理工大学学报(自然科学). 2019(08)
[3]高校教育大数据治理的框架设计与实施[J]. 董晓辉,郑小斌,彭义平. 中国电化教育. 2019(08)
[4]数据治理技术[J]. 吴信东,董丙冰,堵新政,杨威. 软件学报. 2019(09)
[5]美国通用教育数据标准对我国高等教育数据治理的启示[J]. 许晓东,彭娴,周可. 高等工程教育研究. 2019(01)
[6]美国高校数据治理及其借鉴[J]. 彭雪涛. 电化教育研究. 2017(06)
[7]数据质量多种性质的关联关系研究[J]. 丁小欧,王宏志,张笑影,李建中,高宏. 软件学报. 2016(07)
[8]高等教育的数据治理研究[J]. 许晓东,王锦华,卞良,孟倩. 高等工程教育研究. 2015(05)
[9]《数据治理白皮书》国际标准研究报告要点解读[J]. 张明英,潘蓉. 信息技术与标准化. 2015(06)
[10]大数据系统综述[J]. 李学龙,龚海刚. 中国科学:信息科学. 2015(01)
本文编号:3118140
本文链接:https://www.wllwen.com/jiaoyulunwen/gaodengjiaoyulunwen/3118140.html