大规模异构的政府统计报表信息抽取与集成融合研究
发布时间:2023-01-15 08:57
政府统计数据作为国家的"战略金矿",充分挖掘其内在价值,使之更好地服务于政府及公众,已成为当前智慧政务和新型智库发展中大数据系统建设的必然要求。但政府统计报表的半结构化和大规模异构特点,使得统计数据之间无法直接关联及聚合,影响了统计数据资源的深度挖掘与开发。鉴于此,本文针对已有研究的不足,在分析政府统计报表语义构成要素的基础上,结合其信息抽取与集成融合的应用目标,将处理任务分解为表格语义结构解析、表头语义关系识别、数值信息抽取表示、指标术语消冗转换及不一致统计数据消歧等五个逻辑过程,并定义了各过程的作用与主要任务,且研究构建了面向该任务的总体技术框架及其处理流程。大规模真实数据集上的应用结果表明,本研究方法能够较为有效地实现异构型政府统计报表的抽取与集成融合,具备较好的实际价值,同时也为其他基于半结构化表格的大数据建设与应用研究提供参考借鉴。
【文章页数】:11 页
【部分图文】:
政府统计报表的基本样式
基于本方法的集成数据应用示例
指标术语消冗转换处理示例
【参考文献】:
期刊论文
[1]“大数据”背景下统计数据资源整合探索[J]. 苏州市统计局课题组. 统计科学与实践. 2018(10)
[2]略论国家高端科技智库的功能定位[J]. 王世伟. 情报学报. 2018(06)
[3]基于知识挖掘与协同融合的情报研究方法[J]. 肖洪,赵洪,毋晓霞. 情报理论与实践. 2018(10)
[4]基于海量事实数据和协同机制的情报集成平台设计与实现[J]. 赵洪,肖洪,相生昌. 信息系统工程. 2018(04)
[5]浅谈大数据在政府统计中的作用[J]. 王文鹏. 统计与咨询. 2017(04)
[6]非结构化表格文档数据抽取与组织模型研究[J]. 张元鸣,陈苗,陆佳炜,徐俊,肖刚. 浙江工业大学学报. 2016(05)
[7]科技智库的社会经济数据需求及其建设模式案例分析[J]. 李纯,张冬荣. 图书情报工作. 2015(11)
[8]数值信息抽取研究进展综述[J]. 吴超,郑彦宁,化柏林. 中国图书馆学报. 2014(02)
[9]基于Web的表格信息抽取研究[J]. 秦振海,谭守标,徐超. 计算机技术与发展. 2010(02)
[10]Web表格信息抽取研究综述[J]. 赵洪,肖洪,薛德军,师庆辉. 现代图书情报技术. 2008(03)
博士论文
[1]领域数据集成及服务关键技术研究[D]. 刘歆.北京科技大学 2017
硕士论文
[1]Web表格数据提取与分析系统的设计与实现[D]. 曹贞兴.哈尔滨工业大学 2016
[2]基于Web结构的表格信息抽取研究[D]. 刘颖.合肥工业大学 2012
本文编号:3730870
【文章页数】:11 页
【部分图文】:
政府统计报表的基本样式
基于本方法的集成数据应用示例
指标术语消冗转换处理示例
【参考文献】:
期刊论文
[1]“大数据”背景下统计数据资源整合探索[J]. 苏州市统计局课题组. 统计科学与实践. 2018(10)
[2]略论国家高端科技智库的功能定位[J]. 王世伟. 情报学报. 2018(06)
[3]基于知识挖掘与协同融合的情报研究方法[J]. 肖洪,赵洪,毋晓霞. 情报理论与实践. 2018(10)
[4]基于海量事实数据和协同机制的情报集成平台设计与实现[J]. 赵洪,肖洪,相生昌. 信息系统工程. 2018(04)
[5]浅谈大数据在政府统计中的作用[J]. 王文鹏. 统计与咨询. 2017(04)
[6]非结构化表格文档数据抽取与组织模型研究[J]. 张元鸣,陈苗,陆佳炜,徐俊,肖刚. 浙江工业大学学报. 2016(05)
[7]科技智库的社会经济数据需求及其建设模式案例分析[J]. 李纯,张冬荣. 图书情报工作. 2015(11)
[8]数值信息抽取研究进展综述[J]. 吴超,郑彦宁,化柏林. 中国图书馆学报. 2014(02)
[9]基于Web的表格信息抽取研究[J]. 秦振海,谭守标,徐超. 计算机技术与发展. 2010(02)
[10]Web表格信息抽取研究综述[J]. 赵洪,肖洪,薛德军,师庆辉. 现代图书情报技术. 2008(03)
博士论文
[1]领域数据集成及服务关键技术研究[D]. 刘歆.北京科技大学 2017
硕士论文
[1]Web表格数据提取与分析系统的设计与实现[D]. 曹贞兴.哈尔滨工业大学 2016
[2]基于Web结构的表格信息抽取研究[D]. 刘颖.合肥工业大学 2012
本文编号:3730870
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3730870.html