分布式并行环境下林地落界数据快速统计技术研究

发布时间:2017-06-01 13:02

  本文关键词:分布式并行环境下林地落界数据快速统计技术研究,,由笔耕文化传播整理发布。


【摘要】:林地管理是森林资源管理的基础,国家为了进一步提升森林资源的整体监测和管理水平,在《全国林地保护利用规划纲要(2010-2020年)》的指导下,开展全国林地“一张图”建设。其中整合了近期高分辨率遥感数据、林地落界数据、基础地理数据以及林业相关数据,形成了涉及各级(县、省、国家)微观或至宏观管理与应用需要的多尺度多业务类型的海量数据,仅林地落界小班数据已达6738.88万条。随着林地数据呈指数增长,面临体量如此巨大、数据类型繁多、高速变化、价值密度低的空间数据,当前系统中采用的数据模型和统计技术对支持海量数据多维快速统计的局限性表现得越来越突出。因此本文在分布式并行环境下,对林地落界数据统计的数据模型和快速统计技术进行研究。本文针对林地“一张图”系统中面临的海量数据动态统计的问题,以多维数据模型、并行计算、数据挖掘等理论和技术为基础,通过对多维统计模型、并行数据优化部署、并行统计计算、统计结果汇集与缓存管理这四个关键技术的研究,形成了一个高效、快速的森林资源数据统计技术体系,并通过设计实验对相关技术点进行验证,实验结果表明文章提出的数据模型和技术适合林地落界数据多维动态统计的需求。本文所做研究如下:(1)林地落界统计应用需求和数据特点分析,提出了分布式并行环境下林地落界快速统计技术体系,并对体系中涉及的多维统计模型、并行数据优化部署、并行统计计算、统计结果汇集与缓存管理内容给出了解决思路。(2)林地落界数据多维统计模型研究。通过对林地落界数据特点和统计尺度分析,建立基于星型模型的林地落界数据立方体,构建因子组合模型,并在基础上结合统计尺度,构建因子组合统计模型,实现不同尺度下的林地落界数据多维属性统计和空间统计。(3)林地落界数据优化部署研究。通过对林地落界统计粒度的划分与分配、索引体系研究,解决统计粒度在分布式并行环境下的管理问题。对林地落界统计任务的内涵进行分析,确定把维表在各节点复制,对林地落界事实表进行划分的数据划分思路。结合应用场景的特点,提出了基于Hilbert空间填充曲线的动态网格空间数据划分算法,从而确定林地落界统计粒度的大小。在此基础上,提出了基于任务量和图着色理论的空间数据部署方案。并基于统计特征,提出了基于GTMPR-tree(Graphy-Coloring theory based Multi-tiers Parallel R-tree)的多层索引体系。并通过测试表明以县为单位的空间数据粒度存储单位更适合并行快速统计的需求,且通过变异系数(C.V)衡量通过任务量改进的基于图着色的空间部署方案,结果表明改进的算法使得数据在各节点的分布更为均衡,均衡度提高了2倍多。(4)林地落界数据并行统计计算研究。通过给出统计任务粒度的大小,并行统计计算模型,以及提出基于GTMPR-tree的任务划分模型,解决了统计任务资源调度的问题。(5)统计结果汇集和缓存管理研究。针对影响统计效率的统计结果和缓存,给出了基于静态缓存表和动态语义缓存的二级缓存机构和混合缓存管理策略,进一步提出了基于相关性分析的缓存优化模型和基于评价机制的统计更新模型,来优化统计缓存。通过实验给出了潜在的有价值的因子组合。最后通过设计实验,从整体性能上测试分布式并行环境下统计效率,实验结果表明采用文中提出的关键技术,统计性能得到了显著的提升。
【关键词】:多维统计模型 数据优化部署 负载均衡 图着色 并行统计计算 统计结果汇集与缓存管理
【学位授予单位】:中国林业科学研究院
【学位级别】:博士
【学位授予年份】:2015
【分类号】:S757;TP311.13
【目录】:
  • 摘要5-7
  • Abstract7-19
  • 第一章 绪论19-39
  • 1.1 研究背景19-20
  • 1.2 研究目的意义20-21
  • 1.3 国内外研究现状21-35
  • 1.3.1 森林资源统计现状研究21-25
  • 1.3.2 森林资源管理统计技术的研究现状25-34
  • 1.3.3 存在问题与分析34-35
  • 1.4 研究目标与主要研究内容35-36
  • 1.4.1 研究目标35
  • 1.4.2 主要研究内容35-36
  • 1.5 研究技术路线36-37
  • 1.6 本文结构与组织37-38
  • 1.7 项目来源与经费支持38-39
  • 第二章 林地落界数据快速统计技术体系研究39-53
  • 2.1 林地落界数据统计应用需求分析39-40
  • 2.2 林地落界数据特点分析40-47
  • 2.2.1 林地落界数据管理特点分析41-43
  • 2.2.2 因子的时间地域特点分析43
  • 2.2.3 林地落界数据库属性因子分析43-44
  • 2.2.4 林地落界数据统计因子模型分析44-47
  • 2.3 构建林地落界数据快速统计技术体系47-52
  • 2.3.1 林地落界多维统计模型研究48-49
  • 2.3.2 林地落界数据优化部署研究49-50
  • 2.3.3 林地落界数据并行统计计算与统计结果汇集研究50
  • 2.3.4 构建林地落界数据快速统计技术体系50-52
  • 2.4 本章小结52-53
  • 第三章 林地落界数据多维统计模型研究53-83
  • 3.1 构建林地落界多维数据模型53-61
  • 3.1.1 林地落界数据的关键维度分析53-55
  • 3.1.2 构建基于数据立方体的林地落界多维数据模型55-61
  • 3.2 构建林地落界数据因子组合模型61-65
  • 3.2.1 林地落界数据因子组合特点分析61-62
  • 3.2.2 单因子模型的构建62
  • 3.2.3 双因子组合模型的构建62-63
  • 3.2.4 多因子组合模型的构建63-65
  • 3.3 构建林地落界数据多维统计模型65-81
  • 3.3.1 林地落界数据统计尺度分析65
  • 3.3.2 林地落界数据统计度量分析65-68
  • 3.3.3 构建基于统计单位的统计模型68-79
  • 3.3.4 构建基于空间查询的统计模型79-81
  • 3.4 本章小结81-83
  • 第四章 林地落界数据优化部署研究83-111
  • 4.1 林地落界数据统计的并行性分析83-87
  • 4.1.1 林地落界数据统计粒度内涵分析83-85
  • 4.1.2 林地落界数据统计任务的并行化过程85-87
  • 4.2 林地落界统计数据粒度的划分方法87-95
  • 4.2.1 林地落界数据立方体存储方式87-90
  • 4.2.2 数据划分建模过程90-92
  • 4.2.3 基于动态网格和Hilbert曲线的数据划分算法设计92-95
  • 4.3 基于图着色的林地落界统计数据粒度部署方法95-105
  • 4.3.1 林地落界数据统计数据粒度部署的问题描述95-96
  • 4.3.2 基于负载均衡和图着色的林地落界统计数据粒度部署建模96-99
  • 4.3.3 基于负载均衡和图着色的统计数据粒度部署的算法设计99-104
  • 4.3.4 基于图顶点的多副本数据粒度部署及算法设计104-105
  • 4.4 基于GTMPR-tree的多层索引结构设计105-109
  • 4.4.1 构建基于GTMPR-tree的多层索引体系105-107
  • 4.4.2 基于a R-tree的索引结构设计107-109
  • 4.5 本章小结109-111
  • 第五章 林地落界数据并行统计计算与统计结果汇集研究111-130
  • 5.1 林地落界数据并行统计计算研究111-116
  • 5.1.1 统计任务的多层次并行统计计算体系111-113
  • 5.1.2 林地落界统计任务分配计算模型113-114
  • 5.1.3 基于GTMPR-tree的林地落界统计任务分配方法114-116
  • 5.2 统计结果汇集研究116-119
  • 5.2.1 统计结果分类116
  • 5.2.2 统计结果汇集过程116-119
  • 5.3 统计结果缓存研究119-129
  • 5.3.1 林地落界数据的缓存机制119-121
  • 5.3.2 林地落界数据统计缓存的对象分类121-122
  • 5.3.3 基于二级缓存的林地落界数据的缓存结构设计122-124
  • 5.3.4 基于静态和动态缓存混合的林地落界数据缓存管理策略124
  • 5.3.5 基于相关性分析的因子组合优化研究124-127
  • 5.3.6 基于评分机制的统计缓存更新研究127-129
  • 5.4 本章小结129-130
  • 第六章 技术实现与应用验证130-149
  • 6.1 实验数据130-132
  • 6.2 实验环境132-134
  • 6.3 技术验证与结果分析134-148
  • 6.3.1 建立林地落界数据立方体135-138
  • 6.3.2 林地落界数据优化部署技术测试与结果分析138-145
  • 6.3.3 林地落界数据快速统计技术测试与结果分析145-148
  • 6.4 本章小结148-149
  • 第七章 结论与展望149-152
  • 7.1 本文总结149-150
  • 7.2 创新点150-151
  • 7.3 展望151-152
  • 参考文献152-163
  • 附录163-175
  • 在读期间的学术研究175-176
  • 致谢176

【参考文献】

中国期刊全文数据库 前2条

1 邹江涛;;我国林业统计指标体系研究进展[J];安徽农学通报;2006年13期

2 黄建文;遥感及GIS技术在森林资源信息更新中的应用[J];林业资源管理;2000年02期

中国硕士学位论文全文数据库 前1条

1 章剑涛;并行数据仓库环境下基于B~+树的分布式索引研究[D];燕山大学;2010年


  本文关键词:分布式并行环境下林地落界数据快速统计技术研究,由笔耕文化传播整理发布。



本文编号:412626

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/412626.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15474***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com