基于多结构数据挖掘的滑坡灾害预测模型研究
本文关键词:基于多结构数据挖掘的滑坡灾害预测模型研究 出处:《中国地质大学》2016年博士论文 论文类型:学位论文
更多相关文章: 数据挖掘 滑坡 云计算 非关系型数据库 三峡库区
【摘要】:随着社会经济的大规模发展,人类活动领域的逐渐扩展,滑坡事故发生的频率和强度均呈增长之势,所造成的人员伤亡和经济损失也在逐步加大。长江三峡库区地质条件复杂,随着各类工程项目的进一步扩大实施,导致人类工程活动越发频繁,对库区周边地质环境的影响颇深,直接或间接导致了已有滑坡的复发和新生型滑坡的产生,但国内现有的经济前提条件和人力成本并无法对所有存在危险的滑坡逐一治理。因此,基于数据挖掘技术的滑坡时空预测模型研究具有更现实的意义,是实现库区防灾减灾战略及水库安全运营的迫切需求。论文系统总结了滑坡时间与空间预测模型特点、多结构数据挖掘方法及分布式数据系统平台建设等方面的国内外研究现状及存在问题。在前人研究的基础之上,以滑坡灾害频发及人类工程活动频繁的三峡库区秭归到巴东段为研究区,采用NoSQL结构体系构建滑坡多结构数据库,建立分布式存储与共享机制。以滑坡时空预测模型分析及稳定性判据提取为出发点,利用文本数据、监测数据、空间数据等分别建立多结构因子评价指标并定义相应的计算公式,以此建立基于多结构数据挖掘的滑坡稳定性时间预测模型和区域滑坡灾害体易发性评价模型。以NoSQL理论为数据存储体系,在客户端设计了数据挖掘平台,实现滑坡位移模型预测值的输出及可视化。同时考虑滑坡未来监测数据量将呈指数倍增长的趋势,在MapReduce编程框架下对滑坡预测模型中的关联规则算法进行并行转换,实现滑坡大规模数据处理的时间效率提升。具体成果和主要结论如下:(1)对研究区四种数据类型进行了分析与整理,统一滑坡多结构数据的存储物理模型。通过分析研究区滑坡专业监测数据及其他数据的特征,探讨了当前滑坡数据库建设的问题:传统关系型数据库表格结构不统一,缺乏对多源、异构滑坡数据的有效管理。以建立多结构数据存储体系为最终目的,将所有滑坡历史数据初始分为监测数值数据、空间数据、文本数据和图片数据;利用NoSQL存储结构下的文档型数据库MongoDB,数据统一转换为BSON格式存储到文档数据库系统中,最终得到监测数据集、文本数据集和图片数据集;这种高效的键-值形式,为多种格式、不同来源、关系松散的滑坡数据类型提供了结构存储格式。(2)结合多结构评价因子建立了滑坡时间、空间预测模型及多维判据提取流程,实现单体滑坡稳定性评价和区域滑坡易发性分析。融合多结构数据挖掘理论,首先从滑坡时间预测模型分析入手,利用研究区白家包滑坡监测数据及文本数据,归纳综合评价因子系数计算公式,结果表明降雨是影响滑坡变形的主导诱发因素;详细分析了白家包滑坡地表变形位移特性与影响因素间的响应关系,结果表明该滑坡受季候性水力影响较大,确定了将月累积降雨量作为评价指标,指导二次指数平滑模型参数的取值;结果显示优化模型比原始模型对滑坡累计位移的预测精度要高,对滑坡中短期变形趋势时间预报效果要好。同时在考虑诱发因素的前提下,建立了优化后的Arima模型,结果表明该模型对滑坡相对位移的拟合预测能力较好,平均相对误差比原始Arima模型高出6.28%。由于研究区内水循环系统动力对斜坡软弱面的稳定性影响很大,涉水滑坡的大面积突发会造成河道拥塞和居民人生和财产安全,因此,三峡库区沿岸滑坡的稳定性评价工作将显得更为重要,在对滑坡前缘高程、据河距离、面积等数值指标和所在区发育岩性等矢量数据及离散属性的挖掘过程中发现,所在区域岩性为软性或软硬相间、坡度在15°-45°范围内、距离河岸在0.1~117.90m时越可能发生危险,这对新生型滑坡危险性的判别提供了先验规则。例如白家包滑坡就属于危险性较高的案例,在已有滑坡演化阶段分类的知识驱动下,以降雨、库水位、地下水监测指标构建了关联规则模型,结果表明白家包滑坡更容易受到持续降雨和库水位波动的共同影响,同时由降雨导致的地下水快速下降会促使滑坡加速进入破坏变形阶段,该类判据对滑坡稳定性预测的精度达到了91.07%。另外本文从面向对象的多尺度分割和专家分级的技术角度出发,基于区域滑坡易发性理论构建了以遥感影像和库水、坡度、斜坡结构、工程岩组数据的C5.0决策树模型,实现了对研究区四类单元的易发性预测。多尺度分割后的研究区共被分割成2279个对象,模型显示训练样本和测试样本平均正确率达91.64%,Kappa系数分别为0.84、0.51。模型预测结果主要以不易发区和高易发区出现为主,低易发区和中易发区的空间预测频数相加只有141处,共占对象总数的6.19%,实验表明C5.0决策树算法具有较好的分类性特征,能够对区域空间稳定性给出明确的易发性划分。通过决策树模型建立研究区滑坡易发性分类预测图,预测结果显示高易发性单元较易在长江干流及支流两岸出现,工程岩组通常表现为软岩岩组和软硬相间岩组;总结坡体结构和坡度的发育规律,结果表明坡度在15°-30°之间且出现顺向坡或斜向坡的区域较易出现高易发性单元。这与历史矢量数据分析的结果情况相贴切,模型预测结果可靠。(3)搭建了基于MongoDB的多结构滑坡数据挖掘系统平台,实现了基于分布式数据库技术支持下的滑坡多结构数据挖掘功能。利用MongoDB数据库与Java语言框架,编程实现了多结构化数据分布式存储、查询及优化后的二次指数模型功能,分别在服务器端和客户端部署了数据平台。以树坪滑坡作为研究对象,在数据分析阶段搜索相关文档和监测数据作为评价指标,获取多结构评价因子系数的大小,其中库水位指标系数最大,达到了0.65;后续实验也证明在引起树坪滑坡失稳的规则中,库水位的快速下降起到了比较明显的作用,尤其在破坏变形阶段和剪切膨胀阶段,快速下降的库水位是诱发滑坡失稳的最重要因素;在库水位波动与树坪滑坡演化阶段的高度关联支持的前提下,编程实现了指数优化模型的导入,通过库水位的动态变化修正模型参数值,最终采用Java窗体和曲线绘制组件实现了模型预测值与滑坡累计位移实测值的输出及可视化,模型平均相对误差为5.5%。(4)设计了基于云计算环境下的Apriori并行化算法,实现对海量滑坡监测数据频繁项的快速提取。通过分析滑坡预测模型中的Aporiori算法流程,融合并行化编程框架MapReduce理论,分别实现了频繁项提取的Map和Reduce方法设计。采用Hadoop1.2.1稳定版,搭建包含8个节点服务器的集群。把上述两类并行化后的算法部署到集群中的云计算平台上运行,最后利用滑坡监测数据集,比较算法在单机和集群系统上的不同时间效率。结果表明在数据规模不断增长下,加速比性能将得到了提升,例如当数据量达到60822条时,加速比为1.56。基于MapReduce的并行算法可以解决在单机系统下滑坡大规模数据挖掘的时间瓶颈问题,由于任务可被分配到各处理器的工作周期中进行,可节约整体的资源开销,提升时间效率。
【学位授予单位】:中国地质大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:P642.22
【相似文献】
中国期刊全文数据库 前10条
1 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
2 黄宏涛,陈阳;数据挖掘在客户关系管理中的应用[J];中国西部科技;2005年07期
3 董大鸿,何海青;浅谈数据挖掘语言[J];江西科学;2005年03期
4 曾莹,陈晓柱;数据挖掘及算法浅谈[J];中国科技信息;2005年14期
5 谭建中;浅析实施数据挖掘项目需要考虑的问题[J];大众科技;2005年09期
6 石峰,周绍梅;数据挖掘语言及其标准化浅析[J];江西科学;2005年01期
7 周忠眉;数据挖掘课程大纲的建设[J];漳州师范学院学报(自然科学版);2005年01期
8 王秀丽;数据挖掘功能特性及其应用流程分析[J];科技创业月刊;2005年05期
9 刘晓华;;数据挖掘在银行中的应用[J];科技资讯;2006年32期
10 张敏;;数据挖掘在数字化校园建设中的应用分析[J];内江科技;2007年04期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
,本文编号:1313402
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1313402.html