当前位置:主页 > 科技论文 > 地质论文 >

地质大数据表示与关联关键技术研究

发布时间:2020-07-06 06:14
【摘要】:长期以来,地质调查领域积累了海量的数据,中国已建成10大类48个国家地质数据库,数据量超过700T,地质工作进入了数据密集型模式。地质大数据研究工作得到了国内外空前的重视,美英等国的地质调查机构都认识到地质大数据研究和应用的重要性,并制定了相应的地质大数据研究行动计划,我国也启动了地质云平台的建设。地质大数据属于时空大数据的一种,采用大数据技术直接在海量地质数据中挖掘知识,能突破“采样随机性和样本空间狭小”的传统地质数据分析方法的限制,可以推进数据驱动的地质智能服务,改变传统地质数据应用和协同服务能力不足的现状,促进地质科学的发展。大数据的表示与关联是大数据研究领域的热点,但是当前地质领域对大数据的表示及关联方面的研究还不足。由于地质对象存在着“参数信息不完全、结构信息不完全、关系信息不完全和演化信息不完全”的状况,对地质实体各种来源的信息进行关联显得尤为重要,而关联首先需要获取实体不同模态信息的合理表示。同样,对于关联的地质对象,通过合理的模型对其结构、属性和关联关系特征进行表示也便于后续的语义查询,聚类等其他任务。本文关注的问题首先是地质空间实体对象和其外部描述文本的关联,构建关联之后可以实现“图文互查”的地质资料应用模式;另外对于地质文本中的命名实体抽取研究工作已经开展,但是对抽取出的地质实体间的关联与表示方法还缺少研究。本文立足于地质大数据的信息服务应用需求,应用表示学习方法,深入研究了地质领域文本数据与空间数据的语义相似度计算问题,同时也对地质实体信息网络的构建及网络表示问题进行了深入的探讨,最后实现了一个具有一定实用功能的原型系统对部分方法进行了验证,以期为地质资料整合提供新方法,为地质资料信息提取和应用提供新范式。本文的主要研究内容如下:(1)地质大数据特征及相关表示技术分析。对所要研究的地质大数据的构成及相关表示技术进行了总结与分析,明确了地质大数据的组织与管理模式,对地质空间大数据和地质文本大数据的特征及当前的表示技术进行了梳理,探讨了引入自然语言处理领域模型对地质空间实体和文本对象进行表示的可行性。(2)基于句向量组合的层次化地质空间实体语义化表示方法。地质空间实体与其相关文本描述虽然都是对同一地质对象的表达,但在二者构建关联时却存在信息不对称、语义表达模式不一致等情况,本文选择段落作为地质文本对象的表示粒度,同时定义了富文本型地质空间实体的概念,设计了基于句向量组合的层次化地质空间实体语义化表示方法,把地质空间实体的属性和空间拓扑特征转化为句向量序列,把两类对象映射到统一的语义空间,解决了地质空间实体与地质文本的语义表达不一致问题。(3)用于地质空间实体与描述文本匹配的带注意力机制的层次化孪生网络模型。在对地质空间实体与地质文本合理表示的基础上,针对二者的匹配问题提出了一种带注意力机制的层次化孪生网络模型,该模型能够避免复杂的命名实体识别和语法语义分析等手工特征工程,有效学习到两类对象面向关联匹配任务的低维、实值语义向量表示,通过合理的损失函数设计,使训练过程中模型能够最小化匹配样本对向量之间的距离,同时最大化不匹配的样本对之间的距离,实验结果表明模型具有较好的性能。(4)基于本体映射的地质实体信息网络构建及表示方法。针对地质领域文本信息提取中地质实体间缺少语义关联的情况,设计了地质领域本体库,并基于本体库进行地质命名实体标注与命名实体识别及关系映射,进而构建了地质实体信息网络。通过对网络结构进行分析,指出其具有超边的性质,根据地质领域特点定义了星形地质实体信息网络模式,并制定了四种超边构建策略;利用表示学习模型对构建的地质实体信息网络进行了表示学习,定义了超边中节点不可分解的一阶相似性及邻接点越相似则实体表示越接近的二阶相似性,实验证明利用学习模型得到的地质实体节点表示可以有效用于多标签节点分类与节点相似性查询。(5)地质大数据表示与关联原型系统设计及实现。构建了地质大数据表示与关联原型系统,设计了系统架构以及数据处理模式、访问模式、计算模式。设计实现了多类型文件解析器来对各类型地质文本数据进行解析、归并与同构;提出了海量碎片化小体量文件的存储策略,集成了分词和向量化等常用的功能,构建了高效的地质大数据索引模型实现了地质大数据的高效检索,在平台中对地质资料进行了位置感知服务及图文关联查询等相关测试,结果符合预期。
【学位授予单位】:中国地质大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:P628
【图文】:

矢量图,属性特征,拓扑特征,空间数据


2.3.1 地质空间大数据特征地质空间实体大部分源于已有的地质空间数据集,其中地质空间实体以行集(RowSet)的形式存储在空间数据库中,下图2.1是澳大利亚地质调查局(AGSO)和昆士兰地质调查局(GSQ)于 1972 年(第二版)制作的 Dobbyn 地区的1:250000 平面地质矢量图。图中的地质实体包括面、线和点三种类型,其中面对象主要是地质多边形如岩石-地层单元等;线对象主要描述线性的地质结构特征,如断层,堤坝,褶皱,趋势,线条等;点对象主要包括矿点、结构点等。在图2.1的右侧是从空间数据库中提取的一系列地质实体的属性,包括地质单元名称,地质年代和岩性描述,线实体和点实体一般采用特征编码的方式记录特征,可以使用地质代码和相关描述的标准查询表获取具体的实体属性细节。

编写规范,地质报告,示例


图 2.5 地质报告编写规范示例**区域地质调查报告第一章绪论第二章地层第三章岩浆岩第四章变质岩第五章地质构造第六章矿产资源第七章专项调查第八章遥感地质第九章结论图 2.6 某区域地质调查报告一级章节目录质文档的体量方面来看,文档之间大小相差比较悬殊,长文档篇幅几百页,几十万字,单个文档的大小近百兆字节,短文档只有单页。式特点方面来看,地质报告文本以书面用语为主,句子结构简洁、

神经网络模型,三层,词表,单词


图 2.7 Yoshua 提出的用以获取词向量的三层神经网络模型[37]由上图 2.7 可以看出,输入层为前 n-1 个词在词表中的索引,词表中的每行初始化为预设好长度的(如 50)一个向量,根据 look-up 层和索引号把对应词的向量(如上图中的1( )tC w )取出来串接后作为隐层的输入,如果有 3 个单词,则串接后的向量长度即为 150 维,经隐层计算输出后的结果作为 softmax 输出层的输入,softmax 层的神经元数目与整个词表中单词数目 V 一致

【相似文献】

相关期刊论文 前10条

1 马笳;XML技术与网络教育(下) XML相关标准与学科数据表示[J];信息技术教育;2003年09期

2 段庆伟;铁木巴干;;在WCF RIA Service数据表示模型中新增数据[J];科技经济导刊;2017年24期

3 ;升级旧的电器设备:[J];资源节约与环保;2013年02期

4 宋文;;浅谈计算机中数据的表示方法[J];科技信息(科学教研);2007年11期

5 徐冬梅;杨建军;;计算机图形、图像处理及环境数据表示和交换的标准化综述[J];信息技术与标准化;2006年05期

6 陈思;刘泽新;梁浩哲;;航天发射场综合环境数据表示与交换方法[J];电讯技术;2013年10期

7 杨森,战守义,费庆;使用SEDRIS的环境数据表示与交换[J];计算机工程;2002年12期

8 郭刚 ,李革;综合环境建模及其数据表示与交换[J];情报指挥控制系统与仿真技术;2001年02期

9 郭平,陈CL菲立浦,孙寅官;隐层神经元自适应算法:通过数据表示达到完备学习[J];北京师范大学学报(自然科学版);1996年01期

10 梁浩哲;张军;廉蔺;李国辉;;基于SEDRIS的综合战场环境数据表示模型[J];计算机与现代化;2008年07期

相关会议论文 前5条

1 代一帆;董靓;;建筑数据表示和交换标准IFC综述[A];建筑环境与建筑节能研究进展——2007全国建筑环境与建筑节能学术会议论文集[C];2007年

2 李清宝;雷明;;谈计算机组成原理课程中运算方法的教与学[A];中国电子教育学会高教分会2013年学术年会论文集[C];2013年

3 姚启红;徐鹏;;基于Java技术的XSL-FO数据转换引擎——XSL数据表示引擎[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年

4 李鹏;赵成勇;;利用Java技术实现基于XML的Web服务[A];Java技术及应用的进展——第七届中国Java技术及应用交流大会文集[C];2004年

5 陈滢;姚小巍;金文;董逸生;;内存数据库的技术探讨[A];第十二届全国数据库学术会议论文集[C];1994年

相关重要报纸文章 前10条

1 本报记者 陈听雨;英4月零售额增幅创5年新高[N];中国证券报;2011年

2 吴挺;创新不是喊出来的[N];计算机世界;2006年

3 吴学安;中产阶层不能靠自封[N];中国财经报;2010年

4 魏文彪;“被中产”误导政府民众[N];中华工商时报;2010年

5 姚启红 谢飞;XSL-FO:XML数据表现技术[N];计算机世界;2006年

6 涂子沛 阿里巴巴副总裁;大数据推动精细决策[N];人民日报;2015年

7 JOELLE DIDERICH 译 樊帆;Prada上半年收入增4%[N];中国服饰报;2015年

8 高博;寻找软件的下一次高潮[N];电脑报;2004年

9 ;H&M销售额持续下降[N];中国服饰报;2009年

10 本报记者 杨汛;本市经济增速逐季走稳[N];北京日报;2014年

相关博士学位论文 前3条

1 马凯;地质大数据表示与关联关键技术研究[D];中国地质大学;2018年

2 尚凡华;基于低秩结构学习数据表示[D];西安电子科技大学;2012年

3 罗鹏;基于子空间学习的数据表示方法研究[D];西北大学;2017年

相关硕士学位论文 前9条

1 卢爽;基于数据表示和关联学习的降维方法研究[D];东北师范大学;2018年

2 张翔;多级闪存的数据表示方案及差错控制技术研究[D];西安电子科技大学;2014年

3 郑媛媛;基于非负矩阵分解的数据表示算法研究及其应用[D];南京理工大学;2013年

4 张学茂;关联规则挖掘研究[D];长沙理工大学;2006年

5 王志利;三维直流电场物理模拟的数据表示方法研究[D];吉林大学;2009年

6 杜涛;锂铅实验回路仿真系统中的数据表示与可视化问题研究[D];合肥工业大学;2012年

7 朱江;移动对象轨迹序列模式挖掘[D];南京航空航天大学;2016年

8 邹珊;面向高维数据的共享子空间识别方法研究[D];北京交通大学;2015年

9 薛兆麟;基于XML的电子病历系统及其院际信息共享技术研究[D];浙江工业大学;2006年



本文编号:2743270

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/2743270.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27812***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com