当前位置:主页 > 科技论文 > 地质论文 >

地质大数据发现与文本信息分析

发布时间:2020-11-13 02:29
   最近几年大数据技术与计算机科学技术飞速发展,在地质、生物、医药以及工业等众多领域中都开始对大数据技术进行广泛应用,这种技术已经成为人们最为熟知的技术类专业词汇。大数据的出现让人们重新认识对科学研究方法的理论,从而产生了全新的思维模式。面对海量数据,人们只需从这些数据中获取有价值的信息,进而转换为知识。地质大数据主要包括公共地质数据和核心地质数据,公共地质数据主要用于科学普及等方面,核心地质资料含有大量保密数据,不能对外公开,主要存储在局域网中,结合大数据技术方法,充分挖掘公共数据的潜在价值,是地质大数据应用的一个重要方面。对地质大数据的研究已经成为我国的国家大数据战略其中一个重要内容。在大数据的新兴时代下,有效挖掘高价值的数据与信息,合理使用地质大数据,科学分析相关数据信息,具有十分重要的意义。在地质科学领域大量数据中隐藏这非常重要的信息,通过采用大数据技术可以对数据中这些隐藏的重要信息进行发掘,从而可以促进整个学科的不断发展与深入研究。大数据技术在近几的发展中已经在很多学科与领域中都得到了广泛应用,采用大数据进行数据分析与挖掘具有重要意义,尤其是在医疗和教育领域,采用大数据技术进行分析可以给人们的生活带来更多便利。本文主要研究的是针对外文文本大数据应用的相关需求,总结大数据相关基础理论知识,从大数据发现理论模式入手结合大数据关键技术和方法,提出文本大数据发现理论模型,对体系中部分环节提出合理的解决措施、技术手段与应用。在数据发现模块依托需求结构树,从关键词与网址两个方面进行专题信息提取,以保证数据的全面性与系统性,利用在线工具,设定符合需求的规则进行网络爬虫,获取海量数据,并进行粗略清洗以获得有效的专题信息数据;在数据分析模块,利用python语言实现多篇文本文档的多国语言互译的翻译功能,以减少人为工作量,加速翻译速度。最后以探讨地质信息服务为实例应用,应用上述技术手段,结合文献研读、分析的传统方式解决国外地质信息服务产品相关数据的获取与分析问题,并进行分析成果集成。
【学位单位】:中国地质大学(北京)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:P628
【部分图文】:

地质,需求服务,国籍,语种


法和技术条件有不同的需求,因此需要制定一个个性化的大数据分析与处理系统从而可以为社会公众提供更好的需求服务。本文着力解决大数据文本数据的语种障碍,在公共域互联网获取不同语种的专题信息,便于不同国籍公众间的数据共享服务,因此本章通过对大数据概念与特点,以及地质大数据发现的介绍,提出文本地质大数据发现的理论模型。2.1 大数据概念及特点李国杰等(2011)在进行的相关研究中对大数据的定义是,在一定的时间范围内无法采用传统的技术方法来对数据信息进行感知和有效处理的一组数据集合。这也充分说明了大数据是一个体量非常大的数据信息集合,在大数据中数据的种类是非常庞杂的,对这些海量的数据无法采用传统的数据库工具以及数据处理方法来进行内容的抓取与管理。自 2011 年以来不同的学者、机构一直在总结这大数据的特点,简单来说,大数据具有 5V 的特点,如图 2-1 所示。

流程图,发现模式,文本,流程图


图 2-2 文本大数据发现模式流程图各环节之间环环相扣,详细阐述如下:(1)数据发现:主要是通过互联网技术来对地质大数据进行快速查询检索。在地质大数据进行研究过程中首要解决的问题就是如何实现对海量数据的快速寻找与发现,通过设计数据发现模块可以优化了传统的使用搜索引擎进行数据查询以及数据获取的方式。该模块描述了互联网地质数据获取原理,依托需求结构树,构建关键词结构树与网址结构树,在此基础上双向检索数据,并利用大数据采集技术的方法获取与提取数据,提出了其中存在的相关问题,最终生成专题信息数据,为数据清洗与数据分析工作奠定了基础。(2)数据清洗:这个过程主要是对已经发现并检索到的数据进一步的整理,从而可以为接下来的大数据分析提供更好地服务。在该模块中主要是根据数据分析的需求对数据的格式以及数据种类进行整理,把一些不满足需求的数据进行剔

声像,数据发现,搜索引擎


图 3-1 专题信息数据发现的主要流程3.1.2. 关键词结构树与网址结构树在公共域互联网上发现数据,目前大部分用户选择通过搜索引擎进行查询(如百度、搜狗等)。而这样查询出来的数据过于依赖输入的关键词,并且不能保证数据的全面性,同时,搜索得出的数据结果包括许多其他类型的数据,如Word 文档、图片、声像等非相关性数据,根据查询结果发现不能满足研究需要,如图 3-2 所示。假设数据目标是地质信息产品,通过百度搜索引擎搜索数据的结果如下,并不能得到有意义的数据。
【参考文献】

相关期刊论文 前10条

1 谭永杰;屈红刚;文敏;;论地质调查工作大数据[J];地理信息世界;2018年02期

2 王强;;大数据技术进展与发展趋势[J];电子技术与软件工程;2018年05期

3 刘思驿;;大数据时代信息分析的关键问题、挑战和对策[J];数字通信世界;2018年03期

4 孙晶涛;张秋余;;不均衡大数据集下的文本特征基因提取方法[J];电子科技大学学报;2018年01期

5 孙海雪;陈建平;吴永亮;王恩瑞;;基于大数据发现技术的国外地质信息服务跟踪[J];地质学刊;2017年03期

6 孙海雪;陈建平;郑啸;;世界主要发达国家地质信息服务体系的现状与特点[J];地质学刊;2017年03期

7 王珂;;大数据与计算机辅助翻译[J];北方文学;2017年21期

8 文军;吴晓凯;;找回失去的传统:“大数据”研究范式的反思与重构[J];新疆师范大学学报(哲学社会科学版);2018年01期

9 刘海涛;林燕妮;;大数据时代语言研究的方法和趋向[J];新疆师范大学学报(哲学社会科学版);2018年01期

10 甘琼;;大数据下的云会计特征及应用[J];中国集体经济;2017年16期


相关硕士学位论文 前10条

1 陈健;我国大数据技术发展的政策体系研究[D];云南师范大学;2017年

2 王敏;分布式网络爬虫的研究与实现[D];东南大学;2017年

3 赵悦含;匹兹堡大学网站翻译实践报告[D];哈尔滨师范大学;2016年

4 程佳;工业化、信息化、城镇化和农业现代化协调发展研究[D];浙江工业大学;2015年

5 岳雨俭;基于Hadoop分布式网络爬虫技术的研究[D];安徽理工大学;2015年

6 郑秋辉;基于垂直搜索引擎的文本挖掘系统研究与实现[D];首都师范大学;2014年

7 王亮;地质调查信息化中大数据平台研究[D];长江大学;2014年

8 李亚坤;基于网络的数据清洗技术研究[D];哈尔滨工业大学;2013年

9 夏琰;基于数据挖掘技术的税务数据仓库应用平台建设[D];浙江工业大学;2012年

10 张志轩;互联网热点话题的数据采集及数据集建立[D];北京邮电大学;2011年



本文编号:2881595

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/2881595.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c775***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com