地质大数据发现与文本信息分析
【学位单位】:中国地质大学(北京)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:P628
【部分图文】:
法和技术条件有不同的需求,因此需要制定一个个性化的大数据分析与处理系统从而可以为社会公众提供更好的需求服务。本文着力解决大数据文本数据的语种障碍,在公共域互联网获取不同语种的专题信息,便于不同国籍公众间的数据共享服务,因此本章通过对大数据概念与特点,以及地质大数据发现的介绍,提出文本地质大数据发现的理论模型。2.1 大数据概念及特点李国杰等(2011)在进行的相关研究中对大数据的定义是,在一定的时间范围内无法采用传统的技术方法来对数据信息进行感知和有效处理的一组数据集合。这也充分说明了大数据是一个体量非常大的数据信息集合,在大数据中数据的种类是非常庞杂的,对这些海量的数据无法采用传统的数据库工具以及数据处理方法来进行内容的抓取与管理。自 2011 年以来不同的学者、机构一直在总结这大数据的特点,简单来说,大数据具有 5V 的特点,如图 2-1 所示。
图 2-2 文本大数据发现模式流程图各环节之间环环相扣,详细阐述如下:(1)数据发现:主要是通过互联网技术来对地质大数据进行快速查询检索。在地质大数据进行研究过程中首要解决的问题就是如何实现对海量数据的快速寻找与发现,通过设计数据发现模块可以优化了传统的使用搜索引擎进行数据查询以及数据获取的方式。该模块描述了互联网地质数据获取原理,依托需求结构树,构建关键词结构树与网址结构树,在此基础上双向检索数据,并利用大数据采集技术的方法获取与提取数据,提出了其中存在的相关问题,最终生成专题信息数据,为数据清洗与数据分析工作奠定了基础。(2)数据清洗:这个过程主要是对已经发现并检索到的数据进一步的整理,从而可以为接下来的大数据分析提供更好地服务。在该模块中主要是根据数据分析的需求对数据的格式以及数据种类进行整理,把一些不满足需求的数据进行剔
图 3-1 专题信息数据发现的主要流程3.1.2. 关键词结构树与网址结构树在公共域互联网上发现数据,目前大部分用户选择通过搜索引擎进行查询(如百度、搜狗等)。而这样查询出来的数据过于依赖输入的关键词,并且不能保证数据的全面性,同时,搜索得出的数据结果包括许多其他类型的数据,如Word 文档、图片、声像等非相关性数据,根据查询结果发现不能满足研究需要,如图 3-2 所示。假设数据目标是地质信息产品,通过百度搜索引擎搜索数据的结果如下,并不能得到有意义的数据。
【参考文献】
相关期刊论文 前10条
1 谭永杰;屈红刚;文敏;;论地质调查工作大数据[J];地理信息世界;2018年02期
2 王强;;大数据技术进展与发展趋势[J];电子技术与软件工程;2018年05期
3 刘思驿;;大数据时代信息分析的关键问题、挑战和对策[J];数字通信世界;2018年03期
4 孙晶涛;张秋余;;不均衡大数据集下的文本特征基因提取方法[J];电子科技大学学报;2018年01期
5 孙海雪;陈建平;吴永亮;王恩瑞;;基于大数据发现技术的国外地质信息服务跟踪[J];地质学刊;2017年03期
6 孙海雪;陈建平;郑啸;;世界主要发达国家地质信息服务体系的现状与特点[J];地质学刊;2017年03期
7 王珂;;大数据与计算机辅助翻译[J];北方文学;2017年21期
8 文军;吴晓凯;;找回失去的传统:“大数据”研究范式的反思与重构[J];新疆师范大学学报(哲学社会科学版);2018年01期
9 刘海涛;林燕妮;;大数据时代语言研究的方法和趋向[J];新疆师范大学学报(哲学社会科学版);2018年01期
10 甘琼;;大数据下的云会计特征及应用[J];中国集体经济;2017年16期
相关硕士学位论文 前10条
1 陈健;我国大数据技术发展的政策体系研究[D];云南师范大学;2017年
2 王敏;分布式网络爬虫的研究与实现[D];东南大学;2017年
3 赵悦含;匹兹堡大学网站翻译实践报告[D];哈尔滨师范大学;2016年
4 程佳;工业化、信息化、城镇化和农业现代化协调发展研究[D];浙江工业大学;2015年
5 岳雨俭;基于Hadoop分布式网络爬虫技术的研究[D];安徽理工大学;2015年
6 郑秋辉;基于垂直搜索引擎的文本挖掘系统研究与实现[D];首都师范大学;2014年
7 王亮;地质调查信息化中大数据平台研究[D];长江大学;2014年
8 李亚坤;基于网络的数据清洗技术研究[D];哈尔滨工业大学;2013年
9 夏琰;基于数据挖掘技术的税务数据仓库应用平台建设[D];浙江工业大学;2012年
10 张志轩;互联网热点话题的数据采集及数据集建立[D];北京邮电大学;2011年
本文编号:2881595
本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/2881595.html