当前位置:主页 > 科技论文 > 软件论文 >

基于实时存储的海量大气颗粒物在线分析系统的研究

发布时间:2018-09-15 06:26
【摘要】:近年来,国内雾霾天气频发,范围广,时间长,严重影响民众的身体健康,同时也对交通、电力和农业造成的较大威胁,雾霾的治理已经引起了政府和社会的高度关注。但由于各大城市空气污染情况各异,且受到地理位置、气象条件、工业成分、城市格局等因素影响,因此治理环境污染必须对城市污染来源进行定性定量的科学研究,从而制定有明显针对性的防治措施。大气颗粒物的监测与分析是了解空气质量的重要手段,而传统的大气颗粒物分析主要依靠颗粒物总体分析技术、人工识别颗粒物类别和来源解析,这些技术手段有明显的缺陷:⑴传统的颗粒物总体分析法无法反映颗粒物内部特征,而现行基于单颗粒质谱仪的分析技术则更加科学;⑵单颗粒质谱仪每天可采集数GB数据,日积月累,数据量庞大,且颗粒物数据呈现半结构化特点,传统的关系型数据库不适用于本场景;⑶传统的人工分析手段耗时长、人工成本高、准确率低,在面临大数据量时无能为力,亟待一种颗粒物自动分析技术。本文针对传统大气颗粒物分析技术的缺陷,设计了一种基于实时存储技术的海量大气颗粒物在线分析系统,该系统由两个子系统组成,分别是基于Google levelDB存储引擎的海量数据存储子系统RyDB和基于数据挖掘的在线分析子系统。底层数据存储系统RyDB是一种KV型NoSQL数据库,采用levelDB存储引擎,支持主从复制和集群部署,用于存储实时采集或者离线收集的大气颗粒物数据;上层的在线分析系统采用自适应谐振理论(ART)网络聚类和逻辑回归分类等数据挖掘技术,实现对颗粒物数据的分类统计、来源解析等功能。经过实验测试,数据存储系统RyDB性能优异,在测试环境中每秒读写能达10万次,具有高吞吐、低时延的特点,能满足实时存储的需求;颗粒物在线分析系统的实验表明,系统时效性较强,32万组颗粒物能够在两小时内分析完毕,颗粒物分类的精确度为80%以上,满足系统需求,实现颗粒物数据的自动化分析。
[Abstract]:In recent years, domestic haze weather frequently, the scope is wide, the time is long, seriously affects the people's health, but also causes the bigger threat to the transportation, the electric power and the agriculture, the haze management has already caused the government and the society to pay close attention. However, due to the fact that the situation of air pollution in major cities is different and affected by the factors such as geographical location, meteorological conditions, industrial composition and urban pattern, it is necessary to carry out qualitative and quantitative scientific research on the sources of urban pollution in order to control the environmental pollution. Therefore, the prevention and cure measures have obvious pertinence. The monitoring and analysis of atmospheric particulate matter is an important means to understand the air quality, while the traditional analysis of atmospheric particulate matter mainly depends on the overall analysis technology of particulate matter, and manually identifies the category and source of particulate matter. These techniques have obvious defects. The traditional particle mass analysis method can not reflect the internal characteristics of particles, but the current analysis technology based on single particle mass spectrometer is more scientific and can collect GB data per day. The traditional relational database is not suitable for the traditional manual analysis method of this scene, which takes a long time, high labor cost and low accuracy. In the face of large amount of data, there is no way to analyze particulate matter automatically. Aiming at the defects of traditional atmospheric particulate matter analysis technology, this paper designs an on-line analysis system of massive atmospheric particulate matter based on real-time storage technology. The system consists of two subsystems. It is a mass data storage subsystem RyDB based on Google levelDB storage engine and an online analysis subsystem based on data mining. The underlying data storage system (RyDB) is a KV type NoSQL database, which uses levelDB storage engine to support master-slave replication and cluster deployment, and is used to store atmospheric particulate data collected in real time or offline. Data mining techniques such as adaptive resonance theory (ART) network clustering and logical regression classification are used in the upper layer online analysis system to realize the classification statistics and source analysis of particulate matter data. The experimental results show that the data storage system RyDB has excellent performance, can read and write 100000 times per second in the test environment, has the characteristics of high throughput and low delay, and can meet the demand of real-time storage. 320000 groups of particles can be analyzed in two hours, and the accuracy of classification of particulate matter is more than 80%, which meets the requirement of the system and realizes the automatic analysis of particulate matter data.
【学位授予单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 王康;李东静;陈海光;;分布式存储系统中改进的一致性哈希算法[J];计算机技术与发展;2016年07期

2 胡局新;张功杰;;基于K折交叉验证的选择性集成分类算法[J];科技通报;2013年12期

3 方锦清;;大数据浪潮冲击下网络科学与工程面临的挑战与机遇[J];自然杂志;2013年05期

4 陈明星;;城市化与经济发展关系的研究综述[J];城市发展研究;2013年08期

5 申德荣;于戈;王习特;聂铁铮;寇月;;支持大数据管理的NoSQL系统研究综述[J];软件学报;2013年08期

6 崔杰;李陶深;兰红星;;基于Hadoop的海量数据存储平台设计与开发[J];计算机研究与发展;2012年S1期

7 杨锦;李肯立;吴帆;;异构分布式系统的负载均衡调度算法[J];计算机工程;2012年02期

8 张琳;陈燕;汲业;张金松;;一种基于密度的K-means算法研究[J];计算机应用研究;2011年11期

9 银燕;童尧青;魏玉香;王体健;李嘉鹏;杨卫芬;樊曙先;;南京市大气细颗粒物化学成分分析[J];大气科学学报;2009年06期

10 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期

相关博士学位论文 前3条

1 杨英仪;面向云存储副本复制的一致性关键技术研究[D];华南理工大学;2015年

2 李磊;单颗粒气溶胶质谱仪的改进及环境应用[D];上海大学;2014年

3 刘应波;太阳望远镜海量数据存储关键技术研究[D];中国科学院研究生院(云南天文台);2014年

相关硕士学位论文 前9条

1 杨成阁;贵阳市PM_(10)、PM_(2.5)及其中多环芳烃的污染特征与来源解析研究[D];贵州师范大学;2014年

2 张鹏翔;云计算下基于SVM的沙尘暴数据挖掘研究[D];内蒙古工业大学;2014年

3 余骏;面向海量天文数据的分布式存储引擎的研究[D];天津大学;2014年

4 张莉;基于单颗粒气溶胶质谱信息的分类方法研究及其应用[D];上海大学;2013年

5 李旭;五种决策树算法的比较研究[D];大连理工大学;2011年

6 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年

7 王丹;辽宁省大气环境监测数据分析系统研究[D];东北大学 ;2009年

8 韦德志;城市区域空气质量的BP神经网络预测研究[D];华中科技大学;2009年

9 华敏洁;大气环境质量模型和GIS结合的研究[D];上海师范大学;2005年



本文编号:2244048

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2244048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d780***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com