当前位置:主页 > 科技论文 > 天文学论文 >

聚类算法在天文学中的应用

发布时间:2018-06-23 01:49

  本文选题:数据挖掘 + 聚类算法 ; 参考:《河北师范大学》2009年硕士论文


【摘要】: 随着大型光学望远镜的精度和深度不断提高,特别是巡天望远镜的发展,天文光学波段的数据急剧增加,成为探索各类天体和天文现象的物理本质的强有力武器。面对天文学“数据雪崩”和“信息爆炸”时代的到来,为了解决天文数据的复杂性、非线性、海量性和多波段性等一系列问题,借助数据挖掘技术来探索隐藏在数据中的有用信息势在必行。在此背景下,如何迅速准确地从这些海量数据中挖掘出所需要的信息,已成为天文学观测和数据处理的一个关键问题,直接影响着天文学发展和研究进程。本文利用一些适合于天文数据特点的数据挖掘技术和方法,主要是利用聚类算法对天体的自动分类和寻找出特殊天体的任务。工作主要包括以下三部分: (1)基于自动聚类算法的恒星/星系分类 自动聚类算法(AutoClass)是基于贝叶斯模型确定最优类别的经典混合模型的非监督聚类方法。它对处理非线性和高维数据有很高的效率。应用AutoClass对SDSS巡天的恒星/星系进行自动分类,根据点源和展源的不同特征表现,选择使用了PSF(pointspread function,点扩散函数)星等和模型星等在五个波段的差值作为输入参数,并设置了合适的标准,从而获得合理的分类结果,对恒星和星系的分类正确率分别达到了99.51%和98.52%,表明AutoClass算法对此类数据聚类有很好的效率。 (2) SDSS巡天的恒星样本探索 目的是探索SDSS恒星样本,找出其中的非恒星天体或特殊天体,从而建立一个纯的恒星样本。我们对SDSS巡天中具有光谱观测的恒星的测光数据应用AutoClass进行聚类分析,得到991个离群天体。然后将这些离群数据在NED和SIMBAD中认证,对于已证认的,发现它们绝大多数属于特殊天体,准确率高达90.7%,而对于未证认的,希望在更大口径更高精度的望远镜中证认,或许会发现一些有趣的天体或现象。 (3)星系形态分类 星系是构成宇宙的组成单元,而形态是它的基本特性。星系形态的研究是理解星系物理属性的首要步骤。这里根据天文学的任务将星系分成早型星系和晚型星系两类。应用SDSS巡天的星系测光数据,基于五个星等和四个颜色的多组参数,参考不同的分类标准,研究了将AutoClass和k-means两种算法用于星系形态的自动分类。研究结果表明不论对AutoClass还是k-means而言,发现基于颜色的分类效果明显高于基于星等的效果;AutoClass和k-means的分类效率相当;与单纯地基于单参数的星系分类相比,自动化算法具有高效性、灵活性、能够处理高维数据等优点。在数据日益丰富的时代,自动化聚类算法将越来越显示出其优越性。
[Abstract]:With the continuous improvement of the precision and depth of large optical telescopes, especially the development of the Sky Survey Telescope, the data of astronomical optical band increase rapidly, and become a powerful weapon to explore the physical essence of various celestial bodies and astronomical phenomena. In the face of the advent of the age of "data avalanche" and "information explosion" in astronomy, in order to solve a series of problems such as complexity, nonlinearity, magnanimity and multi-band characteristics of astronomical data, It is imperative to explore useful information hidden in data by means of data mining technology. In this context, how to quickly and accurately extract the needed information from these massive data has become a key problem in astronomical observation and data processing, which directly affects the development and research process of astronomy. In this paper, some data mining techniques and methods suitable for astronomical data characteristics are used, mainly the automatic classification of celestial bodies and the task of finding special celestial bodies by clustering algorithm. The main work includes the following three parts: (1) the automatic star / galaxy classification clustering algorithm based on automatic clustering algorithm (AutoClass) is a classical algorithm based on Bayesian model to determine the optimal classification. Unsupervised clustering method for mixed models. It has high efficiency in dealing with nonlinear and high dimensional data. Using AutoClass to classify the stars / galaxies of SDSs, according to the different characteristics of point source and spread source, the difference between the PSF (pointspread function, point diffusion function and the model magnitude in five bands is selected as the input parameter. And set the appropriate criteria to obtain reasonable classification results, The classification accuracy of stars and galaxies is 99.51% and 98.52% respectively, which indicates that AutoClass algorithm is efficient for this kind of data clustering. (2) the purpose of star sample exploration in SDSS survey is: Explore SDSS stellar samples, A pure sample of stars is established by identifying the non-stellar objects or special objects. We use AutoClass to cluster the photometric data of stars with spectral observations during the SDSS survey and obtain 991 outliers. These outliers are then authenticated in NED and SIMBAD, and for those that have been identified, most of them are found to be special objects, and the accuracy is as high as 90.7, while for those that are not identified, they want to be identified in telescopes with a larger aperture and higher accuracy. Some interesting celestial bodies or phenomena may be found. (3) Galaxy morphological classification galaxies are the constituent units of the universe and form is its basic characteristic. The study of galactic morphology is the first step in understanding the physical properties of galaxies. Galaxies are divided into early and late galaxies according to astronomical tasks. In this paper, the automatic classification of galactic morphology is studied by using SDSS-survey data, based on the parameters of five star sizes and four colors, and referring to different classification criteria. The two algorithms, AutoClass and k-means, are applied to the automatic classification of galactic morphology. The results show that for both AutoClass and k-means, the classification effect based on color is significantly higher than that based on magnitude. The classification efficiency of AutoClass and k-means is similar to that of autoClass and k-means, and the automatic algorithm is more efficient than the classification based on single parameter. Flexibility, the ability to handle high-dimensional data and other advantages. In the era of increasingly abundant data, the automatic clustering algorithm will show more and more advantages.
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:P152

【相似文献】

相关期刊论文 前10条

1 严丽平;;基于数据挖掘的电信客户细分模型的分析与设计[J];科技广场;2007年05期

2 张维化;杨国林;;数据挖掘技术在数据抽取中的研究与应用[J];内蒙古师范大学学报(自然科学汉文版);2008年04期

3 许雪贵;;基于数据挖掘的入侵检测系统研究[J];绍兴文理学院学报(自然科学版);2008年04期

4 郭丽蓉;陈立潮;叶树华;;数据挖掘技术在入侵检测中的应用[J];科技情报开发与经济;2006年24期

5 王鹤;;基于信息素的蚁群聚类算法[J];中国科技信息;2007年15期

6 李燕;;蚁群聚类算法研究现状的分析[J];中国科技信息;2009年09期

7 史小松;黄勇杰;刘永革;;数据挖掘技术中聚类的几种常用方法比较[J];中国科技信息;2009年20期

8 邢培;;数据挖掘的主要技术——聚类[J];科技信息;2010年20期

9 周颖;吕巍;井淼;;基于数据挖掘技术的移动通信行业客户细分[J];上海交通大学学报;2007年07期

10 严仍荣;;数值型关联规则挖掘在客户关系管理中的应用[J];皖西学院学报;2007年05期

相关会议论文 前10条

1 马洪杰;曲晓飞;;数据挖掘技术和过程的特点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

2 戈欣;吴晓芬;许建荣;;数据挖掘技术在放射科医疗管理中的潜在作用[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年

3 宿爱霞;林满山;;浅析数据挖掘技术在铝电解槽槽况确定中的方法研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

4 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

5 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年

6 魏元珍;杨沂凤;;数据挖掘技术及其在数字图书馆中的应用[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年

7 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年

8 巩耀亮;邱晓东;孙丽君;李树强;;数据挖掘技术在企业竞争情报系统中的应用研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年

9 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年

10 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

相关重要报纸文章 前10条

1 陈晓 山西财经大学教师;数据挖掘技术在高校教学管理中的应用[N];山西经济日报;2010年

2 记者 吕贤如;大力加强数据挖掘技术研究应用[N];光明日报;2006年

3 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年

4 首之;数据挖掘并不神秘[N];金融时报;2006年

5 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年

6 ;IBM公司推出新型数据挖掘技术[N];中国高新技术产业导报;2001年

7 徐扬;如何从数据中“挤出”效益[N];中国计算机报;2002年

8 山西银行学校 王林芳;数据挖掘在银行业务中的应用[N];山西科技报;2005年

9 任中华;财务数据挖掘六步走[N];中国计算机报;2007年

10 ;数据挖掘阻止银行客户流失[N];计算机世界;2007年

相关博士学位论文 前10条

1 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年

2 庞淑英;三江并流带旅游地质景观数据挖掘及旅游价值评价研究[D];昆明理工大学;2008年

3 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年

4 高清东;复杂供矿条件矿山技术指标整体动态优化系统及应用[D];北京科技大学;2005年

5 李兴;高光谱数据库及数据挖掘研究[D];中国科学院研究生院(遥感应用研究所);2006年

6 王玉峰;变电站瞬态电磁环境及微机保护系统EMC研究[D];大连理工大学;2007年

7 潘海天;数据挖掘技术在聚合过程建模与控制的应用研究[D];浙江大学;2003年

8 程其云;基于数据挖掘的电力短期负荷预测模型及方法的研究[D];重庆大学;2004年

9 束志恒;化学化工数据挖掘技术的研究[D];浙江大学;2005年

10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年

相关硕士学位论文 前10条

1 郑仁毅;基于数据挖掘技术的入侵检测系统研究与设计[D];厦门大学;2007年

2 马俊贤;数据挖掘算法在人才测评中的研究与应用[D];中北大学;2008年

3 孙业勤;基于数据分区的密度聚类算法应用研究[D];大连理工大学;2008年

4 尚俊平;基于距离的聚类和孤立点检测算法研究[D];郑州大学;2005年

5 齐先锋;数据挖掘在电信企业客户细分中的应用研究[D];江西理工大学;2007年

6 金萍;调整学习聚类算法的研究[D];合肥工业大学;2008年

7 李渊;基于K-means算法的数据挖掘可视化技术的应用研究[D];北京交通大学;2008年

8 童刚;数据挖掘在证券客户关系管理中的应用与实现[D];电子科技大学;2007年

9 陈小辉;基于数据挖掘的入侵检测技术研究[D];南京理工大学;2008年

10 黎慧娟;校园网用户行为的分析与研究[D];广西大学;2007年



本文编号:2055190

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/tianwen/2055190.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户51e49***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com