基于数据质量与势熵的聚类算法研究
本文关键词:基于数据质量与势熵的聚类算法研究 出处:《武汉大学》2016年博士论文 论文类型:学位论文
更多相关文章: 矢量数据场 数据质量 质量聚类 势熵 人脸自动聚类
【摘要】:随着计算机科学的发展,人类社会已经进入到大数据时代。在大数据时代,数据分析技术成为了利用大数据资源的关键工具,能够发现数据中的价值,就能够在大数据时代占据先机。数据挖掘作为数据分析的关键技术,在大数据时代有着广泛的应用前景。数据挖掘能够发现数据中隐藏的知识,充分利用数据资源,在一定程度上解决数据庞大而知识匮乏的问题。在数据挖掘中,主要有三种分析方式,分类,关联和聚类。分类和关联在机器学习中属于监督型学习算法,聚类属于非监督型学习算法。在大数据时代,往往强调全数据集的挖掘和学习,并且很难有合适的训练集对算法进行训练。因此,非监督学习算法更适合大数据时代的背景,聚类分析也成为数据挖掘的研究热点。本文针对数据挖掘中的聚类问题,提出了矢量数据场的理论、数据场数据质量的新概念、数据质量聚类算法、基于势熵的峰值密度聚类算法。并使用人脸表情识别和人脸自动聚类两种实例对相关的理论和方法进行了检验。首先,数据场是一种分析数据的模型,经典的数据场理论通过势能描述数据在数据集中的分布情况。本文在其基础上,提出了矢量数据场的概念,让数据场不仅能描述数据的分布,还可以描述数据的运动趋势,并通过哈密顿算子统一了矢量数据场和数量数据场的模型。其次,数据场的概念来源于物理场,而物体在物理场中有质量,因此,数据在数据场中也应有质量。本文提出了数据质量的新概念,即代表数据在数据集中的固有属性,并随着挖掘视角的改变而变化,其本质是衡量数据在特定挖掘视角下的权值。对于数据场中不随挖掘视角改变的属性,本文提出了数据场基本矩阵的概念,并建立起数据场基本矩阵、数据质量和数据势能的线性方程组。数据场基本矩阵进一步将数据场的计算矩阵化,并在此基础上提出数据最优质量的内凸点解法,解决了经典数据场理论求解最优数据质量受初始点选取影响的问题。在势能与质量的方程组基础上,结合“学习机”的思想,提出了基于非齐次线性方程组的最优数据质量的求解方法,提高了数据质量求解的效率。然后,在数据质量的基础上,提出了数据质量聚类算法。让数据质量代表数据的密集程度,找到聚类中心,并通过一次迭代完成聚类。该方法解决了传统划分聚类算法聚类中心确定不准确,需要提前输入聚类个数等问题。对于《Science》上发表的“峰值密度聚类算法”,需要手动设定阈值的问题,提出了基于势熵的峰值密度聚类算法。该方法基于香农熵与聚类不确定性之间的关系,建立起香农熵与阈值之间的关系函数,由此来确定每个数据集所对应的最佳阈值,提高了聚类算法的普适性。最后,通过人脸表情识别和人脸自动聚类对新理论,新概念和新方法进行了检测。结果表明,数据质量能够很好地反映出像素点在人脸表情中的权值,并能构建出较好的人脸表情特征脸,得到理想的识别结果。而数据质量聚类算法和基于势熵的峰值密度聚类算法在人脸自动聚类中能够得到优于峰值密度聚类算法和DBSCAN等经典聚类算法的结果。
[Abstract]:With the development of computer science, human society has entered the era of big data. In the era of big data, data analysis technology has become a key tool to use big data resources, and it can find the value in data, and it will take the initiative in the era of big data. As the key technology of data analysis, data mining has a wide application prospect in the era of large data. Data mining can discover the hidden knowledge in the data, make full use of the data resources, and solve the problem of large data and lack of knowledge to some extent. In data mining, there are three main types of analysis, classification, association and clustering. Classification and association are supervised learning algorithms in machine learning, and clustering is an unsupervised learning algorithm. In the era of large data, the mining and learning of the full data set is often emphasized, and it is difficult to train the appropriate training set for the algorithm. Therefore, the unsupervised learning algorithm is more suitable for the background of the large data age, and clustering analysis has become a hot topic in the research of data mining. Aiming at the clustering problem in data mining, this paper proposes vector data field theory, new concept of data field quality, data quality clustering algorithm and peak density clustering algorithm based on potential entropy. Two examples of facial expression recognition and automatic face clustering are used to test the related theories and methods. First, the data field is a model of data analysis. The classical data field theory describes the distribution of data in the data set through potential energy. Based on it, we put forward the concept of vector data field, so that data field can not only describe the distribution of data, but also describe the trend of data movement, and integrate the vector data field and quantitative data field model by Hamiltonian operator. Secondly, the concept of the data field comes from the physical field, and the object has the mass in the physical field. Therefore, the data should also have the quality in the data field. This paper proposes a new concept of data quality, that is, the inherent attributes representing data in data sets, and changes with the change of mining perspective. The essence of data is to weigh data in a specific mining perspective. For data fields that do not change with the mining perspective, the concept of data field basic matrix is proposed, and the linear equations of data field basic matrix, data quality and data potential energy are established. The basic matrix of data field further matrixes the computation of data field, and on this basis, we propose the solution of the interior convex point of the best quality of data, and solve the problem that the optimal data quality of classical data field is affected by the initial point selection. Based on the equations of potential energy and mass, combined with the idea of learning machine, a method of solving the optimal data quality based on non-homogeneous linear equations is proposed, which improves the efficiency of data quality solving. Then, on the basis of data quality, a data quality clustering algorithm is proposed. The data quality represents the intensity of the data, and the clustering center is found and the clustering is completed by one iteration. This method solves the problem that the clustering center of the traditional partition clustering algorithm is inaccurate and needs to enter the number of clustering in advance. For the "peak density clustering algorithm" published in "Science", it is necessary to manually set the threshold problem, and a peak density clustering algorithm based on potential entropy is proposed. Based on the relationship between Shannon entropy and clustering uncertainty, this method establishes the relationship function between Shannon entropy and threshold, so as to determine the optimal threshold for each dataset and improve the universality of clustering algorithm. Finally, the new theory, new concept and new method are detected by facial expression recognition and face automatic clustering. The results show that the quality of data can well reflect the weight of pixels in facial expression and construct a better facial expression feature face, and get the ideal recognition result. The data quality clustering algorithm and the potential density based peak density clustering algorithm can get better results than the peak density clustering algorithm and DBSCAN and other classical clustering algorithms.
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 鞠彦辉;;企业数据质量问题及其对策[J];中国管理信息化(综合版);2007年09期
2 晨阳;;数据的生命之源是质量——Business Objects公司发布其亚太地区数据质量调研报告[J];每周电脑报;2006年48期
3 刘贤荣;;构建数据质量治理体系的思考[J];金融电子化;2014年04期
4 亓文会;李传春;;企业信息化中数据质量监督控制研究[J];中国管理信息化(综合版);2007年07期
5 苏小会;葛宇洲;;数据质量提高方案探究[J];电子测试;2014年08期
6 毕思文,景东升;数字人体数据质量标准[J];中国医学影像技术;2004年05期
7 卢绍年;;浅析企业信息化建设与数据质量[J];广西电业;2013年03期
8 丁华;;计算机辅助调查与数据质量[J];统计与决策;2014年03期
9 李庆莉;关注数据质量[J];中国金融电脑;2003年11期
10 毕月侠;;影响企业信息系统数据质量的因素和提高的措施[J];现代商业;2009年12期
相关会议论文 前10条
1 郑华;;基于数据世系的数据质量评估框架[A];广西计算机学会2010年学术年会论文集[C];2010年
2 陈翼;;数据质量理论与高校信息化应用建设探索[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
3 卢来发;王树理;;影响数据质量的因素分析及对策[A];山西省第七次统计科学讨论会论文集[C];2003年
4 王华;;利用抽样调查评估普查数据质量的理论初探[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 刘慧;蔡青;刘敏;;基于Vague集的数据质量综合评估方法[A];第十二届中国管理科学学术年会论文集[C];2010年
6 侯培庄;;确保CUJA质量的几点建议[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
7 顾彬;王彦敏;卢刚;;大比例尺DLG数据质量检查方法研究[A];江苏省测绘学会2009年学术年会论文集[C];2009年
8 钱闯;刘晖;张红娟;;Trimble BD970 OEM板数据获取与质量分析[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年
9 李斌;;对CUJA数据质量及系统软件的几点建议[A];外向型文献库的数据质量控制——首届CUJA系统学术讨论会论文集[C];1990年
10 汪锡锟;;大型普查的组织工作研究[A];北京市第十三次统计科学讨论会论文选编[C];2006年
相关重要报纸文章 前10条
1 白春华;丰宁国税不断提高征管数据质量[N];承德日报;2008年
2 ;采取多种举措确保数据质量[N];郑州日报;2009年
3 李艳;华宁确保经普数据质量[N];玉溪日报;2009年
4 乔希萍;提高数据质量 提升统计能力为科学发展提供有力的统计 保障[N];济南日报;2009年
5 ;数据质量市场仍有很大挖潜空间[N];网络世界;2009年
6 孙洪辉 涂辉荣 肖小群;诏安重视数据质量建设[N];中国工商报;2010年
7 李明湘 段钟张;荆州数据质量建设步入“四化”轨道[N];中国工商报;2010年
8 通讯员 周明君 洪炜勋;宁陕统计局“五字”原则保数据质量[N];安康日报;2011年
9 郑卫青;让数据不再掣肘公司经营[N];中国保险报;2011年
10 杨克;内江推进办案数据质量建设[N];中国工商报;2011年
相关博士学位论文 前1条
1 王大魁;基于数据质量与势熵的聚类算法研究[D];武汉大学;2016年
相关硕士学位论文 前10条
1 王永凯;我国GDP数据质量实证研究[D];首都经济贸易大学;2015年
2 王彬;制药企业流向数据质量量化管理模式构建[D];对外经济贸易大学;2015年
3 于天娇;基于元数据的银行数据质量管理技术研究[D];浙江大学;2015年
4 凌云;数据质量评估方法研究[D];四川师范大学;2015年
5 方剑委;基于滤波对角化方法提高傅立叶变换质谱数据质量[D];国防科学技术大学;2013年
6 张磊;自动气象站数据质量控制软件设计与实现[D];电子科技大学;2014年
7 齐艺兰;ERP系统的数据质量评价研究[D];西安电子科技大学;2014年
8 高晓松;基于EPDM的录井数据管理平台的研究与开发[D];东北石油大学;2015年
9 段宗然;利用Benford法则研究农林牧渔产值数据质量的可靠性[D];燕山大学;2015年
10 熊晟;知识库质量控制平台的设计与实现[D];北京交通大学;2016年
,本文编号:1339573
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1339573.html