高维数据流上的K近邻问题研究
本文关键词:高维数据流上的K近邻问题研究 出处:《山东大学》2016年博士论文 论文类型:学位论文
【摘要】:随着计算机和网络技术的发展,数据收集变得越来越容易,数据的规模和复杂性越来越高,数据的维度(属性)也越来越高。通常情况下各种类型的数据,如Web文档、图片、基因表达数据及多媒体数据等,可以通过一些特征抽取的方法被表示成高维的向量(或者高维空间中的点)。数据库、信息检索和数据挖掘等领域的一个常见操作,就是在一个对象集中找到某个查询(或某个查询集中所有查询)的最相似的K个对象,如果用一个距离度量(如欧式距离)来衡量相似度,这个操作就可以转化为求高维空间K近邻(或K近邻连接)的问题,即在一个对象集中查找离查询点(或一个查询集中的每个点)距离最近的K个对象。目前高维空间中的K近邻和K近邻连接算法主要针对静态的数据集,而越来越多的应用需要在数据流上连续不断地获得查询结果,这就对高维K近邻(及连接)问题提出了新的挑战。本文对高维数据流上的K近邻相关问题进行了研究。首先,我们研究了高维数据流上的连续K近邻连接问题。由于被查询点集在数据流上会不断发生变化,因此查询集的K近邻连接结果需要实时更新。本文提出采用增量更新策略:先求解更新点的反向K近邻结果,即查询集中K近邻结果会受更新点影响的那些查询,然后只更新这一部分查询的K近邻结果,以避免重复计算。本文提出了一种新的索引结——HDR-树,来提高求解更新点的反向K近邻结果的效率。HDR-树主要利用主成分分析(PCA)降维和聚类划分的技术来提高查询效率。进一步地,由于在大多数的应用下,求得近似K近邻连接查询结果也是可以接受的,本文研究了在高维数据流上近似地得到K近邻连接结果的方法,以进一步减少处理时间。本文提出了两种近似K近邻连接的索引结构和算法:HDR*-树和LSH-M。HDR*-树结合了随机投影降维和聚类技术,由于随机投影降维后的数据能够近似保留原数据点之间的距离关系,HDR*-树在求解受更新点影响的查询点时具有更高的效率。LSH-M则利用了局部敏感哈希的思想来构建索引,并提供有准确率保障的快速检索。本文分析了两种方法的查询准确率,并用实验结果验证了它们的效率。最后,为了进一步提高查询效率和可扩展性,本文研究了高维数据流上的分布式K近邻(及连接)查询的问题,并设计了分布式索引和查询算法来提高查询效率。本文提出了一个新的索引结构,叫作动态环索引(Dynamic Bounded Rings Index),它首先找到一个参照点集,把数据流上的点分配到最近的参照点,然后对每个参照点上的数据子集按照到参照点的距离进一步划分到更细粒度的有界环型内,环的边界可以动态维护以适应数据流上点的不断更新,并且由于每个动态环可以分配到不同的节点上处理,它可以很容易地应用到分布式环境中。在动态环索引的基础上,本文设计了分布式高维K近邻查询算法,该算法的主要优点是在只进行两次迭代的情况下就能得到准确的K近邻结果,减少了在分布式环境中进行K近邻查询的通信代价和计算代价。本文将提出的索引和算法在开源的分布式流处理平台Apache Storm上进行了实现,在真实数据集和模拟数据集上的实验结果都显示我们的算法对比已有的基准方法在查询效率上有很大提升。
[Abstract]:With the development of computer and network technology, data collection becomes more and more easy, the size of the data and more complex data, the dimensions (attributes) are increasingly high. Usually, various types of data, such as Web documents, pictures, gene expression data and multimedia data, through the method of characteristics the extraction is represented as a high-dimensional vector (or points in high dimensional space). A common operation database, information retrieval and data mining, is a focus to find a query (or a set of queries in all queries) is most similar to the K object, if a distance metric (e.g. Euclidean distance) to measure the similarity, this operation can be converted to a high dimensional space (K or K nearest neighbor neighbor connection) problem, namely in a focused search from the query point (each point or a query set distance) In the K object. At present in the high dimensional space of K nearest neighbor and K nearest neighbor joining algorithm is mainly based on the static data sets, and more and more applications in data stream continuously get the query results, the high dimensional K nearest neighbor (and connected) has brought new challenges. This paper study on related problems of K nearest neighbor flow on high dimensional data. Firstly, we study the continuous K nearest neighbor high dimensional data stream connection problem. Because the query point sets in data streams will change constantly, so the query K nearest neighbor set connection results need to be updated in real time. This paper proposed the incremental update strategy: the first is to update the reverse K nearest neighbor points, those queries that query results will be updated by the K nearest neighbors of the K nearest neighbor results and then update only this part of the query, to avoid repeated calculation. This paper proposes a new index node - H DR- tree, to improve the solution of reverse K nearest neighbor results point to the updating efficiency of.HDR- tree by using principal component analysis (PCA) dimension reduction clustering technology to improve query efficiency. Further, because in most applications, the approximate K nearest neighbor query results can also be connected to accept the method were studied in this paper. High dimensional data stream is approximately K neighbor connection results, to further reduce the processing time. This paper presents two kinds of index structure and algorithm of approximate K nearest neighbor connect: HDR*- tree and LSH-M.HDR*- tree with random projection dimensionality reduction and clustering technology, the random projection dimensionality reduction data can keep approximate distance between the original data points, the HDR*- tree by the update effect in solving the query point has higher efficiency of.LSH-M by using the locality sensitive hashing method to construct the index, and provide the accurate rate of insurance Fast retrieval system. This paper analyzes two methods of query accuracy, and verify their efficiency with the experimental results. Finally, in order to further improve the query efficiency and scalability, this paper studies the distributed K nearest neighbor on the high dimensional data stream (and connected) query, and design a distributed index and the query algorithm to improve the query efficiency. This paper proposes a new index structure, called dynamic ring index (Dynamic Bounded Rings Index), it is first to find a reference point set, the data flow on the points assigned to the nearest reference point, then for each subset of data points on the reference according to the reference point the distance is further divided into more fine-grained bounded ring, ring boundary can be maintained dynamically in order to adapt to the data flow on the update, and because each dynamic ring can be assigned to different nodes, it can be Easily applied to distributed environment. Based on dynamic ring index, this paper designs a distributed high dimensional K nearest neighbor query algorithm, the main advantage of this algorithm is in only two iterations can be obtained under the condition of K nearest neighbor accurate result, reduces the communication cost and computation cost for nearest neighbor queries in distributed K in the environment. This paper will put forward the index and algorithm in open distributed stream processing platform Apache Storm is achieved in real and synthetic data sets. The experimental results show our algorithm compared with the existing reference methods have greatly improved the efficiency of query processing.
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 贺玲;蔡益朝;杨征;;高维数据空间的一种网格划分方法[J];计算机工程与应用;2011年05期
2 李郁林;;高维数据分析中的降维研究[J];计算机光盘软件与应用;2012年17期
3 何进荣;丁立新;胡庆辉;李照奎;;高维数据空间的性质及度量选择[J];计算机科学;2014年03期
4 刘洪波,王秀坤,赵晶;高维数据空间金字塔技术研究[J];计算机工程与应用;2003年16期
5 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
6 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期
7 余元辉;邓莹;;一种新的高维数据聚类自适应算法的研究[J];沈阳化工大学学报;2010年02期
8 王寅峰;刘昊;狄盛;胡昊宇;;一种支持高维数据查询的并行索引机制[J];华中科技大学学报(自然科学版);2011年S1期
9 周勇;卢晓伟;程春田;;非规则流中高维数据流典型相关性分析并行计算方法[J];软件学报;2012年05期
10 王素芳;;基于组件的高维数据降维方法研究[J];电脑与电信;2012年10期
相关会议论文 前6条
1 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
2 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 刘喜兰;冯德益;王公恕;朱成喜;冯雯;;脸谱分析在中进期地震跟踪预报中的应用[A];中国地震学会第四次学术大会论文摘要集[C];1992年
相关重要报纸文章 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
相关博士学位论文 前10条
1 刘胜蓝;余弦度量下的高维数据降维及分类方法研究[D];大连理工大学;2015年
2 黄晓辉;高维数据的若干聚类问题及算法研究[D];哈尔滨工业大学;2015年
3 杨崇;高维数据流上的K近邻问题研究[D];山东大学;2016年
4 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
5 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
6 吴庆耀;高维数据的若干分类问题及算法研究[D];哈尔滨工业大学;2013年
7 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
8 黄健美;高维数据索引及其查询处理技术研究[D];东北大学;2009年
9 任亚洲;高维数据上的聚类方法研究[D];华南理工大学;2014年
10 董道国;高维数据索引结构研究[D];复旦大学;2005年
相关硕士学位论文 前10条
1 沈江炎;基于软子空间的高维数据树形索引研究[D];昆明理工大学;2015年
2 侯小丽;高维数据聚类中的神经网络降维方法研究[D];兰州大学;2015年
3 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年
4 何荧;高维数据下的特征选择与聚类方法研究[D];西南大学;2015年
5 胡昌杰;基于Autoencoder的高维数据降维方法研究[D];兰州大学;2015年
6 杨代君;基于进化算法的高维数据聚类研究[D];西安电子科技大学;2014年
7 王宏霞;交通高维数据逻辑整合与降解研究[D];重庆交通大学;2015年
8 杨庭庭;基于信息熵的高维数据流聚类及其应用研究[D];重庆交通大学;2015年
9 孙喜利;高维数据的降维及聚类方法研究[D];兰州大学;2016年
10 吴佳妮;基于SVM的质谱细胞仪高维数据分析在AML早期诊断方面的应用研究[D];山东大学;2016年
,本文编号:1365336
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1365336.html