高维数据的近似粒度特征选择和分类方法研究

发布时间:2024-07-08 20:35
  在信息技术的高速发展的背景下,各个应用领域产生了大量非结构化的数据。这些数据给传统机器学习方法来了许多新的挑战,其中之一就是“维数灾难”。高维数据中存在的大量的冗余信息会降低机器学习方法的计算效率,并且通常会影响结论的准确性。为了有效去除高维数据中的冗余信息,本文采用静态绑定框架局部敏感哈希算法描述造高维数据空间中的粒度结构。由于局部敏感哈希算法获得的数据相似关系依赖于给定概率参数而变化,所以相较于粗糙集等传统粒计算方法,本文中得到数据粒度结构是一种近似的数据划分结果。但这种近似粒度结构解决了传统粒计算模型在处理高维数据时需要大量计算时间的问题。在这种近似粒度划分结构的基础上,本文借鉴传统粗糙集依赖度的概念,设计一种基于粗糙集和局部敏感哈希的近似特征选择算法。另外,在很多基于局部敏感哈希算法的相关算法中,为了保证有足够好的效果并且节约计算资源,都会预先生成大量的哈希函数,以便在之后的计算过程中继续使用。本文也采用这种技巧,进一步考虑到经过近似特征选择后数据与已经生成的哈希函数之间存在的特性,采用粗糙集特征选择算法挑选更适用于分类的局部敏感哈希函数,并通过结合新的分桶方法与动态碰撞框架基...

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

图2.2局部敏感哈算法的一个例子??Fig.?2.2?An?example?of?a?locally?sensitive?hash?algorithm??

图2.2局部敏感哈算法的一个例子??Fig.?2.2?An?example?of?a?locally?sensitive?hash?algorithm??

题。??2.2局部敏感哈希算法理论??本节,将介绍局部敏感哈希算法(又称为LSH函数)的基本理论和方法。理论上,??局部敏感哈希算法应该拥有这样的性质:样本的相似程度越高,就有更高的概率被划分??到一个桶中。如果两个样本数据,在相同的LSH函数映射下被划分到相同的楠中,则??称两....


图3.1?LSH算法映射的结果??Fig.?3.1?The?mapping?result?of?LSH?algorithm??

图3.1?LSH算法映射的结果??Fig.?3.1?The?mapping?result?of?LSH?algorithm??

模型??直观上,在LSH算法中每个桶中的样本足够相似,而在粗糙集理论的等价类划分??中每个等价类子集中的样本特征值相同,说明等价类子集中的样本相似,基于这两个概??念的相似之处,本文提出用LSH算法中桶的划分方法替换原始粗糙集中等价类的划分??方法。下面举例说明两个概念的相似点。....


图4.2以查询为基准的桶划分方法??Fig.?4.2?Bucket?division?method?based?on?query??

图4.2以查询为基准的桶划分方法??Fig.?4.2?Bucket?division?method?based?on?query??

分类算法,在这些LSH函数的映射??下,相似度足够高且拥有相同决策属性的样本有很高的概率被划分到同一个桶中。显然,??筛选后的LSH函数有利于进行接下来分类算法的相关工作。??(3)以分类点为基准的桶划分方式??根据局部敏感哈希算法的理论,对于L距离的LSH函数而言,原数据相似程....


图4.3分类算法流程图??Fig.?4.3?The?flow?chart?for?approximate?classification??-27?-??

图4.3分类算法流程图??Fig.?4.3?The?flow?chart?for?approximate?classification??-27?-??

/本,待分类样本?和w个/??/?LSH?函数。?/???????将《个数掮样本在w个LSH函教下逬行映肘??,形成离散化后的教搨???\?/???计茸每一个眙希函数对于:夬策属性的依赖度??■?^???保留依赖度较高的々个LSH函教??^???循讦刺余的LSH函数???^???....



本文编号:4003842

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/4003842.html

上一篇:基于虚拟现实技术的个性化推荐界面研究  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户226a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com