面向不确定数据的最近邻分类方法研究
本文关键词:面向不确定数据的最近邻分类方法研究,由笔耕文化传播整理发布。
【摘要】:数据分类是数据挖掘和机器学习的基本任务,已经在众多应用领域里取得了巨大进步。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对测试数据进行分类。尽管这些测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。传统分类技术通常用于处理具有确定的特征向量值的数据,数据的不确定性在学习问题辨析上被忽略了。然而必须指出由于数据可能包含错误或者只有部分被存储,所以在真实数据上有很多方面会产生数据的不确定性。如何高效的处理带有误差的不确定性数据依然是数据挖掘领域里的一项挑战。虽然传统的数据分类算法往往都假定采集到的数据是精确的,不存在任何误差,但是,在大部分的应用领域中,时常有采集样本自身存在误差,仪器的精度误差情况或是出于保护隐私的原因需要对采集的数据进行某些干预,从而影响数据自身是不确定的。因此,不确定性数据的特征值就不是某个单一的值,而是存在于某个区间内,并且服从某个概率分布。目前已经可以扩展某些传统的经典分类算法,比如决策树,支持向量机等,用来处理不确定性数据。然而本文在处理不确定性数据分类的问题时,鉴于传统的分类方法在处理不确定性数据时可能返回一个概率接近于零的类,即可能无法保证返回类的质量,因此基于将最近邻规则扩展到处理不确定性数据的情况是可行的前提下,提出了不确定性最近邻规则。不确定性最近邻规则依赖于最近邻的类的概念而不是最近邻的对象。测试对象的最近邻类是取可以满足它最近邻类中的最大概率值的类。实验证明前者的概念要比后者在处理不确定性数据问题上更有利。设计一个用来对测试对象进行分类的有效的最近邻分类算法。给出的实验结果,表明不确定最近邻规则是有效的和高效的分类不确定性数据方法。
【关键词】:最近邻规则 最近邻类 不确定性数据
【学位授予单位】:辽宁师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP181
【目录】:
- 摘要3-4
- Abstract4-8
- 第一章 绪论8-14
- 1.1 背景和意义8-11
- 1.2 国内外研究现状11-12
- 1.3 本文的贡献12-13
- 1.4 本文组织结构13-14
- 第二章 不确定性数据分类内容14-19
- 2.1 不确定性数据模型14-16
- 2.2 决策树模型16
- 2.3 支持向量机16-18
- 2.4 k-近邻规则18-19
- 第三章 不确定最近邻分类规则19-23
- 3.1 描述不确定对象和不确定分类19
- 3.2 最近邻分类规则处理不确定对象19-20
- 3.3 描述最可能的类20
- 3.4 不确定的最近邻规则20-23
- 第四章 不确定最近邻分类算法23-33
- 4.1 预备工作23
- 4.2 计算最近邻类的相关属性23-25
- 4.3 计算最近邻类概率25-28
- 4.3.1 概率pi(R) 的计算25-26
- 4.3.2 类距离概率计算26-27
- 4.3.3 计算类的概率27-28
- 4.4 算法描述28-29
- 4.5 实验结果29-33
- 4.5.1 数据集描述29-30
- 4.5.2 实验描述30-33
- 第五章 结语33-36
- 参考文献36-40
- 攻读硕士学位期间发表学术论文情况40-41
- 致谢41
【相似文献】
中国期刊全文数据库 前10条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前8条
1 陈静玉;面向不确定数据流的聚类和模式挖掘技术研究[D];西安电子科技大学;2014年
2 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
3 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
4 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
5 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
6 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
7 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
8 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙凤姣;概率XML数据文档的分发技术研究[D];大连海事大学;2015年
2 李雨明;不确定数据的挖掘算法研究[D];上海交通大学;2015年
3 曹庆傲;不确定性数据Top-k查询算法与实现[D];贵州大学;2015年
4 武婷婷;基于MapReduce的不确定查询处理技术的研究与实现[D];东北大学;2013年
5 李红;不确定数据流查询处理算法的研究[D];黑龙江大学;2015年
6 甘果;基于不确定数据的范围查询算法的研究与实现[D];东北大学;2014年
7 张昕;基于分布式极限学习机的不确定数据流分类技术的研究与实现[D];东北大学;2014年
8 刘斌;基于聚集约束条件的不确定数据清洗与Top-k查询[D];国防科学技术大学;2013年
9 林佳丽;基于密度的不确定数据离群点检测研究[D];重庆大学;2015年
10 郎泓钰;面向不确定数据的最近邻分类方法研究[D];辽宁师范大学;2015年
本文关键词:面向不确定数据的最近邻分类方法研究,由笔耕文化传播整理发布。
,本文编号:258574
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/258574.html