基于粗糙集与LDA的不完备数据处理方法研究

发布时间：2021-08-05 01:54

　　进入21世纪后,互联网技术飞速发展,数据可以快速通过线上方式进行获取和存储,这为数据挖掘工作带来了机遇,但由于各种原因往往会获取到不完备数据,如何准确、有效的处理不完备数据是当前研究的热点,因此,本文首先通过优化的填补算法使不完备数据通过填补成为完备数据,接着针对完备数据的分类问题展开研究,本文主要研究工作如下:（1）针对利用相似样本进行填补的过程中,不能精确定位和填补时易受数据干扰,影响算法填补效果等问题。设计了基于粗糙集的样本缺失维度填补算法。该算法首先利用粗糙集进行属性约简,接着对约简后的决策表进行k均值聚类,并利用相似度进行待填补样本与聚簇结果的比较,从而精确定位较相似样本。最后以最小二乘法为核心思想,进行相应缺失维度上的数据拟合,减少了不相关数据的干扰。实验结果表明了本文算法的有效性。（2）针对利用近邻样本进行类别预测的过程中,训练集较大和样本特征数差异,影响算法分类效果等问题。设计了基于线性鉴别分析法的样本均值KNN改进算法。该算法首先利用线性鉴别分析法,降低样本特征数及其差异带来的不利影响。进而比较了待测样本和各类样本均值相似度,选择性筛选训练集,最后利用改进的距离公式计...

【文章来源】：西安科技大学陕西省

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

KNN算法的决策过程

拟合曲线,拟合曲线,决策表,粗糙集

3基于粗糙集的样本缺失维度填补算法25图3.1拟合曲线其中，直线0.2362x+8.303的误差平方和为0.7338。二次多项式-2.803×10-2x2+0.5446x+7.686的误差平方和为0.3515。三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209的误差平方和为0.1672。一次到三次的拟合曲线中，根据误差平方和可知，当前真实数据的较合适拟合曲线为三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的样本缺失维度填补算法(FARS)的核心思想是：首先利用粗糙集进行属性约简，达到特征选择的目的，接着对约简后的决策表进行k均值聚类，并利用相似度进行待填补样本与聚簇结果的比较，达到划分待填补样本的目的，最后以最小二乘法为核心思想，进行相应缺失维度上的数据拟合，从而减少不相关数据的干扰，完成不完备数据的填补工作。3.4算法设计为了解决利用相似样本填补的过程中，缩小搜索范围时不能精确定位和填补时易受数据干扰，影响算法填补效果等问题，本章设计了基于粗糙集的样本缺失维度填补算法，具体步骤如下：输入：决策表QDTfVC),,,(D，其中},...,,{21nxxxQ，C为条件属性，D为决策属性，其中xi为),...,,(21imiixxx，有m维特征，yi为xi对应的类别，共有t个类别，提取含有完备数据的样本，组成决策表C-DT，提取含有不完备数据的样本组成M-DT。输出：填补完整的决策表RE-M-DT。(1)对决策表C-DT进行k均值离散化处理，得到决策表C-DT-L；(2)利用粗糙集基于属性重要度的属性约简算法对决策表C-DT-L进行属性约简，得

对比图,缺失,算法,数据集

西安科技大学非全日制硕士学位论文30表3.12缺失率25%时三种算法的实验结果数据集(缺失率25%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%时三种算法的实验结果数据集(缺失率30%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420图3.2缺失率10%三种算法RMSE对比图3.3缺失率15%三种算法RMSE对比

本文编号：3322826

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3322826.html

上一篇：基于深度学习的车型识别方法研究与应用
下一篇：基于机器视觉的自动验布系统研究与开发

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|