基于粗糙集与LDA的不完备数据处理方法研究
发布时间:2021-08-05 01:54
进入21世纪后,互联网技术飞速发展,数据可以快速通过线上方式进行获取和存储,这为数据挖掘工作带来了机遇,但由于各种原因往往会获取到不完备数据,如何准确、有效的处理不完备数据是当前研究的热点,因此,本文首先通过优化的填补算法使不完备数据通过填补成为完备数据,接着针对完备数据的分类问题展开研究,本文主要研究工作如下:(1)针对利用相似样本进行填补的过程中,不能精确定位和填补时易受数据干扰,影响算法填补效果等问题。设计了基于粗糙集的样本缺失维度填补算法。该算法首先利用粗糙集进行属性约简,接着对约简后的决策表进行k均值聚类,并利用相似度进行待填补样本与聚簇结果的比较,从而精确定位较相似样本。最后以最小二乘法为核心思想,进行相应缺失维度上的数据拟合,减少了不相关数据的干扰。实验结果表明了本文算法的有效性。(2)针对利用近邻样本进行类别预测的过程中,训练集较大和样本特征数差异,影响算法分类效果等问题。设计了基于线性鉴别分析法的样本均值KNN改进算法。该算法首先利用线性鉴别分析法,降低样本特征数及其差异带来的不利影响。进而比较了待测样本和各类样本均值相似度,选择性筛选训练集,最后利用改进的距离公式计...
【文章来源】:西安科技大学陕西省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
KNN算法的决策过程
3基于粗糙集的样本缺失维度填补算法25图3.1拟合曲线其中,直线0.2362x+8.303的误差平方和为0.7338。二次多项式-2.803×10-2x2+0.5446x+7.686的误差平方和为0.3515。三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209的误差平方和为0.1672。一次到三次的拟合曲线中,根据误差平方和可知,当前真实数据的较合适拟合曲线为三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的样本缺失维度填补算法(FARS)的核心思想是:首先利用粗糙集进行属性约简,达到特征选择的目的,接着对约简后的决策表进行k均值聚类,并利用相似度进行待填补样本与聚簇结果的比较,达到划分待填补样本的目的,最后以最小二乘法为核心思想,进行相应缺失维度上的数据拟合,从而减少不相关数据的干扰,完成不完备数据的填补工作。3.4算法设计为了解决利用相似样本填补的过程中,缩小搜索范围时不能精确定位和填补时易受数据干扰,影响算法填补效果等问题,本章设计了基于粗糙集的样本缺失维度填补算法,具体步骤如下:输入:决策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C为条件属性,D为决策属性,其中xi为),...,,(21imiixxx,有m维特征,yi为xi对应的类别,共有t个类别,提取含有完备数据的样本,组成决策表C-DT,提取含有不完备数据的样本组成M-DT。输出:填补完整的决策表RE-M-DT。(1)对决策表C-DT进行k均值离散化处理,得到决策表C-DT-L;(2)利用粗糙集基于属性重要度的属性约简算法对决策表C-DT-L进行属性约简,得
西安科技大学非全日制硕士学位论文30表3.12缺失率25%时三种算法的实验结果数据集(缺失率25%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%时三种算法的实验结果数据集(缺失率30%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420图3.2缺失率10%三种算法RMSE对比图3.3缺失率15%三种算法RMSE对比
本文编号:3322826
【文章来源】:西安科技大学陕西省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
KNN算法的决策过程
3基于粗糙集的样本缺失维度填补算法25图3.1拟合曲线其中,直线0.2362x+8.303的误差平方和为0.7338。二次多项式-2.803×10-2x2+0.5446x+7.686的误差平方和为0.3515。三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209的误差平方和为0.1672。一次到三次的拟合曲线中,根据误差平方和可知,当前真实数据的较合适拟合曲线为三次多项式5.563×10-3x3-0.1198x2+0.9679x+7.209。3.3算法思想基于粗糙集的样本缺失维度填补算法(FARS)的核心思想是:首先利用粗糙集进行属性约简,达到特征选择的目的,接着对约简后的决策表进行k均值聚类,并利用相似度进行待填补样本与聚簇结果的比较,达到划分待填补样本的目的,最后以最小二乘法为核心思想,进行相应缺失维度上的数据拟合,从而减少不相关数据的干扰,完成不完备数据的填补工作。3.4算法设计为了解决利用相似样本填补的过程中,缩小搜索范围时不能精确定位和填补时易受数据干扰,影响算法填补效果等问题,本章设计了基于粗糙集的样本缺失维度填补算法,具体步骤如下:输入:决策表QDTfVC),,,(D,其中},...,,{21nxxxQ,C为条件属性,D为决策属性,其中xi为),...,,(21imiixxx,有m维特征,yi为xi对应的类别,共有t个类别,提取含有完备数据的样本,组成决策表C-DT,提取含有不完备数据的样本组成M-DT。输出:填补完整的决策表RE-M-DT。(1)对决策表C-DT进行k均值离散化处理,得到决策表C-DT-L;(2)利用粗糙集基于属性重要度的属性约简算法对决策表C-DT-L进行属性约简,得
西安科技大学非全日制硕士学位论文30表3.12缺失率25%时三种算法的实验结果数据集(缺失率25%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.421111680.4756170.705117Seeds0.0169463010.030411320.0198192Ecoli0.120256240.34417670.166298Wine0.473928601.07011570.671232表3.13缺失率30%时三种算法的实验结果数据集(缺失率30%)FARS算法KNNI算法杨的算法RMSE运行时间/msRMSE运行时间/msRMSE运行时间/msIris0.41089010.5007480.770125Seeds0.0167499140.032623710.0221204Ecoli0.122446800.34440430.173391Wine0.502852761.12824070.711420图3.2缺失率10%三种算法RMSE对比图3.3缺失率15%三种算法RMSE对比
本文编号:3322826
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3322826.html