面向符号数据的高效特征选择算法研究
发布时间:2021-02-09 06:16
随着大数据时代的来临,人们日常的生产生活中每天都在产生着海量规模的数据集,如何高效地从这些数据中获取知识是目前众多专家学者广泛关注的问题。数据挖掘是指从海量的、不完整的、模糊的实际数据中提取隐含在其中有用信息和知识的过程,特征选择是数据挖掘中广泛应用的一项数据预处理技术。在我们现实生活中的数据并不完全是静态的、完备的,比如会存在着标签缺失、数据动态变化等情况。对此,针对这类数据集如何高效的从中获取知识是本文的主要研究内容。本文利用粗糙集理论和信息熵作为工具,针对于符号数据,主要包括以下三方面的研究内容。一、针对含有缺失信息的动态数据集中由维数动态变化引起特征选择结果的更新问题,通过深入分析互补信息熵在含有缺失数据取值的数据集中维数增加时的更新机制,进而提出一种缺失数据维数增量式特征选择算法,并通过实验对新算法的可行性和高效性作了进一步的验证。二、针对于部分标记数据如何进行高效特征选择的问题,本文基于粗糙集和信息熵的概念,提出了一种基于信息熵的粗糙特征选择算法。通过分析给定数据集上有标记数据集和无标记数据的信息熵,重新定义了整个数据集上的信息熵。在此基础上定义了半监督意义下基于信息熵的特...
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
半监督学习示意
面向符号数据的高效特征选择算法研究14的计算时间。图3.1Backup-Large数据集图3.2Dermatology数据集图3.3Mushroom数据集图3.4Ticdata2000数据集图3.1-3.4可以看出维数增量算法DISA在数据集在逐渐增加的时候计算时间明显少于传统的非增量算法CFS,并且数据集中增加规模的不断变大DISA的高效性更加明显。CFS作为一种传统的特征选择算法,当数据集维数增加后,只能在新数据集上重新计算并求解新的特征选择结果,属于一种静态的数据挖掘技术。而本文的新算法DISA在处理含有缺失数据的数据集动态增加的情况下,可有效利用原始数据集上信息熵值和特征选择结果,有效避免了CFS算法的重复计算,提高了计算效率。
面向符号数据的高效特征选择算法研究14的计算时间。图3.1Backup-Large数据集图3.2Dermatology数据集图3.3Mushroom数据集图3.4Ticdata2000数据集图3.1-3.4可以看出维数增量算法DISA在数据集在逐渐增加的时候计算时间明显少于传统的非增量算法CFS,并且数据集中增加规模的不断变大DISA的高效性更加明显。CFS作为一种传统的特征选择算法,当数据集维数增加后,只能在新数据集上重新计算并求解新的特征选择结果,属于一种静态的数据挖掘技术。而本文的新算法DISA在处理含有缺失数据的数据集动态增加的情况下,可有效利用原始数据集上信息熵值和特征选择结果,有效避免了CFS算法的重复计算,提高了计算效率。
本文编号:3025189
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
半监督学习示意
面向符号数据的高效特征选择算法研究14的计算时间。图3.1Backup-Large数据集图3.2Dermatology数据集图3.3Mushroom数据集图3.4Ticdata2000数据集图3.1-3.4可以看出维数增量算法DISA在数据集在逐渐增加的时候计算时间明显少于传统的非增量算法CFS,并且数据集中增加规模的不断变大DISA的高效性更加明显。CFS作为一种传统的特征选择算法,当数据集维数增加后,只能在新数据集上重新计算并求解新的特征选择结果,属于一种静态的数据挖掘技术。而本文的新算法DISA在处理含有缺失数据的数据集动态增加的情况下,可有效利用原始数据集上信息熵值和特征选择结果,有效避免了CFS算法的重复计算,提高了计算效率。
面向符号数据的高效特征选择算法研究14的计算时间。图3.1Backup-Large数据集图3.2Dermatology数据集图3.3Mushroom数据集图3.4Ticdata2000数据集图3.1-3.4可以看出维数增量算法DISA在数据集在逐渐增加的时候计算时间明显少于传统的非增量算法CFS,并且数据集中增加规模的不断变大DISA的高效性更加明显。CFS作为一种传统的特征选择算法,当数据集维数增加后,只能在新数据集上重新计算并求解新的特征选择结果,属于一种静态的数据挖掘技术。而本文的新算法DISA在处理含有缺失数据的数据集动态增加的情况下,可有效利用原始数据集上信息熵值和特征选择结果,有效避免了CFS算法的重复计算,提高了计算效率。
本文编号:3025189
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3025189.html