视觉注意机制启发的分组排序特征选择方法研究

发布时间:2018-05-21 08:53

  本文选题:特征选择 + 视觉注意 ; 参考:《郑州大学》2017年硕士论文


【摘要】:在大数据的时代背景下,为了从超大规模的高维数据中快速获取有效信息,特征选择至关重要也备受关注。基于特征分组的特征选择方法由于其兼顾了最大化特征与类别之间的相关程度和最小化特征间的冗余度的优势而被广泛接受,而视觉注意机制的显著性计算方式与特异性处理机制又对分组排序特征选择方法产生了奇妙的启发。本文受这种启发影响,分别模拟其对相关信息的特异性处理策略和对显著信息的显著性计算策略,形成分组排序的新思路,提出分组排序特征选择(Grouped Sorting Feature Selection,GSFS)算法。首先从特征分组和排序过程与视觉注意机制两种策略的相似性入手,介绍GSFS算法与视觉注意机制的模拟—启发关系,结合特征分组和排序指标的介绍,确定基于最大信息压缩指数和Fisher分数的GSFS算法并详述其基本原理,构建合适的最佳分组数目确定准则和最优特征子集确定准则并实现了算法流程。随后在8个不同维度,不同类别数的标准数据集上进行了分类实验和去冗余效果测评,通过和6种经典特征选择算法的实验结果对比说明GSFS算法选出的最优特征子集分类能力优良且所含冗余信息最少,从而证明了GSFS算法在解决特征选择问题时的有效性。在GSFS算法的理论基础上,为进一步解决高维数据集特征选择中计算复杂度较高的问题,又提出基于分布式处理的分组排序特征选择(Distributed Processing based Grouped Sorting Feature Selection,DP_GSFS)算法。它采用将原始特征集均分的方式,减少特征对之间相关性度量的计算复杂度以提高计算效率。在6个标准数据集上的分类实验和去冗余效果测评分别验证了DP_GSFS算法分类能力和去冗余效果的基础上,两种算法的对比实验结果表明DP_GSFS算法仅需设置合适的分组数,就可以显著降低计算时间,由此证明了其在提高计算效率方面的作用,这也可以为将来超大规模海量数据集的快速分析处理提供有价值的参考。另外,本文还将算法应用在真实医学图像特征数据集上,特征选择的效果和分类结果也证明了其解决实际问题的能力。
[Abstract]:In the background of large data age, feature selection is very important to obtain efficient information quickly from large scale data. Feature selection based on feature packet is widely accepted because it takes into account the degree of correlation between maximum features and the degree of redundancy between categories and minimization of features. The remarkable calculation method of visual attention mechanism and the specific processing mechanism also have a wonderful inspiration for the selection method of grouping sorting feature. This paper is influenced by this kind of inspiration, and simulates the specific processing strategy of the related information and the significant calculation strategy of the significant information, forming a new idea of grouping sorting and putting forward the grouping. The Grouped Sorting Feature Selection (GSFS) algorithm is first introduced from the similarity between the two strategies of the feature grouping and the sorting process and the visual attention mechanism, and the simulation and heuristic relationship between the GSFS algorithm and the visual attention mechanism is introduced, and the maximum information compression index and Fi are determined based on the introduction of the feature grouping and sorting index. The basic principle of the GSFS algorithm for Sher fraction is described in detail, and the appropriate criteria for determining the optimal number of groups and the optimal subset selection criteria are constructed and the algorithm flow is realized. Then, the classification experiments and redundant fruit evaluation are carried out on the standard data sets of 8 different dimensions and different categories, and the 6 classic feature selection algorithms are adopted. The comparison of the experimental results shows that the optimal subset selection of the GSFS algorithm is excellent and the redundant information is the least, which proves the validity of the GSFS algorithm in solving the problem of feature selection. On the basis of the theory of GSFS algorithm, the basis of the algorithm is to further solve the problem of high computational complexity in the feature selection of high dimensional data sets. The Distributed Processing based Grouped Sorting Feature Selection, DP_GSFS) algorithm in distributed processing. It reduces the computational complexity of the correlation measurement between the feature pairs and improves the computational efficiency by equifying the original feature set to improve the computational efficiency. The classification experiment and the redundant effect on the 6 standard data sets On the basis of verification of the classification ability and the deredundancy effect of the DP_GSFS algorithm, the comparison experiment results of the two algorithms show that the DP_GSFS algorithm only needs to set the appropriate number of packets, which can significantly reduce the calculation time, thus proving that the algorithm is used to improve the computational efficiency. This can also be a large scale of large scale data in the future. The fast analysis processing of set provides valuable reference. In addition, this paper also applies the algorithm to the feature dataset of real medical images. The effect of feature selection and classification results also prove its ability to solve practical problems.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 何劲松,施泽生;特征选择方法中的信号分析方法研究[J];中国科学技术大学学报;2001年01期

2 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期

3 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期

4 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期

5 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期

6 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期

7 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期

8 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期

9 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期

10 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期

相关会议论文 前6条

1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年

3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

5 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年

6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

相关重要报纸文章 前5条

1 王素琴邋刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年

2 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年

3 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年

4 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年

5 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年

相关博士学位论文 前10条

1 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年

2 边婧;不平衡网络异常数据代价敏感特征及实例选择[D];太原理工大学;2016年

3 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年

4 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年

5 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年

6 刘明霞;属性学习若干重要问题的研究及应用[D];南京航空航天大学;2015年

7 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年

8 史荧中;耦合的支持向量学习方法及应用研究[D];江南大学;2016年

9 雒晓卓;基于联合稀疏和局部线性的极限学习机及应用[D];西安电子科技大学;2015年

10 陈梅;面向复杂数据的聚类算法研究[D];兰州大学;2016年

相关硕士学位论文 前10条

1 李蒙蒙;视觉注意机制启发的分组排序特征选择方法研究[D];郑州大学;2017年

2 曹晋;基于SVDD的特征选择方法研究及其应用[D];苏州大学;2015年

3 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年

4 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年

5 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年

6 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年

7 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年

8 王丹;特征选择算法研究及其在异常检测中的应用[D];电子科技大学;2014年

9 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年

10 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年



本文编号:1918541

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1918541.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d36c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com