当前位置:主页 > 科技论文 > 自动化论文 >

基于Spark的多标签超网络集成学习

发布时间:2018-05-13 04:20

  本文选题:多标签学习 + 超网络 ; 参考:《智能系统学报》2017年05期


【摘要】:近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。
[Abstract]:In recent years, multi-label learning has received extensive attention in many fields, such as image recognition and text classification, and has more and more important potential application value. Despite the rapid development of multi-label learning, there are still two main challenges: how to use the correlation between tags and how to deal with large-scale multi-label data. In order to solve the above problems, based on the MLHN algorithm, a multi-label super-network integration algorithm based on Spark is proposed, which can effectively utilize tag correlation and process big data sets. This algorithm first introduces cost sensitivity to adapt to unbalanced data sets. Secondly, the evolutionary learning process of supernetwork is improved, and the loss function is optimized to reduce the time complexity of the algorithm. Finally, selective integration is carried out to adapt to large scale data sets. Experiments on 11 data sets of different sizes show that the algorithm has good classification performance, low time complexity and good ability to deal with large data sets.
【作者单位】: 重庆邮电大学软件工程学院;重庆邮电大学计算智能重庆市重点实验室;
【基金】:重庆市基础与前沿研究计划项目(cstc2014jcyj A40001,cstc2014jcyj A40022) 重庆教委科学技术研究项目(自然科学类)(KJ1400436)
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 张晓斌;魏永祥;韩德民;夏寅;李希平;原林;唐雷;王兴海;;数字化耳鼻咽喉数据集的采集[J];中华耳鼻咽喉头颈外科杂志;2005年06期

2 职为梅;郭华平;范明;叶阳东;;非平衡数据集分类方法探讨[J];计算机科学;2012年S1期

3 韩慧;王路;温明;王文渊;;不均衡数据集学习中基于初分类的过抽样算法[J];计算机应用;2006年08期

4 高嘉伟;梁吉业;;非平衡数据集分类问题研究进展[J];计算机科学;2008年04期

5 吴克寿;曾志强;;非平衡数据集分类研究[J];计算机技术与发展;2011年09期

6 颜杰,李彩霞,曾芳芳,方积乾;如何控制SAS结果的输出[J];中国卫生统计;2004年02期

7 王双成;冷翠平;李小琳;;小数据集的贝叶斯网络结构学习[J];自动化学报;2009年08期

8 李鹏;王晓龙;刘远超;王宝勋;;一种基于混合策略的失衡数据集分类方法[J];电子学报;2007年11期

9 王灿伟;于治楼;张化祥;;一种适合不平衡数据集的新型提升算法[J];计算机工程与应用;2011年28期

10 蔡娜;王俊英;刘惟一;;一种基于小数据集的贝叶斯网络学习方法[J];云南大学学报(自然科学版);2007年04期

相关博士学位论文 前3条

1 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年

2 史荧中;耦合的支持向量学习方法及应用研究[D];江南大学;2016年

3 雒晓卓;基于联合稀疏和局部线性的极限学习机及应用[D];西安电子科技大学;2015年

相关硕士学位论文 前10条

1 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年

2 袁铭;基于R-SMOTE方法的非平衡数据分类研究[D];河北大学;2015年

3 程伟;基于半监督SVM的非平衡学习[D];西安电子科技大学;2014年

4 马蕊;基于触觉序列的物体分类方法[D];石家庄铁道大学;2015年

5 闫欣;综合过采样和欠采样的不平衡数据集的学习研究[D];东北电力大学;2016年

6 朱政;V-支持向量分类机中若干问题的研究[D];华东师范大学;2016年

7 蒋伟;基于特征的轨迹数据集化简研究[D];苏州大学;2016年

8 徐丽丽;面向不平衡数据集的分类算法研究[D];辽宁师范大学;2016年

9 王聪;基于深度学习的交通标志检测算法研究[D];北方工业大学;2017年

10 张贝贝;基于类别失衡数据集的改进支持向量机模型的研究[D];安徽理工大学;2017年



本文编号:1881637

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1881637.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户31b92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com