针对机器学习中残缺数据的近似补全方法
本文关键词: 机器学习 残缺项 二次规划 补全方法 出处:《西安交通大学学报》2017年10期 论文类型:期刊论文
【摘要】:针对机器学习中含残缺项的数据不能被有效利用,导致分类和回归准确率不高的问题,提出了一种近似补全方法——k-ANNO方法。给定残缺的数据样本,该方法首先通过离线构建的图结构来近似搜索与该样本最接近的k个近邻顶点,然后采用快速二次规划估计各近邻的最优权重,最后基于权重值来补全样本中的残缺项,用户可以根据实际需求在补全效率与准确性之间折中。k-ANNO方法较好地解决了机器学习中普遍存在的数据残缺问题,有效抑制了数据残缺对分类和回归精度的干扰。利用多份公开数据集评估了k-ANNO方法的补全效果,结果表明:当加速比在2~10之间时,k-ANNO方法的分类错误率比已有的均值补全、C均值补全、自组织映射补全方法低1%~4%,回归均方根误差比已有方法低约0.5~2.0;当样本规模为4 000时,在不同加速比参数下,k-ANNO方法的计算效率比朴素k近邻方法高约35%~320%。
[Abstract]:In order to solve the problem that the data with incomplete items can not be used effectively in machine learning, which leads to the low accuracy of classification and regression, an approximate complement method, k-ANNO method, is proposed, and the incomplete data samples are given. In this method, the nearest nearest vertices to the sample are approximately searched by the graph structure constructed offline, and then the optimal weights of each nearest neighbor are estimated by the fast quadratic programming. Finally, the incomplete items in the whole sample are compensated based on the weight value. According to the actual requirements, users can make a compromise between complete efficiency and accuracy. The method can solve the problem of data incomplete in machine learning. The interference of incomplete data on classification and regression accuracy is effectively suppressed. The complement effect of k-ANNO method is evaluated by using a number of open datasets. The results show that the acceleration ratio is between 2 ~ 10. The classification error rate of k-ANNO method is 1 / 4 lower than that of the existing method, and the root mean square error of regression is about 0.52.0 lower than that of the existing method. When the sample size is 4 000, the computational efficiency of the KANNO method is about 35% higher than that of the simple k nearest neighbor method under different speedup parameters.
【作者单位】: 盲信号处理重点实验室;
【基金】:国家自然科学基金资助项目(U1536105)
【分类号】:TP181
【正文快照】: 机器学习是一种挖掘数据中潜在规律的有效方法,能够对研究对象的未知类别或数值进行预测,因而被广泛应用在计算机视觉、智能家居[1]、问卷分析[2]、基因组分析[3]等领域。当机器学习方法的输入数据包含残缺项时,许多机器学习方法的预测精度会急剧下降,导致漏检、虚警甚至模型
【相似文献】
相关期刊论文 前10条
1 夏润海,王开颜;机器学习与智能决策支持系统[J];潍坊学院学报;2003年02期
2 张明玉,倪志伟;基于机器学习的智能决策支持系统[J];淮南师范学院学报;2005年03期
3 杨凌霄;武建平;;机器学习方法在人脸检测中的应用[J];计算机与数字工程;2008年03期
4 ;第十一届中国机器学习会议[J];智能系统学报;2008年02期
5 ;第14届中国机器学习会议[J];智能系统学报;2012年06期
6 费宗铭;吕建;王志坚;陈道蓄;徐家福;;机器学习[J];计算机科学;1991年01期
7 赵沁平;魏华;王军玲;;机器学习技术与机器学习系统[J];计算机科学;1993年05期
8 姚敏;机器学习及其发展方向[J];计算机时代;1994年04期
9 ;第31届机器学习国际会议(英文)[J];智能系统学报;2014年01期
10 黄海滨;机器学习及其主要策略[J];河池师范高等专科学校学报(自然科学版);2000年04期
相关会议论文 前10条
1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
3 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
4 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
5 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
7 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
8 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
9 周川;林学,
本文编号:1484967
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1484967.html