融合标记关系的多标记数据建模研究

发布时间：2021-01-22 13:36

　　现实中的数据往往具有多标记性。例如,一张图片可能同时包含“沙漠”、“骆驼”和“蓝天”等语义标注;一篇新闻报道可能同时包含“经济”、“战争”和“政治”等主题;一段话可能同时包含有“愉悦”和“悲伤”等情感。多标记数据的高维性,会增加分类、聚类等数据挖掘任务的困难性,如增加挖掘算法的时间复杂度以及模型的复杂度等。特征选择是一种保证对挖掘结果不变差的条件下,尽量使用较少的特征进行建模的数据预处理技术。目前的多标记数据特征选择研究还未对标记之间的关系进行充分利用,同时在特征选择后,直接使用已有的分类,未很好的利用特征选择的结果。为此,融合标记关系,开展多标记数据的特征选择以及针对特征选择结果的分类器的设计研究,主要研究内容和结论如下:（1）基于模糊不一致对的多标记属性约简本文将每个标记视做一个随机变量,利用KL散度度量标记关系,结合该标记关系,赋予每个标记以权重,结合标记权重定义模糊不一致样本对。用属性对模糊不一致样本对的区分能力定义属性重要度,提出了一种基于模糊不一致对的多标记属性约简算法。在对8个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。（2）融合标记关系的K近邻多标...

【文章来源】：山西大学山西省

【文章页数】：67 页

【学位级别】：硕士

【部分图文】：

融合标记关系的多标记数据建模研究

多标

评价指标,数据集,算法,指标

融合标记关系的多标记模糊粗糙建模研究26(a)汉明损失(HL)(b)排序损失(RL)(c)1-错误率(OE)(d)覆盖率(CV)(e)平均精度(AP)(f)Micro-F1微平均(F1)图3.1数据集business上6种评价指标下各算法的分类性能的变化情况根据表3.3-3.8可以得出以下结论：（1）对于AP指标，RL指标，HL指标，CV指标，OE指标上MLAR-FL算法在八个数据集合上得到的分类精度都高于其余4种算法；对于F1指标，computer，health，reference数据集上，MALR-FL算法低于其余算法。因而，对于6个评价指标而言，MLAR-FL在前五个评价指标上的表现很好，在F1指标上，得到的结果并非最好。（2）从统计的8个数据集合，6个评价指标，总共48个对比结果可以看出，

性能,数据集,评价指标,算法

第三章基于模糊不一致对的多标记属性约简27(a)汉明损失(HL)(b)排序损失(RL)(c)1-错误率(OE)(d)覆盖率(CV)(e)平均精度(AP)(f)Micro-F1微平均(F1)图3.2数据集reference上6种评价指标下各算法的分类性能的变化情况MLAR-FL的胜率为93.75%，总体而言，MLAR-FL的分类情况较好。总之，在8个数据集上，MLAR-FL的分类性能比其余4种算法的分类性能好。但是即使得到的特征子集在分类器上的分类性能优，也不能表示可以从整体上了解算法的分类性能在特征数目变化时的变化情况。为了能够从整体上直观的看到各个算法的分类性能随着特征数目的变化情况，图3.1-3.3分别给出了在数据集business，reference，science上面六种性能评价指标AP，HL，RL，OE，CV，F1下，分类性能随着特征数目的变化趋势。由于FRMFS

本文编号：2993319

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/lindaojc/2993319.html

上一篇：延安时期（1935-1948）李维汉统战理论及实践研究
下一篇：碳限额与交易机制下的材料采购决策问题研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|