基于邻域粗糙集的主动学习方法

发布时间：2019-09-25 20:36

【摘要】：主动学习是机器学习领域的重要研究方向。现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进。结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learning,NRS-AL)。实验结果表明,在加州大学数据集(university of California Irvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法。
【图文】：

原理图,无标记,邻域,样本

别的密度均值，其中，sim(o，j)为2个样本的相似度，这里考虑余弦相似度，设向量M=(M1，M2，…，Mn)，N=(N1，N2，…，，Nn)sim(M，N)=Σn1(Mi×Ni)Σn1M2i醝×Σn1N2i醝(9)邻域内的无标记样本信息量原理如图1所示，在有标记样本集中计算无标记样本A和B的信息量，在A的邻域中，含有更多类别的样本，所以无标记样本A的信息量大于B，样本A更容易被选中。图1邻域内的无标记样本信息量原理图Fig．1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2．1．4计算待标记样本的泛化量考虑样本的泛化性能，也就是需要待标记样本处于训练集的低密度区域，并且处于无标签数据集的高密度区域。无标签样本邻域泛化性定义如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示样本在训练集中的邻域密度;dens_u表示样本在无标签数据集中的邻域密度;q，p为权重。无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理如图2所示，在所有样本集中计算无标记样本A和B的泛化量，在A的邻域中，A处于无标记样本集的高密度区域，有标记样本集的低密度区域，而B样本处于有标记样本的高密度区域，所以，A的泛化量大于B，样本A会更容易被选中。2．1．5计算待标记样本的重要性为了避免信息量和泛化量过大过小，所以考虑取p泛数，省去了调参过程。imp(x)=(info(x)p+gene(x)p)1/p(11)将样本按照重要性排序，取TopK添加到训练集，并从无标签样本中删除这部分样本2．1．6基于邻域样本缩减解决采集野点的问题在无标记样本集中指定一个较小的邻域半径权重w，在预处理阶段删除邻域内的样本即可，即可达到去除野点?

原理图,无标记,样本,邻域

小?图1邻域内的无标记样本信息量原理图Fig．1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2．1．4计算待标记样本的泛化量考虑样本的泛化性能，也就是需要待标记样本处于训练集的低密度区域，并且处于无标签数据集的高密度区域。无标签样本邻域泛化性定义如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示样本在训练集中的邻域密度;dens_u表示样本在无标签数据集中的邻域密度;q，p为权重。无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理如图2所示，在所有样本集中计算无标记样本A和B的泛化量，在A的邻域中，A处于无标记样本集的高密度区域，有标记样本集的低密度区域，而B样本处于有标记样本的高密度区域，所以，A的泛化量大于B，样本A会更容易被选中。2．1．5计算待标记样本的重要性为了避免信息量和泛化量过大过小，所以考虑取p泛数，省去了调参过程。imp(x)=(info(x)p+gene(x)p)1/p(11)将样本按照重要性排序，取TopK添加到训练集，并从无标签样本中删除这部分样本2．1．6基于邻域样本缩减解决采集野点的问题在无标记样本集中指定一个较小的邻域半径权重w，在预处理阶段删除邻域内的样本即可，即可达到去除野点的目的。图2无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理Fig．2Nonlabeledsamplesarecalculatedfromtheneighborhoodoflabeledsamplesandtheneighborhoodofunlabeledsamples2．2算法描述基于邻域粗糙集的主动学习方法的具体步骤。1)根据指定参数划分数据集，输入训练集占比，无标签样本占比，剩余数据为测试集，算法如下。算法1数据集划分算法输入:全部数据集ASet，训练集比重t，无标签数据比重u。
【作者单位】：重庆邮电大学计算智能重庆市重点实验室;
【基金】：国家自然科学基金(61309014) 教育部人文社科规划项目(15XJA630003) 重庆市教委科学技术研究项目(KJ1500416) 重庆市基础与前沿研究计划项目(cstc2013jcyj A40063)~~
【分类号】：TP181

【相似文献】