基于集成学习的高维稀疏多标签文本分类
发布时间:2022-01-04 21:41
现如今的人类生活在一个信息大爆炸的时代,从复杂信息中定位自己需求信息的要求也在不断提高。多标签学习就是这样一种技术,它可以为人们将信息准确的分门别类,为人们的生活生产提供极大的便利。正因如此,对于多标签学习的研究成为当前数据挖掘和机器学习领域的热门方向。相比于单标签分类问题,多标签分类研究的是样本同时对应多个标签的分类方法,它需要更加复杂的模型来学习。随着对多标签分类研究的深入,挖掘标签之间的关联以提高分类性能成为了研究学者们越来越关注的问题。其中文本分类是多标签分类中的一个重要方向,它的数据往往有着高维稀疏的特性,这种特性导致直接学习多标签分类模型十分困难,让学习的模型容易过拟合。集成学习是一种有效控制模型过拟合的学习方法,它可以使用不同的策略将一组弱学习器结合起来,产生比最好的单一学习器更好的性能。鉴于此,本文针对这些问题进行了研究:对于文本数据中的“维数灾难”问题,一般需要对文本空间进行降维,以此降低模型的复杂度,提高分类性能。为此,本文提出了一种基于样本规则的集成学习模型,它依据文本数据稀疏的特性,截取某些样本中特征和标签均为1的部分组成基分类器的学习空间,达到了使基分类器的维...
【文章来源】:重庆邮电大学重庆市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
智能法官系统功能模块图
图 4.2 智能法官系统流程图4.1.2 智能法官原始数据介绍本系统所使用的原始数据集来自明略数据 MINGLAMP,URL 链接为http://www.datafountain.cn/#/competitions/277/data-intro。本数据集包含两部分,第一部分为样本集包含 12 万个样本,第二部分为法律条文文本。其中样本集为 4 列多行文本,第一列为文档 ID,第二列为案件事实描述,第三列为罚金额度类别,第四列为对应的法律条文编号序列。此处需要说明的是,本系统只使用了原始数据的第二列和第四列。由于案件事实描述的文本较长,以下数据实例只截取了某一文档的部分文本以作参考,其中省略号部分为已省略文本。数据样例如表 4.1 所示:
文本预处理流程图
本文编号:3569106
【文章来源】:重庆邮电大学重庆市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
智能法官系统功能模块图
图 4.2 智能法官系统流程图4.1.2 智能法官原始数据介绍本系统所使用的原始数据集来自明略数据 MINGLAMP,URL 链接为http://www.datafountain.cn/#/competitions/277/data-intro。本数据集包含两部分,第一部分为样本集包含 12 万个样本,第二部分为法律条文文本。其中样本集为 4 列多行文本,第一列为文档 ID,第二列为案件事实描述,第三列为罚金额度类别,第四列为对应的法律条文编号序列。此处需要说明的是,本系统只使用了原始数据的第二列和第四列。由于案件事实描述的文本较长,以下数据实例只截取了某一文档的部分文本以作参考,其中省略号部分为已省略文本。数据样例如表 4.1 所示:
文本预处理流程图
本文编号:3569106
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3569106.html