面向司法领域的多标签分类的研究与实现
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:D926;TP391.1
【图文】:
逦…逦wx逡逑图2-2:邋FastText模型结构图逡逑该模型由输入层,隐藏层和输出层组成,输入层为词向量,隐藏层通过将文本中逡逑词向量进行平均得到句子向量的表达,最后通过暑促层线性分类器进行文本分类。该逡逑方法训练速度快,在很多文本分类任务中取得了出色的表现。逡逑随着CNN/RNN的研究不断增多,越来越多的模型使用这些方法对文本进行建逡逑模。Kim等人提出基于卷积神经网络的文本分类方法I1'其模型结构如图2-3所示:逡逑,uNm-爿逡逑wait邋!邋i逦*逦逡逑for邋"|!逦逦逦—逦.、???_?..-iC1!逡逑the邋I邋 ̄p逦?.—匚逦??...逡逑video逦|邋I逦二=一逦\、逦\3;逦?逡逑m,Kl邋逦逦邋'.’'.....‘.'.j—-邋—逦'逦V\逡逑n't邋Y邋r逦逦一二一逦)逦逦逦-逡逑rent逦」逦—?邋??—逦.逡逑il邋!邋1逦邋b邋-邋y邋’逡逑i逦i邋I逦}逦I逦逦I邋I逦|逡逑n邋x邋k邋r?present?Hon邋of逦Gonvotutionai邋iayor邋wslh逦Max-0yer-!ims逦Fully邋eonr^ected邋layfcr逡逑se??ance邋wHh邋sialic;邋and逦mu'tiftis邋filter邋wictfis邋and逦poohng逦wish邋dropoul邋and逡逑non-static邋channels逦feature邋maps逦sofimax逡逑图2-3:邋TextCNN模型结构图逡逑该模型由卷积层
由于本身结构的限制,无法得到文本序列的长期依赖,因此,为了解决这个问题,机逡逑器翻译模型引入了注意力机制,通过在不M解码阶段不同词重要性的不同,对文本逡逑向量进行加权,将语义信息集中在需要的部分。最基本的注意力机制模型如图2-5所逡逑不:逡逑st-l逦st逦*■逡逑i邋逦邋1邋i逦.邋\逦…I逦I邋逦逡逑;逡逑逦逦^逦逦i逦^逦_;逦逦i邋(逡逑^l.r逦九邋2,r邋I逦"3.r逦htr逡逑^l.l邋*J逦!—邋^2,1邋?_J逦^3./逦4邋!—邋l^t.l逡逑IL-JTTLJ邋LJ1邋n_j|逡逑:邋.逦..逡逑Xj逦X2逦x3逦xt逡逑图2-5:注意力机制模型结构图逡逑其中,X代表输入文本,代表输出|丨标,定义如下条件概率:逡逑p{y,\yi,..逦(2-11)逡逑其中,&代表第/时刻的RNN隐层单元,其计算公式如下:逡逑s,邋=邋f(s,^uyt^,Ci)逦(2-12)逡逑c,.依赖于来源于输入句子的隐藏序列(心...,/%
另一个挑战是标签不均衡问题。如果一个多标签分类数据集上一部分数据的标逡逑签数量远远小于另一部分数据,那么这个多标签分类数据集被认为是不均衡的。针对逡逑同一份案例数据进行分析,其结果如图3-2所示,其中,x轴代表法条集合大小,y轴逡逑代表样本比例占比。逡逑10000邋■邋|逡逑8000邋-逡逑6000邋-逡逑4000邋-逡逑2000邋-逡逑L邋llllllHlm,.…逡逑0逦10逦20逦30逦40逦50逦60逦70逡逑图3-2:样本标签出现次数统计图,其中,x代表按出现频次排序的标签,y代表标签逡逑出现的次数。逡逑从图中可以看出,每种法条出现的数量符合长尾分布,这意味着很多法条很少在逡逑审判中被引用。大多数传统的多标签分类算法在训练过程屮通过最小化整体分类误逡逑差来进行优化,这种方式假设所有标签拥有同等的重要性。这种假设使得分类算法在逡逑训练过程中偏向于向数量占比多的标签进行学>J。虽然法条定义可以体现不同法条逡逑之间的一些相关信息用于缓解标签不均衡问题(例如表3-1所示,刑法第-百九十七逡逑条和刑法第一百九十一条是非常相似的。),但是目前在判决预测研究屮没有工作考逡逑虑这方面的问题。逡逑现有的很多多标签分类工作都引入了标签之间的关联彳','(息,然而,这些工作都将逡逑多标签分类和阈值预测器分开学习
【相似文献】
相关期刊论文 前10条
1 朱昌俊;;“二等座院士”身上的职业精神[J];作文与考试;2017年26期
2 包佳佳;田伟;;大规模图上标签集约束路径的集合查询[J];计算机科学;2013年04期
3 吴金成;曹娇;赵文栋;张磊;;标签集中式发布订阅机制性能分析[J];指挥控制与仿真;2010年06期
4 吴小兰;章成志;;结合用户关系网和标签共现网的微博用户标签推荐研究[J];情报学报;2015年05期
5 李艳;贾君枝;;轻型标签本体与受控词表的结合研究[J];数字图书馆论坛;2014年08期
6 李松丽;曹平;姜盼;;国际标准化组织的标准标签集研究分析[J];航空标准化与质量;2018年02期
7 宋宁远;刘晶;;数据标签集及其适用性探析[J];数字图书馆论坛;2018年06期
8 丁子_g;;建设工程招标投标大数据标签体系的研究与应用[J];招标采购管理;2018年08期
9 包靖玲;霍永丰;顾佳;韩静;李君;袁庆;李敬文;沈锡宾;;美国国立医学图书馆期刊文档标签集概述[J];中国科技期刊研究;2013年04期
10 李锋;杨有龙;;基于标签特征和相关性的多标签分类算法[J];计算机工程与应用;2019年04期
相关重要报纸文章 前2条
1 王小默;应用精准用户画像有多难?[N];人民邮电;2018年
2 任远;世界无法依靠逃离来彻悟[N];文学报;2015年
相关博士学位论文 前4条
1 刘世超;基于网络嵌入学习和标签传播的社区发现算法研究[D];武汉大学;2017年
2 黄媛;面向服务的社会化标注方法研究[D];武汉大学;2013年
3 彭岳;基于主题模型的多标签学习问题研究[D];南京大学;2018年
4 杜卿;面向个性化服务的User Profile研究及应用[D];华南理工大学;2014年
相关硕士学位论文 前10条
1 杨泽;面向司法领域的多标签分类的研究与实现[D];北京邮电大学;2019年
2 廖丽芳;基于标签相关性和三层BP神经网络的多标签分类算法研究[D];厦门大学;2017年
3 杜炼;多标签中文文本分类中的关键技术研究[D];杭州电子科技大学;2018年
4 刘义明;多视角多标签最优链式学习算法[D];山东大学;2018年
5 张文杰;大规模多标签学习算法研究[D];华东师范大学;2018年
6 张春焰;层次多标签分类算法研究与应用[D];南京邮电大学;2018年
7 杨柳;基于标签的外卖平台用户画像研究[D];华中师范大学;2016年
8 陆健;大型仓储中基于无源RFID的人员与商品智能感知技术研究[D];东南大学;2018年
9 杨晓丹;基于耦合相似性的多标签k近邻分类方法研究[D];云南大学;2017年
10 吕荣荣;基于深度学习的多标签文本分类的研究与实现[D];东南大学;2018年
本文编号:2801866
本文链接:https://www.wllwen.com/falvlunwen/gongjianfalunwen/2801866.html