非均衡数据下基于卷积神经网络的专利文本自动分类研究
发布时间:2021-03-16 11:08
[目的/意义]探究非均衡专利文本数据的自动分类问题,并分析识别不同方案的分类效果。[方法/过程]使用卷积神经网络作为分类器,利用随机欠采样、随机过采样以及综合采样的方法对非均衡数据进行采样处理,使训练数据集均衡化,然后运用卷积神经网络进行自动分类,并分析分类的指标特征。[结果/结论]针对非均衡数据的分类问题,不能单一依据准确率来判定,三种实验方法都可以提高分类的正确率,但是进一步明确各类别实际的分类正确率而言,综合采样方法相对较好,能够改善专利文本自动分类效果。卷积神经网络在非均衡专利文本多分类中,虽然能够对多数类别进行相对较好的识别,但分类精度仍有较大提升空间。
【文章来源】:文献与数据学报. 2020,2(03)
【文章页数】:12 页
【部分图文】:
CNN的基本结构
非均衡数据的CNN专利文本分类模型
非均衡数据集中训练集和测试集中准确率和loss值变化图
【参考文献】:
期刊论文
[1]基于深度学习的专利分类方法[J]. 马建红,王瑞杨,姚爽,刘双耀. 计算机工程. 2018(10)
[2]基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究[J]. 李鑫,郭汉,张欣,胡方强,帅仁俊. 计算机科学. 2018(S1)
[3]基于卷积神经网络与随机森林算法的专利文本分类模型[J]. 胡杰,李少波,于丽娅,杨观赐. 科学技术与工程. 2018(06)
[4]基于改进BP神经网络的非均衡数据分类算法[J]. 张文东,吕扇扇,张兴森. 计算机系统应用. 2017(06)
[5]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[6]不均衡数据分类算法的综述[J]. 陶新民,郝思媛,张冬雪,徐鹏. 重庆邮电大学学报(自然科学版). 2013(01)
[7]专利检索中的IPC和主题词识别方法研究[J]. 暴海龙,李金林. 北京理工大学学报(社会科学版). 2003(05)
本文编号:3085941
【文章来源】:文献与数据学报. 2020,2(03)
【文章页数】:12 页
【部分图文】:
CNN的基本结构
非均衡数据的CNN专利文本分类模型
非均衡数据集中训练集和测试集中准确率和loss值变化图
【参考文献】:
期刊论文
[1]基于深度学习的专利分类方法[J]. 马建红,王瑞杨,姚爽,刘双耀. 计算机工程. 2018(10)
[2]基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究[J]. 李鑫,郭汉,张欣,胡方强,帅仁俊. 计算机科学. 2018(S1)
[3]基于卷积神经网络与随机森林算法的专利文本分类模型[J]. 胡杰,李少波,于丽娅,杨观赐. 科学技术与工程. 2018(06)
[4]基于改进BP神经网络的非均衡数据分类算法[J]. 张文东,吕扇扇,张兴森. 计算机系统应用. 2017(06)
[5]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安. 自动化学报. 2016(09)
[6]不均衡数据分类算法的综述[J]. 陶新民,郝思媛,张冬雪,徐鹏. 重庆邮电大学学报(自然科学版). 2013(01)
[7]专利检索中的IPC和主题词识别方法研究[J]. 暴海龙,李金林. 北京理工大学学报(社会科学版). 2003(05)
本文编号:3085941
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3085941.html