基于深度学习的中文专利文本分类研究和设计
发布时间:2022-01-24 01:13
随着社会发展,专利的申请数量越来越多,专利文献中含有大量的发明创造技术信息,使用专利文献中的科学技术,可以很大程度的降低研发成本和开发周期,所以如何从专利中获取丰富的科学技术信息成为人们关心的重点。目前,人们多采用半自动分类的方式,来辅助专利分类人员的专利分类工作,虽然在一定程度上减少了分类人员的工作量,但是这种方式仍存在一定的不足。随着深度学习在自然语言处理领域的深入发展,为专利文本自动分类提供了技术支撑。本文利用深度学习方法,通过模型设计,实现了一种比较高效的文本分类方法,主要工作如下:一是设计网络爬虫策略,使用python编程语言获取中文专利文本数据,构建分类模型的训练集和测试集,为中文专利文本分类提供数据支撑;二是在文本预处理时,采用结巴分词系统,另外加入自行建立的领域用户词典进行分词,在分词后使用自定义的停用词典,去除一些对分类任务不重要的词;三是阐述了卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆神经网络(Long Short-Term Memory,LSTM)原理知识,在构建中文专利文本分类算法时,结合CNN提取局部特征和Bi...
【文章来源】:青岛科技大学山东省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
IPC类别示意图
基于深度学习的中文专利文本分类研究和设计102中文专利文本分类的相关技术第一章对专利文本分类现状进行了概述,本章对中文专利文本分类相关技术进行介绍,首先对中文专利文本分类进行总体概述,然后分别介绍了专利文本预处理、特征提娶文本表示和分类模型等过程的相关技术。2.1中文专利文本分类框架随着计算机技术和互联网的快速发展,专利的申请量越来越多,专利文本中含有大量创新发明技术,所以有效的管理专利文献和从专利文献中获取到有用信息成为人们关注的重点。目前,主要利用机器学习和深度学习进行专利文本分类的研究,本章内容主要是基于IPC分类体系的原理,对中文专利文本分类的相关技术进行总结和概述,主要工作如图2-1所示。图2-1中文专利文本分类的流程图Fig.2-1FlowchartofChinesepatenttextclassification
LSTM链式结构
【参考文献】:
期刊论文
[1]结合GloVe和GRU的文本分类模型[J]. 方炯焜,陈平华,廖文雄. 计算机工程与应用. 2020(20)
[2]基于双通道特征融合的WPOS-GRU专利分类方法[J]. 余本功,张培行. 计算机应用研究. 2020(03)
[3]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[4]基于深度学习的专利分类方法[J]. 马建红,王瑞杨,姚爽,刘双耀. 计算机工程. 2018(10)
[5]基于卷积神经网络与随机森林算法的专利文本分类模型[J]. 胡杰,李少波,于丽娅,杨观赐. 科学技术与工程. 2018(06)
[6]基于多特征融合的混合神经网络模型讽刺语用判别[J]. 孙晓,何家劲,任福继. 中文信息学报. 2016(06)
[7]基于统计分布的中文专利自动分类方法研究[J]. 胡冰,张建立. 现代图书情报技术. 2013(Z1)
[8]专利文本分类的基础问题研究[J]. 屈鹏,王惠临. 现代图书情报技术. 2013(03)
[9]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[10]基于自适应中文分词和近似SVM的文本分类算法[J]. 冯永,李华,钟将,叶春晓. 计算机科学. 2010(01)
硕士论文
[1]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
本文编号:3605538
【文章来源】:青岛科技大学山东省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
IPC类别示意图
基于深度学习的中文专利文本分类研究和设计102中文专利文本分类的相关技术第一章对专利文本分类现状进行了概述,本章对中文专利文本分类相关技术进行介绍,首先对中文专利文本分类进行总体概述,然后分别介绍了专利文本预处理、特征提娶文本表示和分类模型等过程的相关技术。2.1中文专利文本分类框架随着计算机技术和互联网的快速发展,专利的申请量越来越多,专利文本中含有大量创新发明技术,所以有效的管理专利文献和从专利文献中获取到有用信息成为人们关注的重点。目前,主要利用机器学习和深度学习进行专利文本分类的研究,本章内容主要是基于IPC分类体系的原理,对中文专利文本分类的相关技术进行总结和概述,主要工作如图2-1所示。图2-1中文专利文本分类的流程图Fig.2-1FlowchartofChinesepatenttextclassification
LSTM链式结构
【参考文献】:
期刊论文
[1]结合GloVe和GRU的文本分类模型[J]. 方炯焜,陈平华,廖文雄. 计算机工程与应用. 2020(20)
[2]基于双通道特征融合的WPOS-GRU专利分类方法[J]. 余本功,张培行. 计算机应用研究. 2020(03)
[3]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[4]基于深度学习的专利分类方法[J]. 马建红,王瑞杨,姚爽,刘双耀. 计算机工程. 2018(10)
[5]基于卷积神经网络与随机森林算法的专利文本分类模型[J]. 胡杰,李少波,于丽娅,杨观赐. 科学技术与工程. 2018(06)
[6]基于多特征融合的混合神经网络模型讽刺语用判别[J]. 孙晓,何家劲,任福继. 中文信息学报. 2016(06)
[7]基于统计分布的中文专利自动分类方法研究[J]. 胡冰,张建立. 现代图书情报技术. 2013(Z1)
[8]专利文本分类的基础问题研究[J]. 屈鹏,王惠临. 现代图书情报技术. 2013(03)
[9]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[10]基于自适应中文分词和近似SVM的文本分类算法[J]. 冯永,李华,钟将,叶春晓. 计算机科学. 2010(01)
硕士论文
[1]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
本文编号:3605538
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3605538.html