基于深度学习理论与方法的中文专利文本自动分类研究
本文关键词:基于深度学习理论与方法的中文专利文本自动分类研究,,由笔耕文化传播整理发布。
【摘要】:在当前经济全球化的时代,科技成为第一生产力。国家和企业的进步,越来越多地依赖于科技的创新。作为科技载体的专利的数量和质量已经成为衡量国家和企业创新能力的重要指标,因而专利申请的数量大大增加。世界知识产权组织的统计结果表明,专利文本中蕴含了全世界90%-95%的发明创造,表征着世界科技的发展水平。如何从这些专利文本中获取和利用科技信息,为国家和企业的发展提供战略支持,是国内外相关学者和专家研究的重点。而专利文本的分类作为最基础的步骤,制约着专利文本信息的获取和利用。目前,专利文本的分类主要以人工方式为主,自动分类方式已经开始作为辅助手段,但大规模的专利文本自动分类尚未实现,因此研究专利文本的自动分类具有重要的现实意义。基于专利文本的语义特征,借助自动分类技术,专利工作人员能够对大量的专利文本进行自动且高效地分类,提高工作效率的同时,能够更好地对专利文本中蕴含的丰富的科技信息进行分析和利用。因此,本文在对专利文本自动分类的基本框架和基本原理进行系统梳理的基础上,设计了一个基于深度学习理论的中文专利自动文本分类方法,方法的主要内容如下:首先对专利文本进行预处理和特征选择,得到专利文本的形式化表示;然后基于深度学习理论,用降噪自动编码器构建深度学习网络,自动学习得到专利文本的低维特征编码,并在网络的最顶层采用支持向量机算法对其进行分类,根据分类的结果不断调整网络中的各层参数得到分类器;最后采用已知类别的专利文本测试集对分类器进行分类测试,得到测试分类的准确率、召回率和F值以验证本文设计的方法的可行性。另外,为了验证本论文设计方法的有效性和优越性,本文借鉴其他学者的方法,将得到的分类测试结果分别与K近邻算法、支持向量机算法和反向传播神经网络算法等经典算法得到的分类测试结果进行比较。本文设计的专利文本自动分类方法在测试集上平均得到了95%以上的分类准确率和94%以上的分类召回率,优于经典算法,表明本文设计的方法是有效而且优越的。
【关键词】:专利文本分类 深度学习理论 支持向量机 降噪自动编码器
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 1 绪论10-22
- 1.1 研究背景及意义10-14
- 1.1.1 研究背景10-11
- 1.1.2 研究意义11-14
- 1.2 专利文本自动分类的国内外研究现状14-18
- 1.2.1 国外研究现状14-15
- 1.2.2 国内研究现状15
- 1.2.3 述评15-18
- 1.3 研究方法18-20
- 1.4 研究内容与框架20-21
- 1.5 本章小结21-22
- 2 专利文本自动分类理论基础22-36
- 2.1 专利文本自动分类定义22-23
- 2.2 专利文本自动分类框架23-35
- 2.2.1 专利文本预处理24
- 2.2.2 专利文本特征提取24-27
- 2.2.3 专利文本表示27-29
- 2.2.4 专利文本自动分类算法29-34
- 2.2.5 专利分类效果评价34-35
- 2.3 本章小结35-36
- 3 深度学习理论基础36-46
- 3.1 深度学习理论概述36-38
- 3.2 深度学习算法38-44
- 3.2.1 自动编码器38-39
- 3.2.2 稀疏编码39-40
- 3.2.3 限制玻尔兹曼机40-41
- 3.2.4 深度置信网络41-42
- 3.2.5 卷积神经网络42-44
- 3.3 深度学习理论算法在文本处理中的应用44-45
- 3.3.1 AE在文本处理中的应用44
- 3.3.2 深度学习其它算法在文本处理中的应用44-45
- 3.3.3 深度学习算法的选择45
- 3.4 本章小结45-46
- 4 基于深度学习理论的专利文本自动分类方法的提出46-52
- 4.1 基于DAE的专利文本特征降维46-49
- 4.2 基于SVM的专利文本自动分类49-50
- 4.3 基于深度学习理论的专利文本自动分类流程50-51
- 4.4 本章小结51-52
- 5 基于深度学习理论的专利文本自动分类实验设计与实现52-74
- 5.1 专利文本自动分类系统集成框架52-55
- 5.2 实验语料的选择55-57
- 5.3 专利文本分词57-63
- 5.4 专利文本特征选择63-65
- 5.5 专利文本形式化表示65-67
- 5.6 专利文本自动分类器的构建67-72
- 5.6.1 专利文本自动分类经典实验67-68
- 5.6.2 专利文本自动分类优化实验68-72
- 5.7 专利文本自动分类评测72
- 5.8 分类实验具体步骤72-73
- 5.9 本章小结73-74
- 6 专利文本自动分类实验结果分析74-82
- 6.1 基于深度学习理论的分类方法的实验结果分析74-77
- 6.2 与经典算法实验的比较分析77-81
- 6.3 本章小结81-82
- 7 论文总结与展望82-86
- 7.1 论文总结82-84
- 7.2 未来展望84-86
- 参考文献86-91
- 致谢91-92
- 攻读硕士学位期间发表的论文和参与的课题92
【相似文献】
中国期刊全文数据库 前10条
1 李淑文;试论文本自动分类[J];现代计算机(专业版);2004年07期
2 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
3 徐建斌,施亚东;基于概念的文本自动分类研究的综述[J];福建电脑;2005年02期
4 包剑,冀常鹏,李义杰;基于矢量空间模型的文本自动分类系统研究[J];计算机系统应用;2005年03期
5 杨应全;网络环境下文本自动分类分析[J];现代情报;2005年03期
6 杨应全;文汝;;网络环境下文本自动分类分析[J];科技文献信息管理;2005年01期
7 盛秋艳;;文本自动分类技术的研究[J];交通科技与经济;2006年03期
8 张雪英;Jürgen Krause;刘凤玉;;文本自动分类中的动态类别扩展研究[J];计算机应用研究;2007年05期
9 耿焕同;李杰;;范例推理在文本自动分类中的应用研究[J];情报理论与实践;2007年06期
10 王涛;;文本自动分类研究[J];图书馆学研究;2007年12期
中国重要会议论文全文数据库 前5条
1 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 匡海波;陈小荷;;唐诗文本自动分类的算法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 周钦强;孙炳达;;贝叶斯文本自动分类器的研究与实现[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
中国博士学位论文全文数据库 前3条
1 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
2 郝立柱;汉语文本自动分类[D];吉林大学;2008年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前10条
1 王恒;基于云计算的文本自动分类系统的设计与实现[D];电子科技大学;2014年
2 刘Z
本文编号:291231
本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/291231.html