文本挖掘在专利文献分析中的应用
发布时间:2021-05-07 10:39
保护知识产权,对经济的健康发展、企业的做大做强至关重要。申请专利是保护知识产权的有效措施,专利的数量和质量更是衡量企业创新能力的重要指标。虽然每一篇专利文献都有其详细的IPC分类号,但是专利文献具有数量大、增长快和文本非结构化的特点。传统的统计分析方法难以发现专利文献中所隐含的大量技术信息和知识,专利的价值得不到充分体现。文本挖掘技术为深度分析专利文献提供了可能。运用文本挖掘的理论和工具来分析专利文献,可以有效地导航企业的创新研发,帮助企业提高创新能力和核心竞争力。本文通过处理和分析专利文献,探讨了文本挖掘技术在专利文献分析中的应用。在硕士研究中选择文本聚类为切入点,针对传统的文本相似度计算方法精度不高的问题,提出了一种基于Word2Vec的文本距离计算公式W2vdist;针对传统的聚类算法缺乏稳定性和精度的问题,本文结合萤火虫算法和W2vdist,提出了一种融合萤火虫算法和K-Medoids算法的新型算法K-OFA。最后,设计实现了一个专利文本挖掘系统。本文主要研究成果如下:(1)结合文本挖掘的理论和方法,探讨了文本挖掘技术在专利文献分析中...
【文章来源】:江苏科技大学江苏省
【文章页数】:114 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 论文研究背景和意义
1.2 国内外研究现状
1.2.1 文本挖掘研究现状
1.2.2 专利文献分析研究现状
1.3 本文的主要创新工作和组织架构
第2章 相关技术和研究
2.1 文本挖掘
2.1.1 文本挖掘的基本概念
2.1.2 中文文本挖掘的关键技术
2.2 专利文献
2.2.1 专利文献的特征
2.2.2 专利文献的处理难点
2.3 基于文本挖掘理论的专利分析方法
2.3.1 基于SAO的专利挖掘方法
2.3.2 基于深度学习的专利价值评估方法
2.3.3 基于LDA主题模型的专利文本分析方法
2.3.4 基于本体的专利技术功效图构建方法
2.4 本章小结
第3章 基于词向量的文本距离度量方式
3.1 常用的距离度量方式
3.2 Word2Vec模型
3.2.1 独热编码
3.2.2 Word2Vec简介
3.2.3 CBOW模型
3.2.4 Skip-gram模型
3.2.5 Word2Vec模型的优化
3.3 LDA主题模型
3.4 W2v_dist算法模型构建
3.4.1 可行性分析
3.4.2 专利文本集处理和词向量训练
3.4.3 基于词向量的主题距离度量
3.4.4 基于主题距离的文本距离度量
3.5 本章小结
第4章 基于萤火虫算法的文本聚类
4.1 常用文本聚类算法
4.1.1 Agnes算法
4.1.2 Diana算法
4.1.3 K-均值算法
4.1.4 K-中心点算法
4.2 萤火虫算法
4.2.1 萤火虫算法概述
4.2.2 萤火虫算法模型
4.3 K-OFA算法模型构建
4.3.1 可行性分析
4.3.2 K-OFA算法总体设计
4.3.3 多维标度法
4.3.4 萤火虫算法的优化
4.3.5 基于优化萤火虫算法(OFA)的文本聚类
4.3.6 K-OFA算法实现
4.4 本章小结
第5章 实验与结果分析
5.1 OFA算法有效性分析
5.1.1 测试函数
5.1.2 实验过程
5.2 基于K-OFA算法的专利文本聚类
5.2.1 实验数据集
5.2.2 实验评价指标
5.2.3 实验结果
5.2.4 实验结果分析
5.3 本章小结
第6章 专利文本挖掘系统的设计与实现
6.1 系统需求分析
6.1.1 系统总体需求分析
6.1.2 系统角色分析
6.1.3 系统动态执行过程
6.1.4 系统功能分析
6.2 系统结构设计
6.2.1 系统网络结构
6.2.2 系统层次结构
6.3 系统数据库设计
6.3.1 数据库表关系设计
6.3.2 数据库表结构设计
6.4 基于三层架构的系统开发过程
6.4.1 密码校验
6.4.2 密码修改
6.4.3 文献列表显示
6.4.4 文献新增
6.4.5 文献删除
6.5 系统界面
6.5.1 登录界面
6.5.2 修改密码界面
6.5.3 专利文献表界面
6.5.4 文本分词界面
6.5.5 数据清洗界面
6.6 聚类结果分析
6.7 本章小结
第7章 总结和展望
参考文献
攻读硕士学位期间发表的论文
致谢
【参考文献】:
期刊论文
[1]基于SAO结构的中文专利实体关系抽取[J]. 张永真,吕学强,申闫春,徐丽萍. 计算机工程与设计. 2019(03)
[2]无人驾驶汽车专利技术主题分析——基于WI-LDA主题模型[J]. 李昌,伊惠芳,吴红,冀方燕. 情报杂志. 2018(12)
[3]综合词位置和语义信息的专利文本相似度计算[J]. 夏冰,李宝安,吕学强. 计算机工程与设计. 2018(10)
[4]基于光流特征与高斯LDA的面部表情识别算法[J]. 刘涛,周先春,严锡君. 计算机科学. 2018(10)
[5]专利技术信息挖掘研究进展[J]. 赵阳,文庭孝. 图书馆. 2018(04)
[6]Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J]. 郭友雄,黄添强,林玲鹏,黄维. 福建师大福清分校学报. 2018(02)
[7]双种群协同下带混沌闪烁机制的萤火虫算法研究[J]. 陈亚峰,张晓明,曹国清,周泽彧,戴波. 西安交通大学学报. 2018(03)
[8]基于领域本体的专利技术-功效文本挖掘方法——以MOCVD技术为例[J]. 陆佳伟,慎金花,张更平,杨锋. 价值工程. 2018(02)
[9]多模态函数聚类后再创种群的并行搜索佳点集萤火虫算法[J]. 方贤,铁治欣,李敬明,高雄. 浙江理工大学学报(自然科学版). 2017(06)
[10]基于寄生行为的双种群萤火虫算法及其在柴油调合中的应用[J]. 孔祥东,钱锋. 华东理工大学学报(自然科学版). 2017(02)
博士论文
[1]计算机辅助工艺创新知识获取方法研究[D]. 王刚锋.西北工业大学 2015
[2]萤火虫优化算法研究及应用[D]. 郁书好.合肥工业大学 2015
硕士论文
[1]基于Word2vec的中文Web智能问答系统的研究与设计[D]. 徐成章.电子科技大学 2018
[2]基于深度学习的专利价值评估方法研究[D]. 林弘杰.中国科学技术大学 2018
[3]基于SAO的专利挖掘方法及在工业机器人领域的应用[D]. 钱娇.华南理工大学 2018
[4]基于语义相似度的中文文本聚类算法研究[D]. 杨开平.电子科技大学 2018
[5]基于电信大数据的汽车行业用户行为的研究与应用[D]. 顾杰.北京邮电大学 2018
[6]公安部门互联网舆情监管系统设计与实现[D]. 李迁.大连海事大学 2017
[7]基于主题模型的专利文本分析及应用研究[D]. 孙宁宁.北京工业大学 2017
[8]基于自然语言处理的疑似侵权专利智能检索研究[D]. 金健.江苏大学 2017
[9]面向中文产品评论数据的情感分析模型设计及评估[D]. 李洋.北京邮电大学 2017
[10]大数据在专利信息分析中的应用研究[D]. 刘澎.江苏科技大学 2016
本文编号:3173251
【文章来源】:江苏科技大学江苏省
【文章页数】:114 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 论文研究背景和意义
1.2 国内外研究现状
1.2.1 文本挖掘研究现状
1.2.2 专利文献分析研究现状
1.3 本文的主要创新工作和组织架构
第2章 相关技术和研究
2.1 文本挖掘
2.1.1 文本挖掘的基本概念
2.1.2 中文文本挖掘的关键技术
2.2 专利文献
2.2.1 专利文献的特征
2.2.2 专利文献的处理难点
2.3 基于文本挖掘理论的专利分析方法
2.3.1 基于SAO的专利挖掘方法
2.3.2 基于深度学习的专利价值评估方法
2.3.3 基于LDA主题模型的专利文本分析方法
2.3.4 基于本体的专利技术功效图构建方法
2.4 本章小结
第3章 基于词向量的文本距离度量方式
3.1 常用的距离度量方式
3.2 Word2Vec模型
3.2.1 独热编码
3.2.2 Word2Vec简介
3.2.3 CBOW模型
3.2.4 Skip-gram模型
3.2.5 Word2Vec模型的优化
3.3 LDA主题模型
3.4 W2v_dist算法模型构建
3.4.1 可行性分析
3.4.2 专利文本集处理和词向量训练
3.4.3 基于词向量的主题距离度量
3.4.4 基于主题距离的文本距离度量
3.5 本章小结
第4章 基于萤火虫算法的文本聚类
4.1 常用文本聚类算法
4.1.1 Agnes算法
4.1.2 Diana算法
4.1.3 K-均值算法
4.1.4 K-中心点算法
4.2 萤火虫算法
4.2.1 萤火虫算法概述
4.2.2 萤火虫算法模型
4.3 K-OFA算法模型构建
4.3.1 可行性分析
4.3.2 K-OFA算法总体设计
4.3.3 多维标度法
4.3.4 萤火虫算法的优化
4.3.5 基于优化萤火虫算法(OFA)的文本聚类
4.3.6 K-OFA算法实现
4.4 本章小结
第5章 实验与结果分析
5.1 OFA算法有效性分析
5.1.1 测试函数
5.1.2 实验过程
5.2 基于K-OFA算法的专利文本聚类
5.2.1 实验数据集
5.2.2 实验评价指标
5.2.3 实验结果
5.2.4 实验结果分析
5.3 本章小结
第6章 专利文本挖掘系统的设计与实现
6.1 系统需求分析
6.1.1 系统总体需求分析
6.1.2 系统角色分析
6.1.3 系统动态执行过程
6.1.4 系统功能分析
6.2 系统结构设计
6.2.1 系统网络结构
6.2.2 系统层次结构
6.3 系统数据库设计
6.3.1 数据库表关系设计
6.3.2 数据库表结构设计
6.4 基于三层架构的系统开发过程
6.4.1 密码校验
6.4.2 密码修改
6.4.3 文献列表显示
6.4.4 文献新增
6.4.5 文献删除
6.5 系统界面
6.5.1 登录界面
6.5.2 修改密码界面
6.5.3 专利文献表界面
6.5.4 文本分词界面
6.5.5 数据清洗界面
6.6 聚类结果分析
6.7 本章小结
第7章 总结和展望
参考文献
攻读硕士学位期间发表的论文
致谢
【参考文献】:
期刊论文
[1]基于SAO结构的中文专利实体关系抽取[J]. 张永真,吕学强,申闫春,徐丽萍. 计算机工程与设计. 2019(03)
[2]无人驾驶汽车专利技术主题分析——基于WI-LDA主题模型[J]. 李昌,伊惠芳,吴红,冀方燕. 情报杂志. 2018(12)
[3]综合词位置和语义信息的专利文本相似度计算[J]. 夏冰,李宝安,吕学强. 计算机工程与设计. 2018(10)
[4]基于光流特征与高斯LDA的面部表情识别算法[J]. 刘涛,周先春,严锡君. 计算机科学. 2018(10)
[5]专利技术信息挖掘研究进展[J]. 赵阳,文庭孝. 图书馆. 2018(04)
[6]Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J]. 郭友雄,黄添强,林玲鹏,黄维. 福建师大福清分校学报. 2018(02)
[7]双种群协同下带混沌闪烁机制的萤火虫算法研究[J]. 陈亚峰,张晓明,曹国清,周泽彧,戴波. 西安交通大学学报. 2018(03)
[8]基于领域本体的专利技术-功效文本挖掘方法——以MOCVD技术为例[J]. 陆佳伟,慎金花,张更平,杨锋. 价值工程. 2018(02)
[9]多模态函数聚类后再创种群的并行搜索佳点集萤火虫算法[J]. 方贤,铁治欣,李敬明,高雄. 浙江理工大学学报(自然科学版). 2017(06)
[10]基于寄生行为的双种群萤火虫算法及其在柴油调合中的应用[J]. 孔祥东,钱锋. 华东理工大学学报(自然科学版). 2017(02)
博士论文
[1]计算机辅助工艺创新知识获取方法研究[D]. 王刚锋.西北工业大学 2015
[2]萤火虫优化算法研究及应用[D]. 郁书好.合肥工业大学 2015
硕士论文
[1]基于Word2vec的中文Web智能问答系统的研究与设计[D]. 徐成章.电子科技大学 2018
[2]基于深度学习的专利价值评估方法研究[D]. 林弘杰.中国科学技术大学 2018
[3]基于SAO的专利挖掘方法及在工业机器人领域的应用[D]. 钱娇.华南理工大学 2018
[4]基于语义相似度的中文文本聚类算法研究[D]. 杨开平.电子科技大学 2018
[5]基于电信大数据的汽车行业用户行为的研究与应用[D]. 顾杰.北京邮电大学 2018
[6]公安部门互联网舆情监管系统设计与实现[D]. 李迁.大连海事大学 2017
[7]基于主题模型的专利文本分析及应用研究[D]. 孙宁宁.北京工业大学 2017
[8]基于自然语言处理的疑似侵权专利智能检索研究[D]. 金健.江苏大学 2017
[9]面向中文产品评论数据的情感分析模型设计及评估[D]. 李洋.北京邮电大学 2017
[10]大数据在专利信息分析中的应用研究[D]. 刘澎.江苏科技大学 2016
本文编号:3173251
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3173251.html