面向专利信息处理的语义分析方法研究
发布时间:2021-03-04 17:00
近年来,中国的专利申请量极大且增速较快。报告显示仅2017年,国内发明专利申请量就高达138.2万件,同比增长14.2%,已审结74.4万件,未审结的专利文献量都很大而且不断增长。人工进行专利信息的标引和分类需要大量有专业基础的人,因此工作量巨大且进展缓慢,标引和分类时容易出现一致性错误,造成专利文献检索漏检、偏检和噪音大等问题。专利文本是一种半结构化的数据,难用现有数据结构方法加以规范。如何从具有技术和法律二维特征的专利文献中提取所需要的技术特征,对专利文献所描述的技术内容加以解析,是基于技术语言语义分析领域研究的重点。传统基于词频统计的文本挖掘方法难以适应专利文献的复杂结构,导致分析结果准确性不足,因此开展以专利文献为代表的技术语言的语义分析研究,准确定位和提取专利文献中的技术和产品特征。本文围绕专利文本的语义分析需求,重点对专利语言特征的准确提取开展研究与实验。通过构建专利领域本体来获取尽可能多专利领域术语信息,提高专利文献检索的查全率和查准率,并减少人工标引和检索的工作量。为此,本文主要做了如下研究工作:1、基于依存关系树-CRF(条件随机场)的文本术语提取。基于依存关系树-C...
【文章来源】:江苏科技大学江苏省
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.3 研究内容
1.3.1 专利文献的预处理
1.3.2 术语提取及术语间关系提取
1.3.3 构建领域本体
1.4 本文结构
第2章 课题相关技术概述
2.1 概述
2.2 专利文本预处理
2.2.1 专利文本的相关概念
2.2.2 专利文本的获取
2.2.3 文本分词
2.2.4 词性标注
2.2.5 停用词过滤
2.3 文本特征词提取
2.3.1 卡方检验
2.3.2 信息增益
2.3.3 相关系数
2.3.4 互信息(MI)
2.4 术语提取
2.4.1 基于语言学的术语提取
2.4.2 基于统计学的术语提取
2.4.3 基于机器学习的术语提取
2.4.4 混合方法
2.5 术语间关系提取
2.5.1 K-MEANS聚类
2.5.2 Lexico-syntactic Patterns
2.5.3 关联法则
2.6 领域本体
2.6.1 本体定义
2.6.2 本体的表达
2.6.3 基于文本的本体学习框架
2.6.4 本体语言
2.6.5 本体编辑工具
2.6.6 本体填充
2.6.7 本体评测
第3章 基于依存关系树-CRF的术语提取研究
3.1 概述
3.2 基于条件随机场领域术语识别
3.2.1 条件随机场
3.2.2 算法过程
3.2.3 CRF的算法分析
3.3 基于依存关系树-CRF的文本术语提取
3.3.1 依存关系树
3.3.2 利用语义三元组挖掘技术特征词
3.3.3 基于依存关系树-CRF的文本术语提取
3.4 实验结果与分析
3.4.1 实验数据
3.4.2 实验过程
3.4.3 评测方法
3.4.4 特征模版
3.4.5 训练参数确定
3.4.6 实验结果与分析
第4章 K-MEANS算法改进及其在三支决策中的应用研究
4.1 概述
4.2 传统的K-MEANS算法的研究现状
4.3 三支决策聚类的相关概念
4.4 基于传统K-MEANS算法的三支聚类
4.5 改进的K-MEANS算法
4.6 改进的K-MEANS算法在三支决策中的应用研究
4.7 实验结果与分析
4.7.1 实验数据与说明
4.7.2 评测方法
4.7.3 实验结果
4.7.4 实验一的结果分析
4.7.5 实验二的结果分析
4.7.6 稳定性
4.7.7 实验小结
第5章 基于改进K-MEANS聚类算法的术语层次关系提取
5.1 概述
5.2 基于语义的术语层次获取流程
5.3 建立概念向量空间
5.4 计算术语语义相似度
5.5 基于改进K-MEANS的术语聚类算法
5.6 构建术语语义层次关系
5.7 实验结果与分析
5.7.1 实验数据
5.7.2 术语层次划分的算法流程
5.7.3 实验结果
5.8 构建领域实体
第6章 总结与展望
6.1 主要工作及创新点
6.2 今后工作展望
参考文献
攻读学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚类中心选择的优化[J]. 郁启麟. 计算机系统应用. 2017(05)
[3]深度学习算法在藏文情感分析中的应用研究[J]. 普次仁,侯佳林,刘月,翟东海. 计算机科学与探索. 2017(07)
[4]面向中国专利文献的零形回指消解规则研究[J]. 靳玮,乔晓东,刘耀,齐晓亚. 图书情报工作. 2015(09)
[5]面向大规模微博消息流的突发话题检测[J]. 申国伟,杨武,王巍,于淼. 计算机研究与发展. 2015(02)
[6]K-means算法初始聚类中心选择的优化[J]. 冯波,郝文宁,陈刚,占栋辉. 计算机工程与应用. 2013(14)
[7]基于条件随机场的领域术语识别研究[J]. 施水才,王锴,韩艳铧,吕学强. 计算机工程与应用. 2013(10)
[8]C-value值和unithood指标结合的中文科技术语抽取[J]. 韩红旗,安小米. 图书情报工作. 2012(19)
[9]基于k-means聚类算法的研究[J]. 黄韬,刘胜辉,谭艳娜. 计算机技术与发展. 2011(07)
[10]面向领域中文文本信息处理的术语语义层次获取研究[J]. 季培培,鄢小燕,岑咏华,王凌燕. 现代图书情报技术. 2010(09)
本文编号:3063573
【文章来源】:江苏科技大学江苏省
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.3 研究内容
1.3.1 专利文献的预处理
1.3.2 术语提取及术语间关系提取
1.3.3 构建领域本体
1.4 本文结构
第2章 课题相关技术概述
2.1 概述
2.2 专利文本预处理
2.2.1 专利文本的相关概念
2.2.2 专利文本的获取
2.2.3 文本分词
2.2.4 词性标注
2.2.5 停用词过滤
2.3 文本特征词提取
2.3.1 卡方检验
2.3.2 信息增益
2.3.3 相关系数
2.3.4 互信息(MI)
2.4 术语提取
2.4.1 基于语言学的术语提取
2.4.2 基于统计学的术语提取
2.4.3 基于机器学习的术语提取
2.4.4 混合方法
2.5 术语间关系提取
2.5.1 K-MEANS聚类
2.5.2 Lexico-syntactic Patterns
2.5.3 关联法则
2.6 领域本体
2.6.1 本体定义
2.6.2 本体的表达
2.6.3 基于文本的本体学习框架
2.6.4 本体语言
2.6.5 本体编辑工具
2.6.6 本体填充
2.6.7 本体评测
第3章 基于依存关系树-CRF的术语提取研究
3.1 概述
3.2 基于条件随机场领域术语识别
3.2.1 条件随机场
3.2.2 算法过程
3.2.3 CRF的算法分析
3.3 基于依存关系树-CRF的文本术语提取
3.3.1 依存关系树
3.3.2 利用语义三元组挖掘技术特征词
3.3.3 基于依存关系树-CRF的文本术语提取
3.4 实验结果与分析
3.4.1 实验数据
3.4.2 实验过程
3.4.3 评测方法
3.4.4 特征模版
3.4.5 训练参数确定
3.4.6 实验结果与分析
第4章 K-MEANS算法改进及其在三支决策中的应用研究
4.1 概述
4.2 传统的K-MEANS算法的研究现状
4.3 三支决策聚类的相关概念
4.4 基于传统K-MEANS算法的三支聚类
4.5 改进的K-MEANS算法
4.6 改进的K-MEANS算法在三支决策中的应用研究
4.7 实验结果与分析
4.7.1 实验数据与说明
4.7.2 评测方法
4.7.3 实验结果
4.7.4 实验一的结果分析
4.7.5 实验二的结果分析
4.7.6 稳定性
4.7.7 实验小结
第5章 基于改进K-MEANS聚类算法的术语层次关系提取
5.1 概述
5.2 基于语义的术语层次获取流程
5.3 建立概念向量空间
5.4 计算术语语义相似度
5.5 基于改进K-MEANS的术语聚类算法
5.6 构建术语语义层次关系
5.7 实验结果与分析
5.7.1 实验数据
5.7.2 术语层次划分的算法流程
5.7.3 实验结果
5.8 构建领域实体
第6章 总结与展望
6.1 主要工作及创新点
6.2 今后工作展望
参考文献
攻读学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan. Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚类中心选择的优化[J]. 郁启麟. 计算机系统应用. 2017(05)
[3]深度学习算法在藏文情感分析中的应用研究[J]. 普次仁,侯佳林,刘月,翟东海. 计算机科学与探索. 2017(07)
[4]面向中国专利文献的零形回指消解规则研究[J]. 靳玮,乔晓东,刘耀,齐晓亚. 图书情报工作. 2015(09)
[5]面向大规模微博消息流的突发话题检测[J]. 申国伟,杨武,王巍,于淼. 计算机研究与发展. 2015(02)
[6]K-means算法初始聚类中心选择的优化[J]. 冯波,郝文宁,陈刚,占栋辉. 计算机工程与应用. 2013(14)
[7]基于条件随机场的领域术语识别研究[J]. 施水才,王锴,韩艳铧,吕学强. 计算机工程与应用. 2013(10)
[8]C-value值和unithood指标结合的中文科技术语抽取[J]. 韩红旗,安小米. 图书情报工作. 2012(19)
[9]基于k-means聚类算法的研究[J]. 黄韬,刘胜辉,谭艳娜. 计算机技术与发展. 2011(07)
[10]面向领域中文文本信息处理的术语语义层次获取研究[J]. 季培培,鄢小燕,岑咏华,王凌燕. 现代图书情报技术. 2010(09)
本文编号:3063573
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3063573.html
最近更新
教材专著