基于突发词检测的中文专利预警系统
发布时间:2017-08-21 06:06
本文关键词:基于突发词检测的中文专利预警系统
更多相关文章: 专利数据 文本挖掘 自然语言处理 突发词检测 专利预警
【摘要】:专利信息是重要的竞争情报资源之一,它蕴含了巨大的技术信息和知识量。充分挖掘和利用专利信息,可以了解技术发展趋势,发现新的技术领域和技术方向。通过建立专利预警机制,一方面可以使企业在市场竞争中占据有利地位,保护自身知识产权,规避专利侵权行为,从容应对竞争对手在专利技术领域的挑战;另一方面也可以使企业及时发现行业中的技术热点和新兴技术,了解行业发展趋势,进而为企业发展提供战略参考。本论文以新能源汽车领域的专利数据作为研究对象,将文本挖掘与信息抽取技术应用于专利信息抽取,并在此基础上实现了专利突发词的发现和重要专利的预警工作。本文同时构建了适合大规模数据采集的分布式专利信息采集系统,最终实现了包含上述工作的基于突发词检测的中文专利预警系统。该系统在工程方面借鉴了国内外互联网企业先进的工程经验,在架构设计上充分考虑了高可用、高并发、大数据处理等实际问题。该系统主要分为4个部分,即专利信息采集子系统、突发词抽取子系统、重要专利预警子系统和竞争对手分析子系统。(1)专利信息采集子系统定时从指定信息源抓取最新的专利数据,对数据进行结构化解析、信息抽取等操作,再将数据传送到主系统中的专利知识库。该子系统在工程方面进行了较大改进,通过分布式部署、HTTP代理集群,使之更加适应海量数据处理的需要。(2)突发词抽取子系统应用本文提出的突发词抽取算法,实现了专利数据中突发词的抽取和展示。(3)重要专利预警子系统是在突发词抽取的基础上,根据用户指定突发词,为其推荐和该突发词所代表的技术领域关系最密切的专利数据。(4)竞争对手分析子系统实现了对竞争对手在中文专利申请方面的综合竞争力、发明人合作关系、专利数量变化趋势的分析工作。通过在真实数据集上的实验证明,本文提出的基于突发词检测的中文专利预警方案能够极大地减少人力成本的浪费,提高了专利信息挖掘的效率。
【关键词】:专利数据 文本挖掘 自然语言处理 突发词检测 专利预警
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G306;TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-16
- 1.1 研究背景及意义10
- 1.2 国内外研究现状10-11
- 1.3 主要研究内容11-13
- 1.4 可行性分析13
- 1.5 本文的组织结构13-16
- 第2章 相关技术16-22
- 2.1 专利信息采集16-17
- 2.1.1 多Agent系统16
- 2.1.2 负载均衡机制16
- 2.1.3 Web信息抽取技术16-17
- 2.2 文本挖掘17-18
- 2.2.1 文本挖掘概论17-18
- 2.2.2 文本聚类18
- 2.3 共词分析18-19
- 2.4 系统开发技术19
- 2.5 本章小结19-22
- 第3章 专利信息采集与预处理22-30
- 3.1 专利信息采集22-25
- 3.1.1 专利信息采集概述22-23
- 3.1.2 专利列表页的抓取23-24
- 3.1.3 专利内容页的抓取24-25
- 3.1.4 负载均衡与访问代理25
- 3.2 专利信息抽取25-26
- 3.3 专利信息预处理26-27
- 3.4 实验及结果分析27-28
- 3.4.1 专利信息采集结果27
- 3.4.2 专利信息抽取结果27-28
- 3.5 本章小结28-30
- 第4章 专利突发词抽取30-42
- 4.1 专业术语识别30-31
- 4.2 同义词归并31-32
- 4.3 突发词判定条件32-34
- 4.3.1 重要性评价32-34
- 4.3.2 热点性评价34
- 4.3.3 突发性评价34
- 4.4 基础词汇过滤34-36
- 4.5 专利突发词判定算法36-37
- 4.6 实验及结果分析37-40
- 4.6.1 数据集37
- 4.6.2 同义词归并结果37-38
- 4.6.3 突发词判定结果38-39
- 4.6.4 基础词汇过滤结果39-40
- 4.6.5 突发词抽取结果40
- 4.7 本章小结40-42
- 第5章 重要专利预警42-54
- 5.1 突发词聚类42-44
- 5.1.1 突发词相似性判定42-43
- 5.1.2 突发词聚类算法43-44
- 5.2 查询预处理44-46
- 5.2.1 查询条件分解44-45
- 5.2.2 查询条件扩展45-46
- 5.3 专利分值加权46-49
- 5.3.1 水平加权47-48
- 5.3.2 垂直加权48
- 5.3.3 混合加权48-49
- 5.4 专利分值计算49
- 5.5 重要专利推荐算法49-50
- 5.6 实验及结果分析50-51
- 5.6.1 突发词聚类实验结果50
- 5.6.2 查询条件分解实验结果50-51
- 5.6.3 重要专利推荐实验结果51
- 5.7 本章小结51-54
- 第6章 系统设计与实现54-68
- 6.1 系统设计54-58
- 6.1.1 基础开发环境54
- 6.1.2 系统特色54-55
- 6.1.3 系统总体框架55-56
- 6.1.4 分层架构设计56-58
- 6.2 专利信息采集子系统58-62
- 6.2.1 系统结构设计58-59
- 6.2.2 系统基本功能59-62
- 6.3 突发词抽取子系统62-64
- 6.3.1 系统结构设计62-63
- 6.3.2 系统基本功能63-64
- 6.4 重要专利预警子系统64-65
- 6.4.1 系统结构设计64
- 6.4.2 系统基本功能64-65
- 6.5 竞争对手分析子系统65-67
- 6.5.1 系统结构设计65
- 6.5.2 系统基本功能65-67
- 6.6 本章小结67-68
- 结论68-70
- 参考文献70-74
- 攻读硕士学位期间所取得的研究成果74-76
- 致谢76
本文编号:711214
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/711214.html