当前位置:主页 > 科技论文 > 软件论文 >

大数据在专利信息分析中的应用研究

发布时间:2020-11-18 18:26
   随着科技的飞速发展,专利作为衡量技术创新的重要指标也备受关注,科研机构和企业对专利信息的挖掘越发重视。尽管专利文献已经按照特定方法进行了详细的分类,但是专利文献的非结构化特性和专利数据量的爆炸式增长决定了通过传统的基于统计分析的方法难以挖掘深层的信息,而通过文本挖掘技术对专利文本进行分析处理又呈现出算法扩展性不足、数据处理平台处理能力受限等问题。大数据的兴起为专利数据的分析带来了新的机遇,将大数据的理论、方法和工具运用到专利文献的处理中是专利分析的新趋势。本文以专利文献的处理分析为目标,分析了大数据在专利信息分析中的应用场景,并以聚类为切入点,根据专利文本的特征,改进了传统的K-Means文本聚类算法,最后结合大数据处理平台Hadoop以及并行处理框架MapReduce对专利文本聚类的整个过程进行了并行化设计。本文主要研究内容如下:(1)根据当前专利信息分析的难点,对专利信息分析进行了需求分析,同时结合大数据的理论和技术,研究了大数据在专利信息分析中的应用场景。(2)根据需求分析的结果,选取专利文本聚类为切入点进行研究。根据专利文本聚类的需求,以传统的K-Means聚类算法为基础,通过设计基于密度的离群点去除方法和基于距离积的初始质心选择策略,对原有算法进行改进。(3)结合MapReduce的特性,对专利文本聚类的整个过程进行并行化设计,包括分词、特征选择、TF-IDF权重计算、文本向量化表示等关键步骤的并行实现和本文提出的改进算法的并行化实现。(4)最后通过搭建Hadoop集群,采用多个专利文本数据集和设计相关实验,对本文提出的改进算法的聚类效果进行了测试,对专利文本聚类的并行化设计进行了扩展性测试。实验表明,本文提出的改进算法和设计的基于MapReduce的文本聚类并行化在专利文本的处理中取得了很好的效果,验证了大数据的理论技术运用于专利信息分析的可行性。
【学位单位】:江苏科技大学
【学位级别】:硕士
【学位年份】:2016
【中图分类】:G306;TP311.13
【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 论文研究背景和意义
    1.2 国内外研究现状
        1.2.1 大数据研究现状
        1.2.2 专利信息分析研究现状
    1.3 本文的主要工作
    1.4 论文结构安排
第2章 基于大数据理论的专利应用需求分析
    2.1 大数据
        2.1.1 大数据的基本概念
        2.1.2 大数据的关键技术
    2.2 专利文献
        2.2.1 专利文献的特征
        2.2.2 专利文献的处理难点
    2.3 基于大数据理论的专利分析技术
        2.3.1 基于大数据理论的专利文件系统
        2.3.2 基于大数据理论的专利处理平台
        2.3.3 基于大数据工具的专利数据挖掘
    2.4 本章小结
第3章 Hadoop及Map Reduce框架
    3.1 Hadoop系统
        3.1.1 Hadoop技术简介
        3.1.2 Hadoop的master/slave架构
    3.2 HDFS分布式文件系统
        3.2.1 HDFS的组成结构
        3.2.2 HDFS的工作流程
        3.2.3 HDFS的特点
    3.3 Map Reduce框架
        3.3.1 Map Reduce并行编程模型
        3.3.2 Map Reduce程序执行过程
        3.3.3 Map Reduce的特点
    3.4 本章小结
第4章 文本聚类技术综述
    4.1 文本聚类过程
    4.2 文本预处理
        4.2.1 文本分词
        4.2.2 停用词过滤
    4.3 文本特征降维
    4.4 文本特征表示
        4.4.1 布尔逻辑模型
        4.4.2 向量空间模型
    4.5 文本相似性度量
        4.5.1 海明距离
        4.5.2 欧几里得距离
        4.5.3 马氏距离
        4.5.4 余弦距离
    4.6 文本聚类算法
        4.6.1 基于划分的方法
        4.6.2 基于层次的方法
        4.6.3 基于密度的方法
    4.7 本章小结
第5章 基于Map Reduce的专利文本聚类
    5.1 改进的K-Means文本聚类算法
        5.1.1 初始质心的选择
        5.1.2 改进算法的聚类过程
    5.2 基于Map Reduce的专利文本特征表示
        5.2.1 基于Map Reduce的TF-IDF权重计算
        5.2.2 基于Map Reduce的专利文本特征选择
        5.2.3 基于Map Reduce的专利文本特征表示
    5.3 基于Map Reduce的聚类算法实现
        5.3.1 基于Map Reduce的初始质心选择
        5.3.2 基于Map Reduce的聚类过程
    5.4 本章小结
第六章 实验与结果分析
    6.1 实验环境准备
        6.1.1 Hadoop集群规划
        6.1.2 Hadoop集群部署
    6.2 数据集与评价指标
        6.2.1 实验数据集
        6.2.2 实验评价指标
    6.3 聚类实验与结果分析
        6.3.1 参数选取方法
        6.3.2 聚类效果实验
        6.3.3 并行性能实验
        6.3.4 实验结果分析
    6.4 本章小结
总结与展望
参考文献
攻读硕士学位期间发表的论文
致谢
详细摘要

【相似文献】

相关期刊论文 前10条

1 张淑芬,范军;专利信息管理浅论[J];科技情报开发与经济;2004年04期

2 吕荣波;整合专利信息资源,构筑专利服务平台[J];中国传媒科技;2004年05期

3 宋保华;从专利信息中获取创新灵感[J];发明与创新;2004年10期

4 ;专利信息[J];云南科技管理;2004年06期

5 ;专利信息[J];云南科技管理;2005年04期

6 ;专利信息[J];云南科技管理;2005年05期

7 ;专利信息[J];云南科技管理;2005年01期

8 王璐瑶;鄢小燕;;中国网络化专利信息的发展现状及趋势研究[J];图书情报工作;2006年06期

9 刘永计;钱立亚;战威;;图书馆专利信息服务的不足与对策[J];当代图书馆;2010年01期

10 杨丽;;高校专利信息服务调查分析[J];图书馆论坛;2011年02期


相关博士学位论文 前1条

1 李鹏;基于专利信息分析的生物侦检技术发展研究[D];中国人民解放军军事医学科学院;2012年


相关硕士学位论文 前10条

1 卜远芳;基于专利信息分析的我国4G移动通信技术发展研究[D];河南科技大学;2015年

2 谢红;广东省中小企业专利信息运用实证研究[D];华南理工大学;2016年

3 李慧颖;基于专利信息分析的区域技术创新能力比较研究[D];黑龙江大学;2015年

4 何峰;专利信息在技术研发中的运用研究[D];昆明理工大学;2015年

5 杜娟娟;高校专利信息服务业务流程优化研究[D];北京交通大学;2016年

6 赵媛媛;2015年中国专利信息年会口译实践报告[D];河北大学;2016年

7 刘澎;大数据在专利信息分析中的应用研究[D];江苏科技大学;2016年

8 熊璇宇;专利信息分析方法在企业新产品研发中的应用[D];河北大学;2011年

9 李飞;基于内容挖掘的专利信息分析的方法体系及应用研究[D];南京理工大学;2008年

10 陈蕾;基于语义与语境的专利信息查询扩展的研究[D];北京工业大学;2012年



本文编号:2889048

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2889048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户94de1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com