当前位置:主页 > 论文百科 > 大学论文 >

专利地图服务系统的研究与应用

发布时间:2016-05-06 07:42

第一章绪论


1. 1研究背景以及意义
专利是知识产权中科技含量很高很重要的组成部分,其意义在于对企业的研发活动和企业的战略部署具有很重要的指导作用。在我国,用发明专利拥有量来作为我国社会和经济发展的考核指标体系的重要部分,是在“十二五”规划中首次被提出的,这都表明了我国对创新型经济的急切需求。“十一五"期间我国专利申请量十分的巨大,在全球居第四位,五年间总共累积受理了397.2万件企业可以从专利中获取具有技术价值和经济价值的重要信息,专利文献包含了高达90%以上的研发成果,同时通过专利文献可以反映出专利的发明创造信息。专利的重要作用和意义在于,根据世界知识产权组织(WIPO)统计显示,在有效利用专利情报的条件下,,研发时间平均可以缩短60%,研发费用可以节省40%,所以合理利用专利资源有助于激发企业的创新意识和帮助启发企业技术工作人员的创新思路,从而可以发现新的技术领域。但是在当下,技术的发展更快更复杂,专利信息不断膨胀增加,专利信息不断过载的现象也日益严峻,这都给企业带来了极大的不便,所以有效监测和了解技术发展方向变得越来越重要。因此,无论是学术界还是实务界,这些领域的专家们都已经开始着手研究如何跟踪技术发展的方向,并且也提出了许多与之相关的方法。其中利用分析和处理专利文献从而来制作专利地图,进而从专利可视化的视角去探索和研究技术的动态发展便是其中的一种方法。除此之外,专利地图是整体专利分析的一个可视化表达方法,这样更有利于且方便有效地理解复杂和不同的专利信息。专利地图最重要的意义是对技术的发展和创新。在研究了有关国内外相关文献等对专利地图作用的阐述,其主要功能大概可以归纳总结为以下三个方面:(1)可以激发新专利的创造动力,同时可以发现对现有技术不足之处并进行改进;(2)研究技术相对密集领域进而发现技术发展的机会:(3)不仅可以密切关注竞争者的研究动态而且可以发现新的竞争者。
……….


1. 2国内外研究现状
在现实应用中随着对专利分析的不断应用和展现,分析专利信息的研究和应用逐步被重视和关注起来。作为专利分析的重要手段之一的专利地图,它的首次成功的应用是在日本,并成为其专利战略中成功的“作战图”,得到了大力推广和应用。目前在日本,日本相关方面依然在积极收集各个技术领域专利信息并进行分析,并将分析得到的结果制作成专利地图,无偿的提供给需要的领域企业等如工业界。之后制作专利地图的相关技术也被传入韩国、新加坡、美国等国家和地区并得到推广,比如:2003年在韩国知识产权局一场关于专利信息产品及其作用的报告中曾总结提出过,专利信息业务要包含制作专利地图及其分析软件,在美国,IBM公司的专利申请量特别巨大,而"专利地图”这个词经常被使用在其有关的专利分析文献中。跟上述国家相比,在我国大陆地区对专利信息的分析和系统研究还处于比较薄弱的阶段,国家要从制造大国转型发展为创造大国仍然还有很长的路要走还有很多的工作要做。虽然近些年来在我国,有部分企业己经开始应用专利地图,但是总体上仍落后于其他国家,处于一个起步的阶段。
……….


第二章相关技术


2. 1Hadoop平台
随着云计算和大数据的不断发展,云计算平台的种类也不断的出现并且越来越多,同时也日渐成熟,比如GoogleAppEngine、MicrosoftArzue等,但是大多数平台都不向外部公开其内部资料,相反只是公布了相关的API,Hadoop以其开源且低廉的优势获得了大多数研究者的青睐和重点关注,所以Hadoop是使用得较为广泛的云计算平台。Hadoop的优势在于用户可以利用很廉价的机器搭建集群环境,可以在不了解分布式系统的情况下完成分布式运算任务Hadoop的优点主要有:1、可拓展性,Hadoop的扩展十分简单,并不需要修改到自己已经有的任何结构;2、经济性,Hadoop对硬件要求不高,它可以运行在比较大型集群而且廉价的硬件设备上;3、可靠性,Hadoop提前架设了每个节点会出现计算和存储失败的情况,因此它具有备份恢复机制和任务监控,确保能够当某个节点失败后能够恢复重新分布处理;4、高效性,Hadoop是以并行的方式工作,可以通过分布式处理加快任务的处理速度。Hadoop的组件包括很多,但是最主要的两大核心组件是分布式文件系统HDFS和MapReduce。HDFS作为大规模的分布式文件系统,主要用来存储各个计算节点的数据,并且提供了对数据的容错性处理和,以提供了处理数据的高吞吐量,为底层计算存储提供了支持。MapReduce的思想最早出现于Google的论文中,MapReduce的从含义上讲就是作业的分解和结果的汇总,即将任务分解成多个小工作单元,任何集群点上都可以处理这些单元。
…………


2.2非结构化信息处理技术
文本分类实质就是将文本映射到一个或者多个分类中去,是一门模式识别和自然语言处理的交叉学科[气单标签分类,即待分类的文本被映射到一个类别中,多标签分类则是被映射到多个类别中。文本分类不同于文本聚类,是一种基于实例的监督学习过程,就是通过一个已经人工训练好的训练集或者已经逋过标识类别的文本集,对未分类的文本进行分类,将其归类。目前已经有多种分类算法,如:KNN、类中心向量法、支持向量机、神经网络等等。KNN算法在1968年由Hart和Cover提出来的,算法的基本思想是:利用空间向量模型将待分类文本和训练集文本表示为空间向量,然后将两者的文本进行计算,计算出文本之间的相似度,待分类文本的类别主要由测试集文本的类别决定的,分类的原则是根据测试文本和训练文本之间的相似度降序排序,然后选取前K个文本,并统计K个女本中属于某个类别最多的结果,由此将待分类文本分到该类别中。在KNN算法中,K值的选取会影响到文本的分类效果,因此选取合适的K值十分重要。如果K的值选择过大,会把对分类造成影响的噪点文本包含进来,那么就会造成分类的时间成本等增加,使得分类的效果不好,相反,如果K值选择过小,可能会把有用的文本排除在外,导致文本样本数太少,导致分类的不准确产生误差。
…….


第三章总体设计..........23
3.1系统分析.........23
3.2体系架构.........23
3.3系统组成.........25
3.3.1数据采集.........25
3.3.2文本分类.........27
3.3.3专利可视化.........31
第四章基于MapReduce的专利地图构建.........33
4.1专利地图模型定义.........33
4.2专利文献预处理.........34
4.3关键词表生成.........36
4.4文本向量化.........38
4.5改进的KNN算法.........42
4.6专利地图可视化.........43
第五章应用与分析.........46
5.1系统应用.........46
5.2实验分析.........49
5.3结果分析.........53


第五章应用与分析


5.1系统应用
基于第四章的专利地图模型定义和相关的算法实现描述,本系统在实际开发过程中,除了搭建了Hadoop平台,系统采用java语言,引入了SSH(Struts+Spring+Hibernate)三大框架,数据库采用了sqiserver2008r2。系统具有友好的人机交互界面,同时对于权限控制也较为严格。以下部分针对系统的部分关键功能及其操作界面进行简要说明。
(1)专利文本信息源的录入,系统采用网络爬虫自动采集文本,管理员才有该功能的操作权限,主要完成的任务就是对信息源的录入,根据录入的URL,系统后台根据这个URL在网络中爬取相应的文本,通过点击对应的类别,然后通过按钮“录入信息源”,从而将信息源的URL录入,点击确定自动去爬取,并将爬取的结果以文本的形式保留在本地系统上。
(2)预处理,预处理阶段主要的过程是分词、去停用词、特征选取和向量化等过程,因为训练样本是随着专利文本的增大而增大的,因此每次进行预处理前都要录入对应的合适的维度,即保留多少个特征词组成特征词表。

专利地图服务系统的研究与应用


……….


结论


因为专利文献多以非结构化的形式存在,且数量庞大,传统的处理方式非常耗时,因此本文研究工作主要为了解决上述问题,通过引入Hadoop平台的MapReduce框架处理这些海量的非结构化信息,同时针对专利文献,优化了KNN分类算法,从而提高了处理专利文献的效率,最后将专利地图可视化,建立专利地图服务系统。本文对专利地图和Hadoop平台国内外研究状况进行总结,详细介绍了Hadoop平台、非结构化信息处理的技术和专利地图构建技术等相关的技术原理。着重分析了对处理专利文献现有方法的一些优缺点,针对现存的一些缺点,提出了将KNN算法优化,并将其跟Hadoop的MapReduce框架进行结合,并对并行化过程进行详细的阐述。该方法可以加快对专利文本的处理效率,使得专利地图的构建更加快速高效。在相关的系统分析和技术分析的基础上,研究了专利地图服务系统的总体架构,采用分层和模块化的设计原则,构建了适合系统的三层结构,主要的功能为数据采集、文本分类和专利可视化,对这三个功能模块都进行了详细说明,本文重点研究了文本分类和专利可视化这两部分。考虑到专利文献的特殊性,本文将专利的标题和摘要作为专利的原始文本。分类和预处理是文本分类的重要过程,预处理各阶段包括中文分词、去停用词、特征选择和文本向量化,其中特征选择采用了信息增益进行处理,同时计算了词频、文档频率等需要的相关统计量。在分类阶段,因为专利文献的数量庞大,釆用传统的KNN算法在处理分类效率上不够高效,因此本文提出了优化KNN算法,将类中心向量法和KNN算法相结合,算法的主要思想是,对经过预处理的专利文本,在训练阶段初级分类器的构建,采用取均值法得到每个类的中心向量作为该类所有文本的向量文本,然后将同样经过预处理的待分类专利文本与其进行相似度计算,从而蹄选出前M个子类(M为手动输入系统的阀值),然后待分类分本与子类中的文本进行二次计算,这时利用KNN分类器,找到最近的K个结果,以此将文本进行分类,这一阶段主要是通过降低了计算文本的数量,从而减少了计算量,在效率上优化了KNN算法,并将上述两个过程和MapReduce框架结合,实现了整个专利文献预处理和分类并行化处理的方法,最后本文通过实验选取了最适合的M值,同时通过实验也验证了算法并行化的高效性。
............
参考文献(略)




本文编号:42492

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/shijiedaxue/42492.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8aee4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com