当前位置:主页 > 管理论文 > 科研管理论文 >

中文专利侵权检索模型研究

发布时间:2018-05-07 11:47

  本文选题:中文专利权利要求书 + 分词 ; 参考:《北京工业大学》2012年硕士论文


【摘要】:随着社会的发展进步,人们对知识产权的重视程度大幅度提高,随之出现的是专利申请数量剧增,与之相伴随的还有专利侵权案件及专利无效宣判案件的扩增。这些问题出现的主要原因是目前的信息检索水平有待提高:信息查全率、查准率较低,还不能在海量的专利等相关文献中将所有与主题相关的信息全部呈现出来,检索结果存在大量无关信息,这些给用户造成巨大的干扰。本文在研究信息检索及专利侵权研究现状的基础上,,利用文本挖掘的思想,系统的对基于中文的专利侵权检索模型进行构建。专利侵权检索主要分为两种类型:规避侵权检索及主动侵权检索。规避侵权检索旨在根据用户自己的专利(已经申请或者未申请)、产品必要技术特征、研发方向的技术特征内容,将可能会侵犯的已审批专利检索出来。主动侵权检索旨在根据用户自己的专利(已经授权)检索是否有相同的专利被重复授权。 本文主要内容包括:数据获取及文本预处理、专利侵权检索模型构建、系统实现、实验效果评估及对研究的总结展望。本研究的专利实验数据由中国国家知识产权局公布的发明、实用新型专利组成,通过对专利独立权利要求书进行一系列的处理操作,从而将疑似侵权专利呈现出来。在数据获取及文本预处理部分首先将图片格式的专利权利要求书通过OCR工具转换为纯文本。其次,总结归纳转换过程中的字符识别错误及格式错误,对这些错误进行纠正。再次,在中科院ICTCLAS分词系统的基础上,提出一种适合中文专利权利要求书的分词算法,对实验数据进行分词处理。最后根据需要对可能用到的著录项、专利文本、分词结果等提取出来,保存成XML文本,形成XML数据库。在专利侵权检索模型构建部分通过对专利侵权判定原则及专利权利要求书的特征进行分析,提出利用专利必要技术特征集合覆盖度计算来代替传统的文本向量夹角余弦相似度计算方式,实验证明该方法具有可行性。除此之外本文还对本体的构建、倒排索引的构建等进行阐述说明。在系统实现及实验效果评估部分,陈述了系统的实现环境、主要使用技术、部分核心代码及算法的实验效果。 本文的创新点在于:第一,利用OCR将PDF文件转换为文本文件,并进行容错处理。第二,根据中文专利权利要求书特点,进行分词处理,并利用特征词进行特征提取。第三,提出根据专利必要技术特征覆盖度算法进行专利侵权判定的方法。
[Abstract]:With the development and progress of the society, people pay more attention to the intellectual property rights, and the number of patent applications increases dramatically. There are also patent infringement cases and patent invalidation cases. The main reason for these problems is that the current information retrieval level needs to be improved: the information recall rate, and the investigation of the information retrieval rate. The quasi rate is low, and all the information related to the subject can not be presented in a large number of patents and other related documents. There are a lot of unrelated information in the retrieval results, which cause huge interference to the users. On the basis of the research on information retrieval and patent infringement research, this paper uses the idea of text mining and is based on the system. The patent infringement retrieval model is constructed in Chinese. The patent infringement retrieval is divided into two types: the avoidance of tort retrieval and the active tort retrieval. The avoidance of tort retrieval aims at the necessary technical features of the product, the technical features of the R & D, and the possible infringement on the user's own patent (which has been applied or not applied). Active infringement search is aimed at retrieving whether the same patent is duplicated according to the user's patent (authorized).
The main contents of this paper include: data acquisition and text preprocessing, construction of patent infringement retrieval model, system implementation, evaluation of experimental results and summary of research. The patent experiment data of this study are published by the China National Intellectual Property Office, utility model patent group, through a series of patent claims. In the data acquisition and text preprocessing section, the patent claim of picture format is first converted to pure text by OCR tool. Secondly, the character recognition error and format error in the conversion process are summarized and corrected. Again, in the Chinese Academy of Sciences ICTC On the basis of the LAS participle system, a participle algorithm suitable for Chinese patent claims is proposed, which is used to deal with the experimental data. Finally, according to the requirements, the possible cataloguing items, the patent text, the result of the participle are extracted, and the XML text is preserved and the XML data base is formed. The characteristics of the principle of decision and the patent claim are analyzed. It is proposed to use the cover degree calculation of the necessary technical features of the patent to replace the traditional text vector angle cosine similarity calculation method. The experiment proves that the method is feasible. Besides, this paper also expounds the construction of the ontology and the construction of the inverted index. The implementation of the system and the evaluation of the experimental results show the implementation environment of the system, mainly using the technology, some core codes and the experimental results of the algorithm.
The innovation points of this paper are: first, using OCR to convert PDF files into text files and carry out fault-tolerant processing. Second, according to the characteristics of Chinese patent claims, we carry out participle processing and use characteristic words for feature extraction. Third, the method of patent infringement judgment based on patent necessary technical characteristic overlay algorithm is put forward.

【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3;G306

【参考文献】

相关期刊论文 前10条

1 赵环宇;张桂平;季铎;蔡东风;;专利分类中基于主题的特征权重计算方法[J];沈阳航空工业学院学报;2009年01期

2 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期

3 汪雪锋;刘玉琴;刘佳;;中文专利侵权检索模型研究[J];计算机工程与应用;2009年09期

4 胡鹤,刘大有,王生生;Web本体语言的分析与比较[J];计算机工程;2005年04期

5 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期

6 刘玉琴;桂婕;朱东华;;基于IPC知识结构的专利自动分类方法[J];计算机工程;2008年03期

7 张虹;;基于自动文本分类的关键词抽取算法[J];计算机工程;2009年12期

8 刘玉琴;汪雪锋;吕琳;;基于权利要求结构信息的中文专利无效检索模型[J];计算机应用研究;2008年07期

9 张桂平;刘东生;尹宝生;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[J];中文信息学报;2010年03期

10 翟东升;马文姗;;中文专利权利要求书分词算法研究[J];情报杂志;2011年11期

相关博士学位论文 前1条

1 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年

相关硕士学位论文 前3条

1 褚晓雷;基于机器学习的专利分类研究[D];上海交通大学;2008年

2 叶志飞;并行化最小最大模块化支持向量机及其在专利分类中的应用[D];上海交通大学;2009年

3 岳中原;词典与统计相结合的中文分词的研究[D];武汉理工大学;2010年



本文编号:1856796

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/1856796.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9a3b7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com