当前位置:主页 > 科技论文 > 软件论文 >

数据空间中基于数据世系的关联关系获取方法研究

发布时间:2018-09-05 07:08
【摘要】:随着信息技术的不断发展,数据信息逐步呈现海量、多样、非结构化的特点。而传统的数据库技术已不能够对这些复杂数据进行有效的管理,新的数据管理模式——数据空间应运而生,其不但可以支持文档、Web等多种不同的异构数据源,而且具有集成演化的特性,强调数据之间的关联性及演化性。而专利文献中含有丰富的结构化信息及非结构化信息,本文选取海量专利数据进行分析,挖掘专利间潜在的技术关联关系并以此发现新颖专利。由于专利文献中引文的缺失以及作者引用动机难以判断,因此,不能直接使用引用关系作为专利技术关联的评价指标。针对这一问题,本文构建了专利间综合语义相似度模型,用以评估专利间的技术关联。首先,根据专利文献中包含的专利作者、IPC专利分类号等结构化信息分别构建了专利作者相同关系矩阵WA和基于IPC专利分类号共类关系矩阵WC;然后,针对专利标题、摘要、权利说明书等文本信息构建专利文本相似度矩阵Ws,最后,进行多维融合构建综合语义相似度模型。接下来,引入时序因素并结合专利间综合语义相似度模型构建专利世系关联网络,根据专利数据世系分析相关技术的演化路径,以此来对专利价值进行评估,并挖掘新颖专利。首先利用专利世系关联网络中专利间潜在的直接或间接被引关系,综合考量专利价值随时间指数衰减因素及潜在的直接或间接被引的专利对专利价值的贡献度,提出专利价值评估算法;由于新加入的专利对原有专利世系关联网络中的专利的价值影响,为节省大量重复计算的时间,最后提出专利价值动态更新算法,当在T+1时刻新加入的专利与原有T时刻的专利存在潜在技术关联时,其价值为所有的邻接点的价值传递度之和,从而提高算法的计算效率。最后,使用专利数据集进行相关实验,经实验结果对比分析验证了专利综合语义相似度模型的准确性以及专利价值动态更新算法的高效性。
[Abstract]:With the continuous development of information technology, data information gradually presents the characteristics of mass, diversity, unstructured. However, the traditional database technology can not manage these complex data effectively, and a new data management model, data space, emerges as the times require, which can not only support many different heterogeneous data sources, such as document and Web, etc. Moreover, it has the characteristics of integration and evolution, emphasizing the relevance and evolution of data. The patent literature contains abundant structured information and unstructured information. This paper selects massive patent data to analyze the potential technological relationships between patents and find new patents. Due to the lack of citation in patent literature and the difficulty in judging the author's citation motivation, the citation relation cannot be directly used as the evaluation index of patent technology relevance. To solve this problem, a comprehensive semantic similarity model between patents is constructed to evaluate the technical association between patents. First of all, according to the structured information of patent author WA and WC; based on IPC patent classification number, the same relationship matrix WA and WC; are constructed respectively. The patent text similarity matrix (Ws,) is constructed with the text information such as the specification. Finally, the comprehensive semantic similarity model is constructed by multi-dimensional fusion. Then, the temporal factors are introduced and combined with the comprehensive semantic similarity model among patents to construct the patent lineage correlation network. According to the patent data lineage, the evolution path of the related technology is analyzed to evaluate the patent value and explore novel patents. Firstly, by using the potential direct or indirect citation relationship between patents in the related network of patent lineages, the factors of exponential decay of patent value over time and the contribution of potential direct or indirect cited patents to patent value are considered synthetically. Due to the influence of the new patent on the value of the patent in the original patent-related network, in order to save a lot of time of repeated calculation, a dynamic updating algorithm of patent value is put forward. When there is a potential technical correlation between the newly added patent and the original patent at T1, the value of the patent is the sum of the value transfer degrees of all adjacent points, thus improving the computational efficiency of the algorithm. Finally, the patent data set is used to carry on the related experiments, and the accuracy of the patent synthesis semantic similarity model and the efficiency of the patent value dynamic updating algorithm are verified by the comparison and analysis of the experimental results.
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 冯岭;彭智勇;刘斌;车敦仁;;一种基于潜在引用网络的专利价值评估方法[J];计算机研究与发展;2015年03期

2 黄斌;黄鲁成;吴菲菲;苗红;;基于专利共类的技术间关联性评估[J];情报杂志;2015年02期

3 王鑫;赵蕴华;高芳;;基于分类号和引文的专利相似度测量方法研究[J];数字图书馆论坛;2015年01期

4 刘峰;吴瑞红;徐川;吕学强;;专利文献中关键词抽取方法的改进[J];情报杂志;2014年12期

5 胡阿沛;张静;张晓宇;;基于专利文献的技术演化分析方法评述[J];现代情报;2013年10期

6 张杰;刘美佳;翟东升;;基于专利共词分析的RFID领域技术主题研究[J];科技管理研究;2013年10期

7 汪雪锋;赵晨晓;衡晓帆;王有国;张琪;;基于时间序列的关联分析在技术监测中的应用研究[J];情报杂志;2013年04期

8 陈立新;梁立明;;技术领域的集成与整合研究——基于美国专利IPC的关联分析[J];情报杂志;2013年01期

9 钟华;邓辉;;基于技术生命周期的专利组合判别研究[J];图书情报工作;2012年18期

10 曾淑琴;吴扬扬;;基于数据空间的数据源内容关系发现机制[J];微型机与应用;2012年14期

相关会议论文 前1条

1 张树良;王金平;赵亚娟;;国际半导体照明材料专利技术发展态势分析[A];第七届中国功能材料及其应用学术会议论文集(第4分册)[C];2010年

相关硕士学位论文 前4条

1 谢寿峰;基于专利分析的技术演变与预测研究[D];南京理工大学;2014年

2 刘倩楠;基于专利引文网络的技术演进路径识别研究[D];大连理工大学;2010年

3 曹菲菲;基于内容分析的专利挖掘技术研究[D];东北大学;2008年

4 侯筱蓉;基于引文路径分析的专利技术演进图研究[D];重庆大学;2008年



本文编号:2223553

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2223553.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9902d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com