基于知识图谱的专利领域文本分类算法研究与应用

发布时间:2021-11-01 13:14
  在创新驱动的第四次工业革命背景下,我国正加快脚步推动创新型国家的建设,积极鼓励大众和企业在各自领域内创新。大众在创新的同时需要借阅大量相关领域研究的知识和技术。掌握相关领域当前技术的发展状况和创新是把握当下热点的前提。如果想在本领域获得创新,那么通过专利了解前沿技术十分重要。专利既是科学技术先进成果的风向标,同时又是前沿知识的载体,促使企业、高校等技术创新者不断提高自身能力,完善技术体系。随着国家积极提倡大众创新、创新驱动发展的影响,我国每年的专利数量也在迅速增长。面对如此庞杂的信息来源,企业和创新人才如何有效的获得相关知识成为值得我们思考的问题。在海量的数据中,有效的将专利领域的信息分类可以使得企业和高校的创新人才准确地从大量文本数据中获得自己想要的信息。因此,高效准确的信息分类可以大大减少大众科学技术信息搜索时间,提高检索效率。专利是代表科学技术发展进程的标签,我国当前积极鼓励各企业和高校科研人员积极创新。如何在众多种类的专利中高效的搜索到有利的专利信息是当前面临的主要问题。本文构建面向专利领域的知识图谱,通过不同专利的关联关系网中的结构化关系,找到相同类别专利之间的联系。将专利分... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

基于知识图谱的专利领域文本分类算法研究与应用


CBOW模型图

知识图


第2章相关技术综述9摘要做预处理,与作者、申请人等专利的关键信息构建知识图谱,使得相同类别的专利有更加紧密的语义上的联系,然后将构建好的专利知识图谱向量化有助于提高文本分类的准确率和召回率。2.2.1知识图谱的应用价值1.辅助搜索互联网的最终形式是世界上所有事物通过网络相互连接在一起,而搜索的最终目标是对世界上所有事物的直接搜索。像谷歌、百度等传统的搜索引擎依靠网页之间的超链接实现事物的检索,而语义搜索是直接对事物进行检索,例如具体的人物、地点和机构等。这些事物可能来自文本、图片、动画、互联的硬件设备等各种传递信息的资源。而知识图谱和语义技术提供了关于实体的特性和关系进行描述,促使搜索引擎可以直接对实体事物进行索引和检索。语义搜索将搜索引擎的工作不再拘泥于用户所输入请求语句字面本身,而是透过现象看本质,准确的捕捉用户输入语句后面的真正意图,并以此来进行搜索,从而能准确的向用户返回最符合其需求的搜索结果。目前国内外很多公司利用知识图谱提高搜索引擎的能力,其中典型代表有谷歌的Freebase、百度的“知心”、搜狗的“知立方”等。图2.2展示了谷歌检索中知识图谱辅助搜索的一个实例,本文以“姚明”作为搜索词进行信息资源检索时,google不仅返回了百科网页文字图片和视频,同时还生成了一个对姚明这个具体人物实体的结构化摘要信息,这其中包括了以姚明为中心的人物关系,配偶、子女、队友等关系实体。图2.2知识图谱在辅助搜索中的应用1

首页,知识图


第2章相关技术综述12含人、地点、音乐、电影、组织机构、事物、地点等类的定义。DBpedia采用RDF定义数据模型,统计包含30亿个RDF三元组[15]。4.OpenKG是一个面向中文域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG聚集了大量开放的中文知识图谱数据、工具及贡献,如图2.3是OpenKG首页,包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN-DBpedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所),OpenKG通过融合和链接计算对数据进行整合并提供开放的API。此外,OpenKG还对一些重要的知识图谱开源工具进行了收集和整理,包括知识建模工具Protege、知识融合工具Limes、知识问答工具YodaQA、知识抽取工具DeepDive等。图2.3OpenKG首页25.领域知识图谱:本文之前提到的DBpedia、百度和谷歌等都是通用知识图谱。另外还有一种知识图谱是领域知识图谱,又叫做垂直领域的知识图谱,它是专门面向某个领域的知识图谱,如电商、金融、安全、农业等各种不同的分支领域[16-17]。领域知识图谱相比于通用知识图谱有很多不同之处。如图2.4所示,从多个方面对两种知识图谱进行对比分析。2http://www.openkg.cn/图2.4通用知识图谱和领域知识图谱分析

【参考文献】:
期刊论文
[1]中文文本分类方法综述[J]. 于游,付钰,吴晓平.  网络与信息安全学报. 2019(05)
[2]卷积神经网络CNN算法在文本分类上的应用研究[J]. 侯小培,高迎.  科技与创新. 2019(04)
[3]基于知识图谱扩展的短文本分类方法[J]. 丁连红,孙斌,张宏伟.  情报工程. 2018(05)
[4]一种基于Neo4j图数据库的模糊查询研究与实现[J]. 李雪.  计算机技术与发展. 2018(11)
[5]专利信息系统分析与研究[J]. 康婧,谢怡,宋佳颖,赵正青,张庆国,康怀志.  情报工程. 2017(05)
[6]知识图谱研究进展[J]. 漆桂林,高桓,吴天星.  情报工程. 2017(01)
[7]垂直知识图谱的构建与应用研究[J]. 阮彤,王梦婕,王昊奋,胡芳槐.  知识管理论坛. 2016(03)
[8]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[9]知识表示学习研究进展[J]. 刘知远,孙茂松,林衍凯,谢若冰.  计算机研究与发展. 2016(02)
[10]融合LDA与TextRank的关键词抽取研究[J]. 顾益军,夏天.  现代图书情报技术. 2014(Z1)

硕士论文
[1]基于Web的领域知识图谱构建平台的研究与实现[D]. 王宁.北京邮电大学 2019
[2]面向特定领域的知识图谱构建技术研究与应用[D]. 邢立栋.北京化工大学 2018
[3]基于决策树的分类方法研究[D]. 戴南.南京师范大学 2003



本文编号:3470177

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3470177.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a6637***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com