面向中文百科知识图谱的实体细粒度分类技术的研究

发布时间:2021-02-08 07:10
  实体分类任务是构建知识图谱的必要步骤。到目前为止,在实体分类方向已经有了大量的研究工作,但是这些方法通常只能获取实体的粗粒度概念信息,这对于知识图谱的构建还有基于知识图谱的应用来说是远远不够的。由于中英文的差异性,这种情况在中文实体分类任务中表现的更差。在本文中,我们提出了一个面向中文百科知识图谱的实体细粒度分类算法。我们以百科词条为实体,构建了一个知识抽取框架,并从中抽取实体信息,然后通过数据清洗工作来获取高质量的结构化数据,最终将数据以三元组的形式存储到知识图谱中。为了获取高质量的实体细粒度概念,我们不仅从实体的标题标签和信息框中挖掘出实体的高质量、细粒度概念信息,而且将从摘要中抽取的概念信息和人工标签作为含有噪声的候选细粒度概念集合。本文首先从标题标签和信息框中获得可靠的实体概念信息;然后将实体、属性、属性值和概念组织到一个信息图中,并从图中获取每个候选(实体-概念)对之间的一些路径信息;最终通过基于卷积神经网络的Path-CNN二分类模型识别出更多具有instance-of关系的(实体-概念)对。通过大量实验,我们发现与以前的方法和DBpedia知识图谱相比,本文提出的模型可以... 

【文章来源】:苏州大学江苏省

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题背景及研究意义
    1.2 课题研究内容
    1.3 文章组织结构
第二章 研究现状及相关知识介绍
    2.1 知识图谱
    2.2 实体分类
    2.3 国内外研究现状
        2.3.1 实体分类研究现状
        2.3.2 已有知识图谱
    2.4 相关技术
        2.4.1 Skip-gram模型
        2.4.2 Metapath2vec模型
        2.4.3 卷积神经网络
    2.5 本章小结
第三章 面向百度百科的中文知识图谱构建
    3.1 知识抽取
        3.1.1 百度百科页面
        3.1.2 知识抽取框架
    3.2 数据清洗
        3.2.1 属性融合
        3.2.2 数值属性值归一化
        3.2.3 多个对象属性值分割
    3.3 本章小结
第四章 面向知识图谱的实体细粒度分类算法
    4.1 算法工作流程
    4.2 Path-CNN模型
        4.2.1 基于元路径的节点嵌入
        4.2.2 模型的输入数据
        4.2.3 Path-CNN模型的细节
    4.3 实验结果及分析
        4.3.1 参数设置
        4.3.2 与现有方法比较
        4.3.3 与DBpedia知识图谱比较
    4.4 本章小结
第五章 知识图谱的可视化系统展示
    5.1 系统开发环境
    5.2 系统整体架构
        5.2.1 数据存储层
        5.2.2 数据查询层
        5.2.3 数据可视化层
    5.3 本章小结
第六章 总结与展望
    6.1 全文总结
    6.2 工作展望
参考文献
攻读硕士学位期间的研究成果
致谢


【参考文献】:
期刊论文
[1]基于知识图谱和频繁序列挖掘的旅游路线推荐[J]. 孙文平,常亮,宾辰忠,古天龙,孙彦鹏.  计算机科学. 2019(02)
[2]知识图谱在银行业的应用场景及可行性研究[J]. 陈大值.  中国金融电脑. 2019(02)
[3]基于EHR的医疗知识图谱研究与应用综述[J]. 何霆,吴雅婷,王华珍,熊英杰,孙偲,徐汉川.  哈尔滨工业大学学报. 2018(11)
[4]基于卷积神经网络的人脸识别方法[J]. 陈耀丹,王连明.  东北师大学报(自然科学版). 2016(02)
[5]命名实体识别研究进展综述[J]. 孙镇,王惠临.  现代图书情报技术. 2010(06)

硕士论文
[1]基于知识图谱的搜索引擎技术研究与应用[D]. 邵领.电子科技大学 2016



本文编号:3023556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3023556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c0fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com