百科知识库实体对齐算法研究
发布时间:2021-08-18 05:14
近年来,人类在生活中接触和产生的数据量在飞速增长,且由于自媒体时代的到来和用户的多样性,网络中的数据呈现出多样化。在线网络百科作为一个知识共享和知识普及的平台,涵盖了各种类型的知识数据,具有数据规模大、表达方式多样的特点。网络百科的组成单元是百科实体,相同的实体可能有不同的称谓方式,不同实体的名称也可能相同,这样的现象为百科知识库中的知识数据进行整合和复用造成了很大的阻碍。并且,国内众多大型百科网站由网民协作编辑形成,表达缺乏规范性,部分知识数据是重复甚至是错误的。若不进行实体对齐,直接进行知识融合,知识库中将出现重叠甚至自相矛盾的实体,知识数据的数据质量会严重下降。为了完成在线百科知识库的实体对齐任务,进行知识融合,达到扩充知识库的目的,本文围绕百科知识库实体对齐算法进行了研究,主要包括以下几个方面:1.针对百度百科和维基百科中文版的实体差异较大的特点,提出基于主题模型的百科知识库实体对齐算法。将主题模型应用到实体对齐的任务中,利用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型对百科实体的非结构化描述文本进行深度语义挖掘,在生成实体的特征向量时...
【文章来源】:河北大学河北省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
百度百科实体“苹果”词条名称
河北大学硕士学位论文2.词条概述词条概述也被称为是词条的名片,它概括了词条最本质的内容,以简练的语言描述了词条的特点,实体“苹果”的词条概述如图 2-2 所示。维基百科中被称为“摘要(Abstract)”。在本文中,词条概述被归为实体的非结构化描述文本,作为实体的主要信息进行实体对齐。
信息进行实体对齐。图 2-2 百度百科实体“苹果”词条概述3.基本信息栏基本信息栏采用结构化的形式展现实体信息,是用于描述实体属性和属性值的,由“信息项:信息内容”组成,实体“苹果”的基本信息栏,如图 2-3 所示。百科中,被称为是“消息盒(InfoBox)”。该项内容是百科知识库中为数不多化描述信息,能很大程度地展现知识库中实体信息是否完整,它的基本结构是“称:属性内容”,其表述非常简单,却能通过逐个的词语表征整个实体,并清晰实体的特点。这一项内容在本文的研究中并不涉及,但是在对比实验中有所使用
【参考文献】:
期刊论文
[1]基于RNN的中文二分结构句法分析[J]. 谷波,王瑞波,李济洪,李国臣. 中文信息学报. 2019(01)
[2]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[3]多层前向人工神经网络图像分类算法[J]. 顾哲彬,曹飞龙. 计算机科学. 2018(S2)
[4]异构网络中实体匹配算法综述[J]. 李娜,金冈增,周晓旭,郑建兵,高明. 华东师范大学学报(自然科学版). 2018(05)
[5]基于孪生卷积神经网络的人脸追踪[J]. 吴汉钊. 计算机工程与应用. 2018(14)
[6]基于改进深度孪生网络的分类器及其应用[J]. 沈雁,王环,戴瑜兴. 计算机工程与应用. 2018(10)
[7]数据质量的历史沿革和发展趋势[J]. 蔡莉,梁宇,朱扬勇,何婧. 计算机科学. 2018(04)
[8]基于深度卷积-递归神经网络的手绘草图识别方法[J]. 赵鹏,刘杨,刘慧婷,姚晟. 计算机辅助设计与图形学学报. 2018(02)
[9]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[10]基于隐私保护的大数据挖掘技术研究[J]. 苏鹏冲,袁得嵛,马丁. 现代计算机(专业版). 2017(20)
硕士论文
[1]机器阅读理解模型中的关键问题研究[D]. 李亚慧.哈尔滨工业大学 2018
[2]短文本流中主题模型及其应用研究[D]. 赵玉琨.山东大学 2017
[3]面向关联数据的实体对齐方法研究[D]. 李琳.北京化工大学 2017
[4]说话人识别情感合成问题的概率模型研究[D]. 陈昊.浙江大学 2016
[5]基于异构中文百科数据的互联语义知识库构建[D]. 牛星.上海交通大学 2013
[6]国内维基类网络百科研究[D]. 杨欣.武汉理工大学 2012
本文编号:3349265
【文章来源】:河北大学河北省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
百度百科实体“苹果”词条名称
河北大学硕士学位论文2.词条概述词条概述也被称为是词条的名片,它概括了词条最本质的内容,以简练的语言描述了词条的特点,实体“苹果”的词条概述如图 2-2 所示。维基百科中被称为“摘要(Abstract)”。在本文中,词条概述被归为实体的非结构化描述文本,作为实体的主要信息进行实体对齐。
信息进行实体对齐。图 2-2 百度百科实体“苹果”词条概述3.基本信息栏基本信息栏采用结构化的形式展现实体信息,是用于描述实体属性和属性值的,由“信息项:信息内容”组成,实体“苹果”的基本信息栏,如图 2-3 所示。百科中,被称为是“消息盒(InfoBox)”。该项内容是百科知识库中为数不多化描述信息,能很大程度地展现知识库中实体信息是否完整,它的基本结构是“称:属性内容”,其表述非常简单,却能通过逐个的词语表征整个实体,并清晰实体的特点。这一项内容在本文的研究中并不涉及,但是在对比实验中有所使用
【参考文献】:
期刊论文
[1]基于RNN的中文二分结构句法分析[J]. 谷波,王瑞波,李济洪,李国臣. 中文信息学报. 2019(01)
[2]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[3]多层前向人工神经网络图像分类算法[J]. 顾哲彬,曹飞龙. 计算机科学. 2018(S2)
[4]异构网络中实体匹配算法综述[J]. 李娜,金冈增,周晓旭,郑建兵,高明. 华东师范大学学报(自然科学版). 2018(05)
[5]基于孪生卷积神经网络的人脸追踪[J]. 吴汉钊. 计算机工程与应用. 2018(14)
[6]基于改进深度孪生网络的分类器及其应用[J]. 沈雁,王环,戴瑜兴. 计算机工程与应用. 2018(10)
[7]数据质量的历史沿革和发展趋势[J]. 蔡莉,梁宇,朱扬勇,何婧. 计算机科学. 2018(04)
[8]基于深度卷积-递归神经网络的手绘草图识别方法[J]. 赵鹏,刘杨,刘慧婷,姚晟. 计算机辅助设计与图形学学报. 2018(02)
[9]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[10]基于隐私保护的大数据挖掘技术研究[J]. 苏鹏冲,袁得嵛,马丁. 现代计算机(专业版). 2017(20)
硕士论文
[1]机器阅读理解模型中的关键问题研究[D]. 李亚慧.哈尔滨工业大学 2018
[2]短文本流中主题模型及其应用研究[D]. 赵玉琨.山东大学 2017
[3]面向关联数据的实体对齐方法研究[D]. 李琳.北京化工大学 2017
[4]说话人识别情感合成问题的概率模型研究[D]. 陈昊.浙江大学 2016
[5]基于异构中文百科数据的互联语义知识库构建[D]. 牛星.上海交通大学 2013
[6]国内维基类网络百科研究[D]. 杨欣.武汉理工大学 2012
本文编号:3349265
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3349265.html