当前位置:主页 > 科技论文 > 自动化论文 >

面向社交站点的双语知识图谱构建方法的研究

发布时间:2020-05-29 00:07
【摘要】:随着语义网的不断发展,由数百亿RDF三元组构成的相互链接的不同类型的数据集在万维网中发布,这些数据集又称为知识图谱,是辅助语义搜索、问答系统、情报分析等众多智能应用的重要基础资源。因此,构建知识图谱已成为学术界与工业界共同关注的研究课题。目前已存在较多关于知识图谱构建方法的研究工作,但是这些工作并未全面关注一种非常重要的知识挖掘来源,即万维网中不同类型的社交站点,包括电子商务、百科、问答、博客、游戏、旅行等站点。与此同时,随着信息全球化的发展,跨语言知识对齐已成为支撑众多跨语言应用(如跨语言信息检索、跨语言语义标注等)的关键技术。然而,由于英文是世界上使用国家数最多的语言,所以在现有的多语言知识图谱中,英文知识(包括概念、实例、三元组)的数量始终占绝对主导地位,而其他语言的知识相对较少是跨语言知识对齐的主要障碍之一。因此,如何针对任意给定的两种语言有效地构建双语知识图谱,即构建每种语言对应的知识图谱并进行跨语言知识对齐是亟需探索的研究方向,而现有的相关工作也仅在百科站点中研究如何构建双语知识图谱。基于上述讨论,本文选择研究面向社交站点的双语知识图谱构建的方法。由于社交站点中存在大量的由分类构成的层次分类体系及标签构成的分众分类系统,且这些分类与标签均表示概念,所以采用自顶向下地从模式层到实例层的双语知识图谱的构建方式,即首先尝试挖掘社交站点中概念之间的关系,该任务在本文中又称为模式知识挖掘,而已有的方法依赖于特定语言的特征与规则,不具有语言通用性。考虑到跨语言知识对齐是双语知识图谱构建的重点工作之一,本文将跨语言概念匹配作为第二项任务,但现有的方法严重依赖于翻译后的字符串相似度与特定的领域信息,导致其不具有领域通用性且匹配效果往往不佳。本文的第三项任务旨在利用实例类别推断技术,为双语知识图谱引入实例知识,而现有工作同样依赖于特定语言的规则,所以也不具备语言通用性。因此,为了克服上述三项任务的问题,本文主要进行如下研究:1)在模式知识挖掘方面,提出一种新的结合机器学习与规则的方法,其中将规则嵌入到机器学习的过程中。该方法不涉及任何特定语言的特征与规则,从而达成各语言通用的目标。在实验中,将该方法分别应用于中英文社交站点中的模式知识挖掘,其在测试数据集上的查准率、查全率、F1值均优于其他基准对比方法,并且能够生成大规模、高质量的中英文模式知识。2)在跨语言概念匹配方面,提出一种新的基于双语主题模型的方法,其中包含两种新的双语主题模型,利用任意一个模型均可学习得到不同语言概念的向量表示,最终通过向量相似度决定不同语言概念之间的相似程度。该方法不涉及任何特定的领域信息,从而达成各领域通用的目标。实验结果表明,此方法在两种中英文层次分类体系上的查准率@1与MRR均优于其他基准对比方法。3)在实例类别推断方面,提出一种新的基于随机游走模型的方法,在抽取得到的实例、属性、概念组成的图上进行随机游走以计算某个概念是给定实例的类别的概率。该方法不涉及任何特定语言的规则,从而达成各语言通用的目标。在实验中,将该方法分别应用于中英文维基百科中的实例类别推断,不仅其在测试数据集上的查准率、查全率、F1值均优于现有工作,而且能够生成大规模、高质量的中英文实例类别知识。
【学位授予单位】:东南大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.1;TP181

【相似文献】

相关期刊论文 前10条

1 王宏理;;水稻叶绿体基因文库及物理图谱构建达到国际先进水平[J];今日科技;1988年03期

2 彭海;张静;;两种基因组甲基图谱构建技术评介[J];江汉大学学报(自然科学版);2011年03期

3 陈优敏;;知识图谱构建方法探究[J];中国新通信;2019年05期

4 顾志良,周勤宣;鸡基因图谱构建的现状[J];中国畜牧杂志;1997年03期

5 ;RFLP图谱构建及其用于高梁种质的改良[J];国外农学-杂粮作物;1995年04期

6 王颖;钱力;谢靖;常志军;孔贝贝;;科技大数据知识图谱构建模型与方法研究[J];数据分析与知识发现;2019年01期

7 徐磊;人类基因组表达图谱构建的进展[J];国外医学.遗传学分册;1996年06期

8 戴继军;;初中数学知识图谱构建研究[J];数学大世界(中旬);2018年05期

9 王通;艾中良;张先国;;基于深度学习的威胁情报知识图谱构建技术[J];计算机与现代化;2018年12期

10 田晓;刘勇超;王婧;孟巍;林晓兰;;电网公司客户服务知识图谱构建的应用价值[J];山东电力技术;2015年12期

相关会议论文 前3条

1 李博;江锡兵;张德强;张志毅;;毛白杨未成熟木质部转录组图谱构建[A];第六届全国林木遗传育种大会论文集[C];2008年

2 张文英;Bianca Büttner;Gretel Schulze-Buxloh;Christian Jung;Andreas Müller;;与甜菜抽薹基因紧密连锁标记筛选及物理图谱构建[A];2009年中国作物学会学术年会论文摘要集[C];2009年

3 唐敏强;张园园;胡鸣;刘越英;程晓晖;童超波;黄军艳;刘胜毅;;甘蓝型油菜单体型图谱构建及株高性状全基因组关联分析[A];中国作物学会油料作物专业委员会第八次会员代表大会暨学术年会综述与摘要集[C];2018年

相关重要报纸文章 前2条

1 记者 胡其峰 通讯员 李海芬;黄瓜全基因组遗传变异图谱构建完成[N];光明日报;2013年

2 本报记者 史俊斌 通讯员 张琳;挑战小麦基因“珠穆朗玛峰”[N];科技日报;2019年

相关博士学位论文 前3条

1 吴天星;面向社交站点的双语知识图谱构建方法的研究[D];东南大学;2018年

2 李新龙;中医师辨证论治失眠症知识图谱构建方法研究[D];中国中医科学院;2018年

3 李博;毛白杨与毛新杨转录组图谱构建及若干性状的遗传学联合分析[D];北京林业大学;2009年

相关硕士学位论文 前10条

1 肖娜;基于自然语言处理的能源电池领域的知识图谱构建[D];青岛理工大学;2018年

2 刘卫东;面向多元空间大数据的知识图谱构建及其核心特征提取方法研究[D];上海大学;2018年

3 廖盼;基于多方法融合的学科知识图谱构建研究[D];湖北工业大学;2018年

4 赫中翮;面向中文知识图谱构建的知识抽取方法研究与实现[D];国防科学技术大学;2017年

5 宫云宝;面向知识图谱构建的知识验证方法研究[D];国防科学技术大学;2016年

6 刘敏;基于专业领域文献的信息抽取与新知识发现系统研究与应用[D];山东大学;2018年

7 钟亮;基于中文百科的初中数学学科知识图谱构建与应用[D];江西财经大学;2018年

8 林炀平;文物知识图谱构建与检索关键技术研究与实现[D];浙江大学;2017年

9 孙孝邦;中国人躯干部位可变形统计图谱构建研究[D];大连理工大学;2017年

10 郭芳;基于众包的教育知识图谱构建与研究[D];郑州大学;2017年



本文编号:2686049

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2686049.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fa47c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com