当前位置:主页 > 科技论文 > 自动化论文 >

基于模板学习和深度学习的知识抽取和表示学习的研究与应用

发布时间:2020-08-21 18:15
【摘要】:知识就是力量。知识对于人类的生活至关重要,同时知识也是人工智能的基石。形成知识的过程本质就是在建立认知乃至理解世界。因为人类有获取、形成以及升华知识的能力,所以人类才可以不断进步。目前来说,机器可以从海量的数据中学出感知能力,包括视觉能力、听觉能力和语言输出能力。但是让机器学会具备认知能力却是非常之难的,比如让机器学会逻辑推理能力以及举一反三能力对目前来说是不太现实的。我们的目标是使机器完全理解知识以至于能达到灵活应用的效果。将知识应用到人工智能应用中分为三个阶段:知识抽取、知识表示以及知识应用。知识抽取的目标是能够从大规模非结构化文本中自动地抽取结构化知识。目前知识抽取任务具有以下第(1)点不足。基于符号逻辑的知识表示对于人类来说是很好理解的。但是这种表示形式对于机器来说特别难理解。因此,近年来大量的工作开始研究分布式向量表示学习(又称嵌入表示学习)。对于概念图谱嵌入表示学习和知识图谱嵌入表示学习,目前具有以下第(2)点不足。关于知识应用方面,我们选择两个应用场景来验证我们的想法:相似问题检索以及关系分类。这两个工作在目前的学习过程中都没有好好的利用知识信息,目前来说具有以下第(3)点不足。(1)目前,知识库经常表示为三元组形式(主语,谓词,宾语)。然而在某些情况下给定主语和谓词,宾语并不是唯一的。传统的基于知识库的自动问答系统通常对具有相似意图但条件不同的问题提供相同的答案。(2)在目前的概念嵌入表示学习过程中,只有两个词出现在一个上下文窗口时,对应的概念信息才会被考虑。在知识图谱嵌入工作中,知识图谱中的逻辑结构信息有很强的推理能力,但是在目前的知识图谱嵌入工作中被忽略了。(3)目前没有一个框架能同时解决相似问题检索任务中五个方面的挑战:同义性、多义性、词序、问题长度和数据稀疏性。对于关系分类任务,现有的模型都将其视为一个普通的分类任务,而忽略了三元组信息。在本文中,我们提出了一系列解决上述局限性的方法。综上所述,本文的贡献如下:(1)为解决第一点缺陷,我们从问答数据和搜索日志中构建了条件型知识库,并搭建了一个基于条件型知识库的对话系统和用户进行聊天并补充用户提问中缺失的条件。同时我们提出了一种新的网络嵌入表示学习方法对具有两种不同关系的网络进行编码。(2)为解决第二点缺陷,我们提出了同时从依赖于上下文的视角和独立于上下文的视角来学习概念和词的向量表示。同时我们提出了一种基于逻辑结构分布式编码的知识图谱嵌入表示学习的框架来增强推理能力,它可以很容易地与任何基于翻译的知识图谱嵌入模型相结合。(3)为解决第三点缺陷,我们使用一个基于高阶特征嵌入表示~1的卷积语义模型直接学习问题向量表示。同时我们提出一种基于值卷积的注意力机制来加强卷积语义模型。最后,我们提出使用一种基于多视图学习的方法来训练卷积语义模型从而解决数据稀疏性问题。为了使知识图谱编码到关系分类中,我们提出了一种基于知识图谱驱动的关系分类方法。该方法可以很容易地与现有的基于pairwise排序损失函数的神经网络模型结合使用。同时我们提出一种数据增强的方法能够使用一个句子样本同时学习关系的向量表示以及逆向关系的向量表示。在把知识应用到人工智能应用的每个阶段中,我们进行了大量的实验并通过和多个基准模型对比来验证每个阶段中我们所提出的模型算法。我们的实验结果表明我们提出的方法均能提高相应任务的性能。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP182
【图文】:

歧义消除,历史知识,知识图,实体


图 1-1 知识图谱的发展历史知识抽取本身是一项庞大的任务,包括命名实体识别、歧义消除、关系抽取等多个子任务[14]。一个命名实体通常是一个表示特定现实世界对象的词或词组。例如,巴拉克 奥巴马(Barack Obama)是一个命名实体,并且其在如下句子中被特别的提到“BarackObama is visiting India in January, 2015”。一个句子中的实体指称可以使用实体名字本身(巴拉克·奥巴马),也可以使用其代表性名词(美国总统)或者代词(他)。命名实体通常被分为不同的通用类型:人(PERSON)、组织(ORGANIZATION/ORG)、地点(LOCATION)、日期(DATE)、时间(TIME)、邮政编码(ZIPCODE)、电子邮箱(EMAIL)、网页地址(URL)以及账户(AMOUNT)等。其他通用的实体类别包括:电影标题以及书名等。在一些细粒度的分类中,人还可以分为政治家、科学家、体育明星、电影明星以及音乐家等。领域相关的实体又包括专业的一些类别。比如,在生物领域中包括蛋白质、酶、基因以及细胞等命名实体。在制造领域内包括制造商、产品、品牌以及特色等。关系通常表示两个或多个实体之间定义的关系。比如,人和组织之间的“成员-从属”

系统流程图,系统流程图,条件型,知识库


第二章 基于模板的条件型知识和医疗知识抽取时在这次工作中,我们只关心缺少单个条件的情况,将来会推广到多条件缺失的任务中。表 2-3 条件型知识库示例主语 谓词 宾语(答案) 条件Windows 10 change_login_screen press Ctrl+Alt+Delete, and then click Change... password|pwd|pinWindows 10 change_login_screen Find the “disable lock screen” option first, then... background|wallpaperOffice 365 download download office 365 on the official website... windows_8|win7Office 365 download download office 365 from apple app store iphone|iphone_6Bed wash_surface clear the surface with a damp cloth baking_varnish|paintingBed wash_surface better to use a dry cloth to scrub or ask for... stickers|paper2.2.2 条件型知识库搭建

云图,云图,字面,降维


μ跫鋿蛄勘硎镜挠镆骞叵担嚅颐怯?t-SNE 工具5[131]在图2-4 中的二维空间中显示了条件对应的字符云。t-SNE 是一种降维的算法。从图 2-4 中,我们可以看到,不同的字面表达但是具有相似语义含义的条件被聚合在一起。5http://lvdmaaten.github.io/tsne/

【相似文献】

相关期刊论文 前10条

1 刘从军;夏永锋;;模板方法模式在回溯算法中的应用[J];微计算机信息;2009年21期

2 闫伟华;;模板方法模式的改进[J];计算机应用;2011年S1期

3 崔元;张琢;;基于大规模网络日志的模板提取研究[J];计算机科学;2017年S2期

4 陈淑鑫;孙伟民;孔啸;;LAMOST恒星分类模板间相似性度量分析[J];光谱学与光谱分析;2018年06期

5 王永刚;;模板模式在OOP中的应用[J];福建信息技术教育;2006年01期

6 刘从军;;GOF的模板方法及其在回溯算法中应用研究[J];现代电子技术;2009年20期

7 于新瑞,王石刚,关柏青,王颖峰;一种快速检测圆的抗干扰变形模板方法[J];光学学报;2004年08期

8 张洁;;设计模式在游戏框架设计中的应用[J];科技传播;2011年20期

9 张晓东,巫新春,张立,张军,肖尚喜;四种提取单纯疱疹病毒核酸模板方法比较[J];安徽医学;1998年02期

10 郭江;软件重用的模板方法[J];计算机应用研究;1993年02期

相关会议论文 前2条

1 李艺;裴仙凤;陈玉霞;李宝宗;杨永刚;;通过单一模板方法合成二氧化硅纳米蚕茧[A];第十五届全国分子筛学术大会论文集[C];2009年

2 方志炜;于水源;杜利民;;基于短语本位语法体系的混合模板汉语生成[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关博士学位论文 前2条

1 王鹏伟;基于模板学习和深度学习的知识抽取和表示学习的研究与应用[D];华南理工大学;2018年

2 邱园;多级孔HZSM-5中大孔、介孔的硬模板可控构建及其催化性能[D];天津大学;2017年

相关硕士学位论文 前4条

1 杨晓霞;联合特征驱动方法和模板方法预测蛋白质的核酸绑定残基[D];华中农业大学;2015年

2 崔元;面向大规模网络日志的主动故障检测方法的研究[D];东北师范大学;2017年

3 刘素苹;一种提高指纹识别率的多模板方法的研究与实现[D];西安电子科技大学;2015年

4 符娟;搜索算法库的研制[D];武汉理工大学;2007年



本文编号:2799699

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2799699.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4defe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com