当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习和词典定义的义原预测研究

发布时间:2020-04-17 07:32
【摘要】:义原是人类语言中不可再分的最小语义单元,在自然语言处理领域的多种任务中起到重要作用。知网HowNet是一个典型的义原知识库,是由语言学家历时多年经过手工标注构建起来的,已得到广泛应用。随着社会发展,语言中的词汇和语义不断发生变化,靠人工标注更新义原知识库的的方法费时费力,且存在标注一致性的问题。义原的自动预测成为知识库建设的一项重要任务,而当前的义原预测技术仍然存在很多问题。影响义原预测效果的因素包括所使用的模型是否合适,是否引入更多的信息或知识,若引入知识则能否充分提取特征,由特征到义原的映射过程是否合理,以及能否解决多义词和低频词等疑难问题。现有研究方法对上述问题没能很好的解决。针对义原自动预测面临的挑战,本文提出了两种基于深度学习技术的利用词典定义进行义原预测的解决方案。一是利用基于注意力机制的编码器实现义原预测,二是提出基于局部语义相关性的义原预测方法,实验证明本文提出的方法在义原预测任务中能够取得目前最好的效果。同时,本文还通过反向词典这样一个义原预测的下游任务来进一步验证所提出的方法的实用性和有效性。主要工作和贡献如下:(1)利用基于注意力机制的编码器实现义原预测。现有的义原预测方法大都未结合丰富的知识信息,或者对知识的利用很不充分。词典定义是一种标准的语义描述,而现有利用定义进行义原预测的方法存在很多不足,为了解决定义信息挖掘的充分性问题,本文结合注意力机制改进了编码器,并通过融合多种信息进一步优化义原预测模型,有效提升了义原预测效果。(2)基于局部语义相关性的义原预测方法研究。利用编码器的方法挖掘定义信息,提取的语义特征是一个有限维度的向量,所包含的信息量十分有限。通过研究定义中的词与目标词和义原之间的关系,发现具有局部语义相关的性质,基于该性质提出了一种新的义原预测方法。该方法不但有效提升义原预测效果,对于低频词和多义词等预测难点也能很好的解决。(3)利用义原预测方法实现并改进反向词典系统。本文提出的两种义原预测方法可有效应用于反向词典任务,并通过引入义原等知识进一步改善效果。作为首个汉语界的反向词典系统也具有一定的社会意义。通过实验证明了本文提出的方法在义原预测任务中具有明显的提升效果和良好的鲁棒性,并通过反向词典任务进一步体现了本研究的实用价值,同时也证明了义原知识的重要作用。开展义原自动预测研究在人工智能领域具有广泛的应用价值和较深远的现实意义。
【图文】:

树形结构,知识库,学习技术,知网


入越来越多的语言知识和世界知识。因此,深度学习技术的发知识库,而知识库的完善又必将为深度学习技术发展带来更深知识库扩展方法的研究具有重要意义。HowNet 中义原知识的相关研究董强等人在 1988 年开始研究知识库,到 1999 年生成第一版提供了义原注释,其中每个词都被表示为一个层次化的树状义知网是一个网状的知识网络体系。义原是语言学家定义的人类单元。概念的语义含义可以由有限数量的义原组成。,知网中的一个词可能具有多个义项,,分别代表这个词在现实定义为一系列义原的层次结构。以词语“苹果”为例,苹果主,苹果水果。这两个含义分别具有多个义原来表示最基本的语具有 5 个义原,结构如图 1.1 左侧虚线框内;“苹果水果”,只

处理流程图,词典,处理流程,上下文


图 2. 1 词典定义处理流程词后的定义数据,以“词-定义”对的形式存储入只能接受数值,而字符类型的单词必须表示值表示方法是独热(one-hot)编码,在词汇表他位置 0。但是随着词汇量增大,每个词的总介绍了典型的表示学习方法,本文采用 Word2v表示,即词向量,也称词嵌入。的是 Word2vec 方法中的 Skip-gram 模型[10]训练是在大规模语料库中遍历全部的词汇,利用词的上下文词的过程进行训练。如图 2.2,当前输即上下文距离中心词的最大距离),其上下文。模型训练时正是利用中心词与上下文词之间
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期

2 李国佳;;一种基于义原信息量的词语相似度计算方法[J];电脑与信息技术;2015年03期

3 星竹;;收手[J];东西南北;2010年08期

4 高璐;赵小兵;;一种实例库与义原关系相结合的概念消歧算法[J];首都师范大学学报(自然科学版);2016年03期

5 肖志军;冯广丽;;基于《知网》义原空间的文本相似度计算[J];科学技术与工程;2013年29期

6 廖剑;冷静;李艳燕;黄荣怀;;知网的形式概念分析及概念相似度研究[J];计算机应用研究;2007年11期

7 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期

8 刘影;陈立;宋自林;董庆超;陈兴华;朱卫星;何继贤;;一种改进的基于本体概念相似度计算方法研究[J];南京邮电大学学报(自然科学版);2011年06期

9 唐共波;于东;荀恩东;;基于知网义原词向量表示的无监督词义消歧方法[J];中文信息学报;2015年06期

10 黄洪;屠肖龙;;基于角度—相似度转换模型的义原相似度计算[J];浙江工业大学学报;2017年06期

相关会议论文 前10条

1 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 杨尔弘;米丽萍;郝秀兰;;基于《知网》的词义排岐方法[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

4 周强;陈祖舜;梅立军;;情境描述的构建方法研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 仇伟;黄高辉;姚天f ;;基于HowNet的汉语情感问句二层分类[A];第六届全国信息检索学术会议论文集[C];2010年

6 杨晓峰;李堂秋;洪青阳;;汉英机器翻译系统中的一种词义排歧方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

7 赵晨光;蔡东风;;利用语义特征生成搭配[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

8 郑旭玲;李堂秋;杨晓峰;陈毅东;;基于语义规则的汉语短语结构分析排歧初探[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

9 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年

10 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年

相关重要报纸文章 前5条

1 记者 高智虹 通讯员 董学文 李秀国;全市首家生态猪场落户青龙[N];秦皇岛日报;2008年

2 本报记者 赵丹丹 实习生 张梦雅 胡晶晶;实施就业扶持 营造创业环境[N];芜湖日报;2010年

3 记者 张璇;宁夏:拓宽选拔渠道 加大激励保障[N];中国组织人事报;2014年

4 本报记者 段裕祥 通讯员 舒军忠 刘学永;回家“就业”天地宽[N];桂林日报;2009年

5 罗志田;词义变迁的山寨[N];南方周末;2011年

相关博士学位论文 前2条

1 谢岳山;数据挖掘技术在联网审计中的应用研究[D];中南大学;2013年

2 谢松县;社交媒体中观点信息分析与应用[D];国防科学技术大学;2014年

相关硕士学位论文 前10条

1 张磊;基于深度学习和词典定义的义原预测研究[D];战略支援部队信息工程大学;2019年

2 米昂;结合影响力分析的微博舆情溯源研究[D];北京交通大学;2015年

3 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年

4 徐晨霞;基于知网的多关键字检索研究[D];重庆大学;2008年

5 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年

6 王义;基于语义场的文本检索技术的研究与实现[D];安徽工业大学;2012年

7 徐瑛;一种综合加权的词语语义相似度计算研究[D];青岛理工大学;2011年

8 王莹莹;基于叙词表的中医基础理论知识库的构建[D];沈阳航空航天大学;2012年

9 王羊羊;基于HowNet的术语语义知识库构建技术的研究[D];沈阳航空航天大学;2016年

10 张科;基于《知网》义原空间的文本相似度计算研究与实现[D];重庆大学;2013年



本文编号:2630623

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2630623.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b119***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com