用于自然语言分布式表达的联合学习方法研究
本文选题:自然语言处理 + 神经网络 ; 参考:《中国科学技术大学》2016年博士论文
【摘要】:自然语言分布式表达(Distributed Representations of Natural Language)技术是指利用深度神经网络算法训练得到自然语言对象(单词、短语、句子、段落和文档等)的向量表达的技术,这种向量也被称为自然语言嵌入向量(Natural Language Embedding Vector)。一般来讲,分布式表达向量是从大规模无监督的语料中学习得来的低维、稠密实数值向量,因为其承载了该自然语言对象的语义信息,所以可以作为自然语言的一种有效的表达,应用于各项自然语言处理的任务中,并取得了非常优异的实际表现。在本论文中,与以往完全从原始文本语料学习(Learning From Scratch)得到自然语言分布式表达的方法不同,我们试图融入更多的信息,达到联合训练自然语言分布式表达向量的目的。这些信息有可能是外源信息(例如字典信息与知识图谱信息),也有可能是原始语料信息的其他抽象、或者高层次表达(例如单词的多义性信息与主题信息)。这种联合训练的方法一方面可以利用更多的信息提升原始分布式表达向量的质量,另外一方面可以利用自然语言的分布式表达更好地帮助相应的任务(例如主题建模),从而达到更佳的实际表现。具体来说,1)我们通过单词多义性信息与单词分布式表达联合训练的方法来克服传统单词分布式表达以单词作为基本语义嵌入单元的限制,所提出的算法可以精确表达多义单词的不同语义,取得了良好的实际效果,同时我们在本文中介绍了该算法的大规模并行实现:2)我们通过知识图谱表示与单词分布式表达联合训练的方法来克服原始文本驱动的单词嵌入向量无法表示复杂知识关系的限制;3)基于这两种联合训练的方式我们提出了一种利用单词分布式表达来完成自动智商测试的方法,在标准词汇智商测试任务上取得了比该测试的人类参与者的表现更高的准确率;4)更进一步,我们提出了一种基于递归神经网络(Recurrent Neural Network)的句子分布式表达模型和主题模型的联合训练方法,利用该方法训练得到的主题模型可以建模单词序列性信息,与忽略该信息的传统主题模型相比在定量任务和定性任务上都有更好的表现。
[Abstract]:Distributed Representations of Natural language (NLP) is a technique that uses the depth neural network algorithm to train the vector representation of natural language objects (words, phrases, sentences, paragraphs, documents, etc.).This kind of vector is also called Natural Language Embedding vector.In general, distributed representation vectors are low-dimensional, dense real-value vectors that are learned from large-scale unsupervised corpus because they carry the semantic information of the natural language object.Therefore, it can be used as an effective expression of natural language, and it can be applied to various tasks of natural language processing, and it has achieved excellent practical performance.In this thesis, we try to integrate more information into the distributed expression of natural language, and achieve the purpose of training distributed expression vector of natural language.These information may be exogenous information (such as dictionary information and knowledge map information), other abstractions of original corpus information, or high-level expressions (such as polysemous information and subject information of words).On the one hand, this joint training method can use more information to improve the quality of the original distributed expression vector.On the other hand, the distributed representation of natural language can be used to better help the corresponding tasks (such as topic modeling), so as to achieve better practical performance.Specifically, we can overcome the limitation of traditional word distributed expression by using word polysemous information and word distributed expression as the basic semantic embedding unit.The proposed algorithm can accurately express the different semantics of polysemous words, and achieves good practical results.At the same time, we introduce the large-scale parallel implementation of the algorithm: 2) We use the method of knowledge map representation and word distributed expression training to overcome the complexity of original text-driven word embedding vector.Based on these two methods of joint training, we propose a method of using word distributed expression to complete the automatic IQ test.In the standard vocabulary IQ test task, we achieved a higher accuracy rate than the human participants in the test.In this paper, we propose a joint training method of sentence distributed expression model and topic model based on recursive neural network (Recurrent Neural Network), which can be used to model the sequential information of words.Compared with the traditional thematic model which ignores this information, it has better performance in quantitative and qualitative tasks.
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 谭俊明;;自然语言的理解综述[J];科技广场;2008年05期
2 何祖军;胡静;;自然语言的规范与转化——基于嵌入式系统的描述[J];计算机与现代化;2008年11期
3 刘海涛;关于自然语言计算机处理的几点思考[J];术语标准化与信息技术;2001年01期
4 刘三满,刘荷花;论计算机处理自然语言的新趋向[J];科技情报开发与经济;2002年04期
5 胡广朋;用于计算机辅助教学的自然语言接口[J];微计算机应用;2003年05期
6 张世红;胡佳佳;宋继华;刘会霞;琚文胜;;网络环境下的自然语言检索[J];医学情报工作;2005年06期
7 胡广朋;钱遥立;沈继峰;;一种应用规划识别建立自然语言接口的方法[J];江苏科技大学学报(自然科学版);2006年03期
8 杜津;杨一平;曾隽芳;;自然语言时间信息的模拟与计算[J];计算机工程与设计;2006年13期
9 张雪英;闾国年;宦建;;面向汉语的自然语言路径描述方法[J];地球信息科学;2008年06期
10 彭程;;基于本体论的电子商务自然语言研究[J];微计算机信息;2008年18期
相关会议论文 前7条
1 胡健;黄丽华;刘杰;;基于自然语言的智能决策支持系统人机接口[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
2 盛新华;柳劲;;自然语言否定的语用功能与交际策略[A];改革开放以来逻辑的历程——中国逻辑学会成立30周年纪念文集(上卷)[C];2009年
3 李灵辉;林尔正;林玉婷;林丹红;;基于自然语言检索的中医中风康复古代文献数据库构建[A];福建省图书馆学会2011年学术年会论文集[C];2011年
4 谷明哲;孟小峰;周勇;;中文自然语言查询界面NChiql的Java设计实现[A];第十六届全国数据库学术会议论文集[C];1999年
5 周勇;孟小峰;刘爽;王珊;;数据库自然语言查询系统NChiql中语义依存树向SQL的转换[A];第十六届全国数据库学术会议论文集[C];1999年
6 万继华;;基于哲学本体论的真值演算系统——实现计算机理解自然语言的逻辑方法[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 才让加;吉太加;;藏语语料库中词性分类代码的确定[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关博士学位论文 前4条
1 田飞;用于自然语言分布式表达的联合学习方法研究[D];中国科学技术大学;2016年
2 李虎;基于本体和规则的受控自然语言系统模型研究[D];华中科技大学;2010年
3 孟小峰;中文数据库自然语言查询处理研究[D];中国科学院研究生院(计算技术研究所);1999年
4 朱少楠;面向地理场景的“文—图—景”转换方法研究[D];南京师范大学;2013年
相关硕士学位论文 前10条
1 石亚坤;自然语言的人类理解与机器“理解”对比研究[D];陕西师范大学;2011年
2 刘晓;面向高德地图的自然语言接口语义解析系统设计与实现[D];南京师范大学;2015年
3 孙婷婷;汉语搭配获取方法研究[D];江苏科技大学;2015年
4 徐娟;面向地图搜索领域的自然语言句子g镆逡馔祭斫夥椒ㄑ芯縖D];复旦大学;2014年
5 蔡静怡;基于概念图的关联规则的自然语言表示方法[D];河北师范大学;2015年
6 柳劲;自然语言否定的逻辑思考[D];湘潭大学;2009年
7 裴君波;信息分发中自然语言订阅接口的研究[D];北京邮电大学;2015年
8 付胜博;基于自然语言的空间数据检索研究[D];西北工业大学;2007年
9 武睿峰;自然语言密写分析及密写量检测[D];西北大学;2014年
10 李霞;自然语言篇章中时间信息的研究及在产品设计领域中的应用[D];西安电子科技大学;2013年
,本文编号:1740532
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1740532.html