基于深度学习的文本向量化研究与应用
发布时间:2017-12-17 21:15
本文关键词:基于深度学习的文本向量化研究与应用
更多相关文章: 自然语言处理 深度学习 神经网络 词向量 文本向量
【摘要】:文本向量化是指将文本表示成低维、稠密、实数向量的一种方法。随着深度学习技术的广泛应用,基于神经网络的文本向量化成为自然语言处理领域的研究热点,尤其是对单词的向量化研究。单词作为自然语言的最基本语义单位,对理解语句、文本的重要性不言而喻,其向量化学习方法被大量提出,并已成功应用于各种自然语言理解任务中。传统的单词表示法,比如独热表示(one-hot representation)、矩阵表示等,往往存在数据稀疏、维度高等问题。而词向量,又称为词嵌入(word embedding)或词分布式表示(distributed word representation),相对于传统的单词表示法具有明显优势:1)维度低,通常在几十维到数百维之间;2)语义可计算性,即语义相似的单词也具有相似的向量表示,其相似性可通过向量间的距离计算得到。本文首先在研究、分析现有的各种词向量学习方法的基础上,提出了一种新颖的、编码isA语义关系的词向量模型,然后将向量表示技术进一步推广到短文本和长文本领域,分别设计、实现了将短文本和长文本语义编码到向量的方法,并深入探索了本文提出的各种文本向量化技术在自然语言处理任务中的应用价值。主要研究内容包括以下三个方面:1.IsA关系词向量的学习:IsA语义关系具有很强的泛化能力,对文本理解、关系推断等有着重要作用。本文设计了一种新颖的神经网络模型,可以快速、有效地将isA语义关系编码到词向量中。将生成的isA词向量作为模型的特征输入,本文进一步设计了两种机器学习预测模型,分别用以判断任意两个单词之间是否存在上下位语义关系和主题-修饰词语义关系。2.短文本的向量化表示:主要包括语义增强和语义哈希两部分。短文本广泛存在于各种应用中,像微博,查询搜索,新闻标题等。由于短文本缺乏语义信息,且句法结构随意,如何快速、有效地比较任意两个短文本的语义相似性成为自然语言处理领域的一个难点。受词向量学习方法的启发,如果能将短文本通过神经网络技术表示成向量形式,则该问题迎刃而解。但是,由于短文本缺乏足够的上下文信息,直接使用神经网络模型学习到的向量往往无法精确地捕获其语义。针对这些问题,本文提出了一种结合语义丰富机制和语义哈希模型的方法。首先,基于Probase语义网提供的知识,为短文本中的每一个词语增加概念词和共现词,然后使用深层神经网络将短文本信息映射到低维的二进制编码上,使得该编码向量能够表示短文本语义信息,因此该编码可看做短文本的向量表示。最终,通过比较任意两个短文本的编码表示之间的海明距离能够快速、有效地测量它们的语义相似性。3.长文本的向量化:基于已有词向量,本文进一步探讨了如何高效地将长文本进行向量化的技术,并分析了使用该向量对文本进行聚类和分类的效果。不同于传统的文本表示方法,本文的主要目的是将长文本的典型含义而非整体语义信息编码到向量中。其基本思想是:基于词向量对文本单词进行聚类,然后从结果中挑选出最具语义代表性的单词聚类,使用该聚类的词向量生成最终的文本向量。最后,本文进行了大量的实验分析和验证,证明了上述三种向量化学习技术的可靠性和有效性,且训练出的向量表示能广泛应用于各种自然语言处理任务,包括文本分类、聚类,信息检索,语义关系识别等。
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前2条
1 黄宇栋;李翔;林祥;;互联网媒体信息热点主动发现技术研究与应用[J];计算机技术与发展;2009年05期
2 ;[J];;年期
中国博士学位论文全文数据库 前1条
1 于政;基于深度学习的文本向量化研究与应用[D];华东师范大学;2016年
中国硕士学位论文全文数据库 前3条
1 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
2 汤佳园;个性化学习系统的研究与开发[D];江西师范大学;2011年
3 胡俊;基于关联领域的文献趋势分析系统的设计与实现[D];华中科技大学;2013年
,本文编号:1301568
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1301568.html