自然语言处理—中文词和短文本向量化的研究

发布时间:2021-06-07 05:27
  近年来计算科学飞速发展,尤其是计算机的计算能力大幅提升,机器学习和深度学习的应用越来越广泛,因此我们在自然语言处理领域的研究越来越多的运用了机器学习和深度学习的方法作为工具,在这样的情况下,自然语言处理也得到了大幅度的发展。在自然语言处理中,如何将词转换为计算机能够识别的语言是一项基础性的研究,因此词向量化和文本向量化方法的研究就显得尤为重要。传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征。这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征。尤其是对于短文本数据而言,关键词出现的频率通常较低,这给基于词频原理的统计模型带来了巨大的挑战。因而,本文提出了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析。主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中。最后结合金庸小说人物验证中文词向量化的合理性;另一方面应用某城市房屋管理部门留言板的... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:50 页

【学位级别】:硕士

【部分图文】:

自然语言处理—中文词和短文本向量化的研究


图1.1:过去6年中ACL,?EMNLP,?EACL,?NAACL深度学习论文的百分比(长篇??

分布情况,定律,周频,文本


换句话说,在文本中出现非常频繁的词在语义上很可能是没有意义的,而稀??有词占字典的主要部分,但出现的频率却不高。这个定律说明了单词在文本中的??分布情况。而这个定律也说明了为什么需要去停用词,图2.1是去停用词的工作原??理。??吆去厂=界,—娜??/?\?|??W?,?\??額'义词?\?^^5疏词??Z?^??词:鋪陷,周频越离越靠前??图2.1:去停用词??11??

示意图,隐变量,文本,隐藏层


et?=?g{VTmt)?+?£.?(3.5)??这里,W代表图3.2中的连接权,[/代表输出层和隐藏层之间的连接权矩阵,??V"代表隐藏层和输出层之间的连接权矩阵,;rt代表i时刻的输入,mt代表i时刻隐藏??层的输出,et代表t时刻的后词概率,/,5分别代表隐藏层到输出层的激活函数,??通常可取为sigmod函数、双曲正切函数等等,e代表随机误差。从而问题转换为??n??(W,U,V)?=?arg?min^Wet?-?g(yTmt)\\l,?(3.6)??t=l??=?f(WTmt-i?+?UTxt),?t?=?1,???????,?n.?(3.7)??这里我们通过循环神经网络(RNN)来求解该模型中的参数由??于W为隐藏层的记忆单元,其中包含了文本的主旨信息,因此可以被当做文本向??20??

【参考文献】:
期刊论文
[1]中文分词十年回顾[J]. 黄昌宁,赵海.  中文信息学报. 2007(03)



本文编号:3215962

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3215962.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户384ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com