基于深度学习的多语种文本分类系统的研究与实现
发布时间:2020-09-30 10:32
随着信息技术和全球化进程的发展,对于多语种文本信息的分析与共享成为人们生活和工作中不可或缺的一部分,因此对多语种文本分类技术的研究具有重要的应用价值。已有的文本分类研究成果,大多是面向单一语种环境的,当处理不同语种的文本时,往往需要训练多个单语种文本分类系统来支持多语种数据集,工作成本较高,因此迫切需要开发多语种文本分类系统,以适应用户需求的变化。本学位论文针对中、英、朝三种语种的科技文献摘要,研究多语种文本分类问题,采取各语种各自提取特征然后融合的策略解决语种障碍问题,通过搭建深度神经网络模型提高分类性能,并设计实现多语种文本分类系统,为中英朝科技文献跨语种共享平台的建设奠定技术基础。首先,收集中、英、朝三种语种的科技文献摘要,将9万余篇多语种摘要文本按内容分为13个类别,组织成多语种平行语料库。其次,提出一种基于双向长短时记忆和卷积神经网络的多语种文本分类模型。结合主题向量和词向量构成各语种的文本表示,分别输入到对应的子神经网络模型提取该语种更深层次的文本特征,然后将各语种的特征进行融合,最终输出分类结果。最后,分析并设计系统功能模块,开发多语种文本自动分类软件系统。该系统可实现对中英朝任意语种的文本进行分类,并按类别存储,也为用户提供自主修改类别、查看文档等功能,方便用户管理。同时,用户也可按需求在线对分类器进行更新,在保证分类准确度的同时增加了用户的可控性。本文提出的多语种文本分类模型能够降低对外部资源的依赖,实验和系统运行结果表明,本文所提出的基于双向长短时记忆和卷积神经网络的多语种文本分类模型相比于传统方法,分类准确度提高了 2到5个百分点。另外,本文设计并实现的多语种文本分类系统核心功能完善,满足实际应用的需求。
【学位单位】:延边大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP18
【部分图文】:
Fig.邋2-1邋LDA邋topic邋model逡逑狄利克雷分布a中取样生成文档w的主题分布心;逡逑主题的多项式分布^中取样生成第m个文档的第《个词的主题逡逑狄利克雷分布A中取样生成的主题&.?对应的词语分布逡逑词语的多项式分布^)^中采样生成最终词语逡逑过程,直到生成整篇i章。通过对LDA主题模型参数求解,可章的主题分布和每个主题的词项分布IW。目前最常用的参数求解bs采样法|35】,Gibbs采样公式为:逡逑,7|逦、邋ni,^+at逡逑|邋w,邋0邋=邋—t—逦r-^r-r ̄i ̄ ̄-T逦(2L=丨(UA)逡逑,符号 ̄表示除去第/个词,表示在第m个文档中去除下后出现主题A的次数,<,,表示在主题A中去除第/个词后词语/表示单词总数,尺表示主题个数。通过Gibbs采样公式(2-1)最终题分布和主题-词分布,如式(2-2)和(2-3)所示:逡逑^逦心/+叫逡逑=逦-
该模型通过训练大规模的文本数据得到低维密集的词向量,很好地表达了语逡逑义信息。Word2Vec邋模型包括邋CBOW(Continuous邋Bag-of邋Words)和邋Skip-Gram逡逑两个结构,如图2-2所示:逡逑CBOW逦Skip-Ngram逡逑input邋projection邋output逦input邋projectton邋output逡逑W-2邋|邋L逦0\邋I邋W邋2逡逑w0邋| ̄ ̄k\|逦0邋_逦_逦]y>| ̄ ̄|邋Wi逡逑)SUM邋一邋Wo邋Wo邋一^y)逡逑Wi邋r逦逦逦Wi逡逑W2逦'逦0s*邋w?逡逑图2-2邋CBOW和Skip-Gram模型说明逡逑Fig.2-2邋Illustration邋of邋CBOW邋and邋Skip-Gram邋models逡逑从图2-2中可以看出,这两种模型结构相似,都包括输入层、映射层和逡逑输出层,然而不同的是,CBOW模型的输入是某个词语的上下文,预测该词逡逑语本身;Skip-Gram模型的输入为一个词语,预测该词语的上下文。这两种逡逑模型都是通过最大化对数似然函数得到词向量的最优解。CBOW模型的最大逡逑化对数似然函数为:逡逑10g/?(w*邋I邋Context(wk))逦(2_4)逡逑weC逡逑同理,Skip-Gmm模型的最大化似然函数为:逡逑L=Yj邋10gpiContextiyvk)邋|邋w,)逦(2-5)逡逑weC逡逑式(2-4)和式(2-5)中的C0rtfex/("w^表示词语w*的上下文。为了提高模型逡逑的训练速度
文本分类深度学习模型逡逑深度学习是一种深度神经网络结构,通过组合低层特征形成更加抽象的逡逑特征,以学习数据的分布式特征表示。深度学习在文本分类领域中最常逡逑两大类模型是卷积神经网络(Convolutional邋Neural邋Networks,邋CNN)和循逡逑经网络(Recurrent邋Neural邋Networks,RNN)及其变体。下面介绍本文使用的逡逑学习基础模型:卷积神经网络和长短时记忆单元。逡逑.1卷积神经网络模型逡逑卷积神经网络是一种具有深度结构的前馈神经网络。近年来,CNN在图逡逑理和语音信号等领域的研究己经非常成熟,而2014年Kim提出的逡逑tCNN结构,首次将卷积神经网络运用于句子分类任务中,开启了自然语逡逑理领域中深度学习的研究热潮。逡逑TextCNN结构如图2-3所示,由输入层、卷积层、池化层和输出层组成,逡逑神经网络具有局部感知和参数共享两个重要特征,可以有效减少神经网逡逑参数,降低模型的复杂度。下面将对每层的工作原理做详细介绍。逡逑—逡逑
本文编号:2830715
【学位单位】:延边大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP18
【部分图文】:
Fig.邋2-1邋LDA邋topic邋model逡逑狄利克雷分布a中取样生成文档w的主题分布心;逡逑主题的多项式分布^中取样生成第m个文档的第《个词的主题逡逑狄利克雷分布A中取样生成的主题&.?对应的词语分布逡逑词语的多项式分布^)^中采样生成最终词语逡逑过程,直到生成整篇i章。通过对LDA主题模型参数求解,可章的主题分布和每个主题的词项分布IW。目前最常用的参数求解bs采样法|35】,Gibbs采样公式为:逡逑,7|逦、邋ni,^+at逡逑|邋w,邋0邋=邋—t—逦r-^r-r ̄i ̄ ̄-T逦(2L=丨(UA)逡逑,符号 ̄表示除去第/个词,表示在第m个文档中去除下后出现主题A的次数,<,,表示在主题A中去除第/个词后词语/表示单词总数,尺表示主题个数。通过Gibbs采样公式(2-1)最终题分布和主题-词分布,如式(2-2)和(2-3)所示:逡逑^逦心/+叫逡逑=逦-
该模型通过训练大规模的文本数据得到低维密集的词向量,很好地表达了语逡逑义信息。Word2Vec邋模型包括邋CBOW(Continuous邋Bag-of邋Words)和邋Skip-Gram逡逑两个结构,如图2-2所示:逡逑CBOW逦Skip-Ngram逡逑input邋projection邋output逦input邋projectton邋output逡逑W-2邋|邋L逦0\邋I邋W邋2逡逑w0邋| ̄ ̄k\|逦0邋_逦_逦]y>| ̄ ̄|邋Wi逡逑)SUM邋一邋Wo邋Wo邋一^y)逡逑Wi邋r逦逦逦Wi逡逑W2逦'逦0s*邋w?逡逑图2-2邋CBOW和Skip-Gram模型说明逡逑Fig.2-2邋Illustration邋of邋CBOW邋and邋Skip-Gram邋models逡逑从图2-2中可以看出,这两种模型结构相似,都包括输入层、映射层和逡逑输出层,然而不同的是,CBOW模型的输入是某个词语的上下文,预测该词逡逑语本身;Skip-Gram模型的输入为一个词语,预测该词语的上下文。这两种逡逑模型都是通过最大化对数似然函数得到词向量的最优解。CBOW模型的最大逡逑化对数似然函数为:逡逑10g/?(w*邋I邋Context(wk))逦(2_4)逡逑weC逡逑同理,Skip-Gmm模型的最大化似然函数为:逡逑L=Yj邋10gpiContextiyvk)邋|邋w,)逦(2-5)逡逑weC逡逑式(2-4)和式(2-5)中的C0rtfex/("w^表示词语w*的上下文。为了提高模型逡逑的训练速度
文本分类深度学习模型逡逑深度学习是一种深度神经网络结构,通过组合低层特征形成更加抽象的逡逑特征,以学习数据的分布式特征表示。深度学习在文本分类领域中最常逡逑两大类模型是卷积神经网络(Convolutional邋Neural邋Networks,邋CNN)和循逡逑经网络(Recurrent邋Neural邋Networks,RNN)及其变体。下面介绍本文使用的逡逑学习基础模型:卷积神经网络和长短时记忆单元。逡逑.1卷积神经网络模型逡逑卷积神经网络是一种具有深度结构的前馈神经网络。近年来,CNN在图逡逑理和语音信号等领域的研究己经非常成熟,而2014年Kim提出的逡逑tCNN结构,首次将卷积神经网络运用于句子分类任务中,开启了自然语逡逑理领域中深度学习的研究热潮。逡逑TextCNN结构如图2-3所示,由输入层、卷积层、池化层和输出层组成,逡逑神经网络具有局部感知和参数共享两个重要特征,可以有效减少神经网逡逑参数,降低模型的复杂度。下面将对每层的工作原理做详细介绍。逡逑—逡逑
【参考文献】
相关期刊论文 前1条
1 张金鹏;周兰江;线岩团;余正涛;何思兰;;基于跨语言语料的汉泰词分布表示[J];计算机工程与科学;2015年12期
相关博士学位论文 前1条
1 罗远胜;跨语言信息检索中双语主题模型及算法研究[D];江西财经大学;2013年
相关硕士学位论文 前8条
1 李振;基于互联网的校园设备智能管理系统的设计与应用[D];华北电力大学;2018年
2 刘娇;基于深度学习的多语种短文本分类方法的研究[D];延边大学;2018年
3 欧阳文俊;文档表示与双语词嵌入算法研究[D];中国科学技术大学;2018年
4 朱娟;基于贝叶斯算法的多语言文档分类[D];苏州大学;2016年
5 刘星佐;跨语言文本分类技术研究[D];国防科学技术大学;2016年
6 龚千健;基于循环神经网络模型的文本分类[D];华中科技大学;2016年
7 刘志红;多语种多类别体系下文本自动分类系统的研究与实现[D];东北大学;2010年
8 毕文霞;基于中间语义的跨语言文本分类模型研究[D];江西师范大学;2008年
本文编号:2830715
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2830715.html