基于双语主题词嵌入模型的中朝跨语言文本分类方法的研究
发布时间:2021-04-26 20:23
跨语言文本分类是有效地组织多语言信息资源的关键技术。跨语言文本分类技术可以消除语言的差异给人们带来的信息检索和文本分类的困难,可以帮助人们更好地理解语言信息,并有利于知识的交流与共享,推动经济和社会的发展与进步。基于双语词嵌入模型的方法作为当前主流的跨语言文本分类方法,在对双语单词的向量表示中嵌入了上下文以及跨语言信息。但是对一词多义的单词用一个向量表达多种含义,会带来歧义性问题,进而会影响到跨语言文本分类的结果。针对上述问题,本学位论文提出了双语主题词嵌入模型,解决了一词多义引起的歧义性问题,并利用深度学习算法提高了文本分类精度。首先,收集了 36万句子级别对齐的中朝平行语料,并从句子对中抽取出词对齐信息,构建了在形式上是句子对齐,内容上是词对齐的用于训练双语词嵌入模型的平行语料。同时,收集了 4000余篇平行文本用于进行跨语言文本分类。其次,将对单词的表示有自适应多原型特性的主题模型与双语词嵌入模型进行结合,提出了双语主题词嵌入模型。利用本文提出的模型对上一步整理的语料进行建模,得到了映射到同一个词嵌入空间中的两种语言的单词表示,并且针对单词的不同语义得到了不同潜在主题概念的描述。...
【文章来源】:延边大学吉林省 211工程院校
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究目的和意义
1.2 研究现状
1.2.1 跨语言文本分类研究现状
1.2.2 基于深度学习的文本分类算法
1.2.3 跨语言文本分类存在的问题
1.3 研究内容与主要工作
1.4 本文结构
第2章 跨语言文本分类技术基础
2.1 引言
2.2 跨语言文本分类概述
2.3 文本表示模型
2.3.1 向量空间模型
2.3.2 LDA主题模型
2.3.3 词嵌入模型
2.4 双语文本表示模型
2.4.1 双语LDA主题模型
2.4.2 双语skip-gram模型
2.5 文本分类算法
2.5.1 感知机
2.5.2 朴素贝叶斯分类器
2.5.3 支持向量机
2.5.4 卷积神经网络
2.5.5 循环神经网络
2.6 本章小结
第3章 双语主题词嵌入模型的构建
3.1 引言
3.2 双语主题词嵌入模型概述
3.3 基于平行句对与词对齐信息的双语词嵌入模型
3.3.1 面向双语词嵌入模型的平行语料
3.3.2 平行句对与词对齐信息
3.3.3 基于平行句对与词对齐信息的双语skip-gram模型
3.3.4 基于深度学习框架的加速训练
3.4 双语主题词嵌入模型
3.4.1 自适应多原型向量表示
3.4.2 双语主题的训练
3.4.3 双语主题的嵌入表示
3.4.4 双语主题词嵌入表示
3.5 本章小结
第4章 跨语言分类实验及结果分析
4.1 引言
4.2 双语平行语料的获取及预处理
4.2.1 双语词嵌入
4.2.2 双语主题及跨语言文本分类
4.3 双语单词的双语主题词嵌入表示
4.3.1 自适应多原型表示
4.3.2 单词的双语主题词嵌入表示
4.4 跨语言文本分类
4.4.1 实验方案
4.4.2 实验结果及分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和其它成果
致谢
【参考文献】:
期刊论文
[1]面向跨语言文本分类与标签推荐的带标签双语主题模型的研究[J]. 田明杰,崔荣一. 计算机应用研究. 2019(10)
[2]基于双语LDA的跨语言文本相似度计算方法研究[J]. 程蔚,线岩团,周兰江,余正涛,王红斌. 计算机工程与科学. 2017(05)
[3]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[4]基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J]. 周国强,崔荣一. 中文信息学报. 2011(04)
[5]Dirichlet过程及其在自然语言处理中的应用[J]. 徐谦,周俊生,陈家骏. 中文信息学报. 2009(05)
[6]EM算法研究与应用[J]. 王爱平,张功营,刘方. 计算机技术与发展. 2009(09)
[7]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
本文编号:3162060
【文章来源】:延边大学吉林省 211工程院校
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究目的和意义
1.2 研究现状
1.2.1 跨语言文本分类研究现状
1.2.2 基于深度学习的文本分类算法
1.2.3 跨语言文本分类存在的问题
1.3 研究内容与主要工作
1.4 本文结构
第2章 跨语言文本分类技术基础
2.1 引言
2.2 跨语言文本分类概述
2.3 文本表示模型
2.3.1 向量空间模型
2.3.2 LDA主题模型
2.3.3 词嵌入模型
2.4 双语文本表示模型
2.4.1 双语LDA主题模型
2.4.2 双语skip-gram模型
2.5 文本分类算法
2.5.1 感知机
2.5.2 朴素贝叶斯分类器
2.5.3 支持向量机
2.5.4 卷积神经网络
2.5.5 循环神经网络
2.6 本章小结
第3章 双语主题词嵌入模型的构建
3.1 引言
3.2 双语主题词嵌入模型概述
3.3 基于平行句对与词对齐信息的双语词嵌入模型
3.3.1 面向双语词嵌入模型的平行语料
3.3.2 平行句对与词对齐信息
3.3.3 基于平行句对与词对齐信息的双语skip-gram模型
3.3.4 基于深度学习框架的加速训练
3.4 双语主题词嵌入模型
3.4.1 自适应多原型向量表示
3.4.2 双语主题的训练
3.4.3 双语主题的嵌入表示
3.4.4 双语主题词嵌入表示
3.5 本章小结
第4章 跨语言分类实验及结果分析
4.1 引言
4.2 双语平行语料的获取及预处理
4.2.1 双语词嵌入
4.2.2 双语主题及跨语言文本分类
4.3 双语单词的双语主题词嵌入表示
4.3.1 自适应多原型表示
4.3.2 单词的双语主题词嵌入表示
4.4 跨语言文本分类
4.4.1 实验方案
4.4.2 实验结果及分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和其它成果
致谢
【参考文献】:
期刊论文
[1]面向跨语言文本分类与标签推荐的带标签双语主题模型的研究[J]. 田明杰,崔荣一. 计算机应用研究. 2019(10)
[2]基于双语LDA的跨语言文本相似度计算方法研究[J]. 程蔚,线岩团,周兰江,余正涛,王红斌. 计算机工程与科学. 2017(05)
[3]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[4]基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J]. 周国强,崔荣一. 中文信息学报. 2011(04)
[5]Dirichlet过程及其在自然语言处理中的应用[J]. 徐谦,周俊生,陈家骏. 中文信息学报. 2009(05)
[6]EM算法研究与应用[J]. 王爱平,张功营,刘方. 计算机技术与发展. 2009(09)
[7]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
本文编号:3162060
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3162060.html
最近更新
教材专著