基于词嵌入的汉—泰跨语言句子相似度计算方法研究
发布时间:2021-05-25 20:12
跨语言句子相似度计算在文本挖掘,网页检索,机器翻译和问答系统中发挥着重要的作用,一直以来是自然语言处理领域中的一个重要的研究内容。随着中国一带一路倡议的不断推进,中国正在不断加强与东南亚国家的交流与合作。泰国一直以来都是中国重要的国际交流合作国家,语言是中国与泰国之间实现文化、经济等交流的重要纽带。然而,语言的差异也成为两国交流的障碍。泰语作为一种资源稀缺的语言,语料不易获取,同时泰语语言处理的相关研究较少。因此,汉-泰跨语言句子相似度研究面临巨大挑战,为了解决汉-泰跨语言句子相似度计算问题开展了本文的工作。本文针对汉-泰跨语言句子相似度计算方法进行相关研究。主要从以下三个方面展开:(1)在泰语单语言的句子相似度计算方面,提出基于词性和词向量的泰语句子相似度计算方法。该方法首先借用词性标注(POS)结果,通过考虑泰语句子中的词性来计算两个泰语句子的相似度,然后通过词向量训练工具将句子中的词语转换为向量,并计算两个句子中非重叠词的相似度。最后,结合词性和词向量来计算泰语句子的相似度。此方法不仅考虑词性,还融入了语义。(2)提出基于不对等语料的汉-泰跨语言词语的相似度计算方法。该方法首先对...
【文章来源】:昆明理工大学云南省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 句子相似度计算
1.2.2 跨语言词嵌入
1.2.3 跨语言句子相似度计算
1.3 论文的研究内容
1.4 论文构成
1.5 本章小节
第二章 基于词性标注和词向量的泰语句子相似度计算
2.1 引言
2.2 相关原理
2.2.1 泰语分词
2.2.2 词嵌入方法
2.3 基于词性的泰语句子相似度计算
2.4 基于词向量的泰语相似度计算
2.5 基于词性和词向量的泰语句子相似度计算
2.6 实验结果与分析
2.7 本章小结
第三章 基于不对等语料的汉-泰跨语言词的相似度计算方法
3.1 引言
3.2 相关原理
3.2.1 奇异值分解SVD
3.2.2 基于映射的跨语言词嵌入方法
3.3 基于语料不对等的跨语言词的相似度计算
3.3.1 算法思想
3.3.2 归一化词向量
3.3.3 汉语词向量的k-means聚类
3.3.4 双语词对的扩展和泛化
3.3.5 梯度下降优化
3.3.6 汉-泰跨语言词的相似度计算
3.4 实验与分析
3.4.1 实验数据
3.4.2 评价指标
3.4.3 实验参数分析
3.4.4 实验结果与分析
3.5 本章小结
第四章 基于句子嵌入的汉-泰跨语言句子相似度计算
4.1 引言
4.2 相关原理
4.2.1 句子嵌入模型
4.3 汉-泰跨语言句子相似度计算模型
4.3.1 归一化句子向量
4.3.2 正交约束
4.3.3 相似度计算
4.4 实验与分析
4.4.1 汉-泰平行语料的获取
4.4.2 评价指标
4.4.3 实验结果与分析
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录A 攻读硕士学位期间发表论文
附录B 攻读硕士学位期间参与项目
【参考文献】:
期刊论文
[1]融合上下文字符信息的泰语神经网络分词方法[J]. 陶广奉,线岩团,王红斌,汪淑娟. 计算机工程与科学. 2018(05)
[2]基于WordNet的中泰文跨语言文本相似度计算[J]. 石杰,周兰江,线岩团,余正涛. 中文信息学报. 2016(04)
[3]融合新闻要素的跨语言新闻文本相似度计算[J]. 侯中熙,王红斌,线岩团. 价值工程. 2016(17)
[4]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[5]基于词向量特征的循环神经网络语言模型[J]. 张剑,屈丹,李真. 模式识别与人工智能. 2015(04)
[6]基于词性及词性依存的句子结构相似度计算[J]. 蓝雁玲,陈建超. 计算机工程. 2011(10)
[7]基于规则和统计的日语分词和词性标注的研究[J]. 姜尚仆,陈群秀. 中文信息学报. 2010(01)
[8]基于字典和统计的分词方法[J]. 陈平,刘晓霞,李亚军. 计算机工程与应用. 2008(10)
[9]句子相似度计算新方法及在问答系统中的应用[J]. 周法国,杨炳儒. 计算机工程与应用. 2008(01)
[10]汉泰语音对比研究与语音偏误标记分析[J]. 陈晨,李秋杨. 暨南大学华文学院学报. 2007(04)
硕士论文
[1]基于WordNet的中英文跨语言文本相似度研究[D]. 何文垒.上海交通大学 2011
本文编号:3205938
【文章来源】:昆明理工大学云南省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状
1.2.1 句子相似度计算
1.2.2 跨语言词嵌入
1.2.3 跨语言句子相似度计算
1.3 论文的研究内容
1.4 论文构成
1.5 本章小节
第二章 基于词性标注和词向量的泰语句子相似度计算
2.1 引言
2.2 相关原理
2.2.1 泰语分词
2.2.2 词嵌入方法
2.3 基于词性的泰语句子相似度计算
2.4 基于词向量的泰语相似度计算
2.5 基于词性和词向量的泰语句子相似度计算
2.6 实验结果与分析
2.7 本章小结
第三章 基于不对等语料的汉-泰跨语言词的相似度计算方法
3.1 引言
3.2 相关原理
3.2.1 奇异值分解SVD
3.2.2 基于映射的跨语言词嵌入方法
3.3 基于语料不对等的跨语言词的相似度计算
3.3.1 算法思想
3.3.2 归一化词向量
3.3.3 汉语词向量的k-means聚类
3.3.4 双语词对的扩展和泛化
3.3.5 梯度下降优化
3.3.6 汉-泰跨语言词的相似度计算
3.4 实验与分析
3.4.1 实验数据
3.4.2 评价指标
3.4.3 实验参数分析
3.4.4 实验结果与分析
3.5 本章小结
第四章 基于句子嵌入的汉-泰跨语言句子相似度计算
4.1 引言
4.2 相关原理
4.2.1 句子嵌入模型
4.3 汉-泰跨语言句子相似度计算模型
4.3.1 归一化句子向量
4.3.2 正交约束
4.3.3 相似度计算
4.4 实验与分析
4.4.1 汉-泰平行语料的获取
4.4.2 评价指标
4.4.3 实验结果与分析
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录A 攻读硕士学位期间发表论文
附录B 攻读硕士学位期间参与项目
【参考文献】:
期刊论文
[1]融合上下文字符信息的泰语神经网络分词方法[J]. 陶广奉,线岩团,王红斌,汪淑娟. 计算机工程与科学. 2018(05)
[2]基于WordNet的中泰文跨语言文本相似度计算[J]. 石杰,周兰江,线岩团,余正涛. 中文信息学报. 2016(04)
[3]融合新闻要素的跨语言新闻文本相似度计算[J]. 侯中熙,王红斌,线岩团. 价值工程. 2016(17)
[4]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[5]基于词向量特征的循环神经网络语言模型[J]. 张剑,屈丹,李真. 模式识别与人工智能. 2015(04)
[6]基于词性及词性依存的句子结构相似度计算[J]. 蓝雁玲,陈建超. 计算机工程. 2011(10)
[7]基于规则和统计的日语分词和词性标注的研究[J]. 姜尚仆,陈群秀. 中文信息学报. 2010(01)
[8]基于字典和统计的分词方法[J]. 陈平,刘晓霞,李亚军. 计算机工程与应用. 2008(10)
[9]句子相似度计算新方法及在问答系统中的应用[J]. 周法国,杨炳儒. 计算机工程与应用. 2008(01)
[10]汉泰语音对比研究与语音偏误标记分析[J]. 陈晨,李秋杨. 暨南大学华文学院学报. 2007(04)
硕士论文
[1]基于WordNet的中英文跨语言文本相似度研究[D]. 何文垒.上海交通大学 2011
本文编号:3205938
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3205938.html
最近更新
教材专著