跨语言检索数据集构建方法研究与验证
发布时间:2021-12-18 02:47
随着互联网的飞速发展,用户对网络的信息需求越来越多,他们不仅想得到单语种的检索信息,而且也想得到其他语种的检索信息,因此,跨语言信息检索受到了众多研究人员的关注,是当前信息检索的研究热点之一。跨语言检索系统可以将用户输入的一种语言的查询在另一种语言或者多种语言的文档中检索相关信息,这有利于许多不了解外语的搜索引擎用户检索出更丰富的结果,获得多语言的信息资料,从而满足用户的信息需求。跨语言信息检索的研究具有重要意义:一方面,跨语言信息检索技术的出现可以在一定程度上解决用户对多语种的信息需求问题;另一方面,跨语言检索是信息检索的重要组成部分,对跨语言信息检索进行研究是丰富和完善信息检索理论体系的需要。目前,深度学习技术已经在单语言检索中取得了良好的效果,但在跨语言信息检索中的应用还不多,原因之一便是在跨语言信息检索中没有合适的数据可以用于训练神经检索模型。为了更好的实现跨语言信息检索,我们提出了一种简单又灵活的数据集构建方案。我们的英--中双语数据集是由维基百科上的数据构建而成的,它支持英文查询和中文文档之间的跨语言信息检索模型的训练和评估。我们的数据集包含三个部分,分别是英文查询、中文文...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2-1?CBOW结构图??从图中可以看出,CBOW模型预测的是图中目??11??
丨硕士学位论文???'?MASTKRS?THESIS??INPUT?PROJECTION?OUTPUT??^?i?w(t-2)??ff“-???Ww?G?H?Kl?二??X?Wcm)??丨?W(t+2)??图2-2?Skip-gram模型结构图??Skip-gram的输入数据是中心词所对应的one-hot编码,模型训练完毕后,将根??据训练数据输出一个概率分布,这个概率表示每个词在中心词作为输入的基础上输??出的可能性。如果我们从训练文档中抽取10000个唯一不重复的单词组成词汇表,??并且想要表示一个具有500个特征的单词,则投影层的权重矩阵应该为10000行,??500列。通过最大化在中心词词向量的条件下上下文词语,%_2,?Wm,?Wt+1,?Wt+2,...??出现的条件概率,来学习到上下文词语的词向量表示。同样,我们的目标是使一系??列的输出词最接近真实的情况,因此,在训练前,我们需要定义好损失函数,更新??投影层的权重矩阵来减小误差。训练完毕后,投影层中迭代更新好的权重矩阵就是??我们要的词向量。??2.?3文本编码模型??2.3.1?Text-CNN?模型??CNN[M在计算机视觉领域表现出良好的效果,另外,它还可以应用于文本分类。??文本分类的关键在于准确提炼文档或者句子的中心思想,而提炼中心思想的方法是??把文本编码为向量,基于这些向量去训练分类器并分类。Text-CNN模型【31]包括四??层,依次是输入层、卷积层、池化层和全连接层。??(1)输入层??首先输入一个一维的包含m个单词的句子,为了使其可以进行卷积,需要先将??其转化为二维矩阵表示,通常使用word2vec、glove【32
硕士学位论文??MASTER'S?TH1;SIS??类神经网络的显著区别在于它在各层的神经元之间仍然通过权值联系。RNN模型的??结构如下图2-3所示。??(y?]?\?y<r?>>?:?/?y(t)、?f?yi.O?)??I:?i:?r’?I’??(L?)?(?L11'1'?)?(?L⑴)?:、)??^?不?4?“??输出层(〇?)?(?〇(r)?)?(〇^?)??i?Unfold?扣?丫?丫?V??V?w?V?T?V?V??1?Z^X?.?_、W?,丄、、:?丄?'?广'??隐藏Ji?h?]?w?循环层?huh“-i‘?l_!???h⑴—???h(l—*—??h^'??^?V?'?】<?Y?w??输入尼丨x?j?x(f*"?1?丨x(t》〗?/?x(t*j)?1??f,?%?:?\?:??_、?/??V?/????y"??图2-3?RNN模型基础结构??上图2-3是RNN模型的基础结构图,图中通过箭头表示做一次变换,也就是??说,箭头是带有权值的。图的左边表示折叠起来的样子,图的右边表示展开之后的??样子,在图的左边h右边的弧形箭头代表“循环”发生在隐藏层。在图的右边,??不难看到,在RNN模型的基础结构中,隐藏层中的各个神经元就是通过权值联系??的。也就是说,在各个时刻,隐藏层的前后之间是有一定的联系的。??(2)?RNN的计算过程??上图2-3显示了一个RNN模型被展开成一个完整的神经网络,从被展开的网络??中,我们可以清楚地看出每一个神经元的计算过程。RNN的计算过程如下所示:??是指在t时刻模型的输入。同理,是指在t
【参考文献】:
期刊论文
[1]基于多语言本体的中英跨语言信息检索模型及实现[J]. 司莉,陈雨雪,曾粤亮. 图书情报工作. 2017(01)
[2]一种新的基于中间语义的跨语言信息检索模型[J]. 黄国斌,王明文,叶浩. 中文信息学报. 2009(02)
[3]跨语言检索技术:策略与方法[J]. 赖茂生,侯艳飞. 郑州大学学报(哲学社会科学版). 2005(04)
[4]基于英汉机译实现跨语言信息检索[J]. 张玥杰,郭依昆,连理,吴立德. 小型微型计算机系统. 2004(07)
[5]基于本体的跨语言信息检索模型[J]. 王进,陈恩红,张振亚,王煦法. 中文信息学报. 2004(03)
[6]跨语言信息检索中的查询翻译方法研究[J]. 徐红姣,王惠临. 数字图书馆论坛. 2009 (04)
硕士论文
[1]基于双语文档相似度的跨语言文档排序学习方法研究[D]. 黄健.昆明理工大学 2017
[2]跨语言信息检索技术的研究与实现[D]. 牛亚萌.西安电子科技大学 2011
[3]基于统计语言模型的跨语言信息检索[D]. 苏绥绥.大连理工大学 2009
本文编号:3541472
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2-1?CBOW结构图??从图中可以看出,CBOW模型预测的是图中目??11??
丨硕士学位论文???'?MASTKRS?THESIS??INPUT?PROJECTION?OUTPUT??^?i?w(t-2)??ff“-???Ww?G?H?Kl?二??X?Wcm)??丨?W(t+2)??图2-2?Skip-gram模型结构图??Skip-gram的输入数据是中心词所对应的one-hot编码,模型训练完毕后,将根??据训练数据输出一个概率分布,这个概率表示每个词在中心词作为输入的基础上输??出的可能性。如果我们从训练文档中抽取10000个唯一不重复的单词组成词汇表,??并且想要表示一个具有500个特征的单词,则投影层的权重矩阵应该为10000行,??500列。通过最大化在中心词词向量的条件下上下文词语,%_2,?Wm,?Wt+1,?Wt+2,...??出现的条件概率,来学习到上下文词语的词向量表示。同样,我们的目标是使一系??列的输出词最接近真实的情况,因此,在训练前,我们需要定义好损失函数,更新??投影层的权重矩阵来减小误差。训练完毕后,投影层中迭代更新好的权重矩阵就是??我们要的词向量。??2.?3文本编码模型??2.3.1?Text-CNN?模型??CNN[M在计算机视觉领域表现出良好的效果,另外,它还可以应用于文本分类。??文本分类的关键在于准确提炼文档或者句子的中心思想,而提炼中心思想的方法是??把文本编码为向量,基于这些向量去训练分类器并分类。Text-CNN模型【31]包括四??层,依次是输入层、卷积层、池化层和全连接层。??(1)输入层??首先输入一个一维的包含m个单词的句子,为了使其可以进行卷积,需要先将??其转化为二维矩阵表示,通常使用word2vec、glove【32
硕士学位论文??MASTER'S?TH1;SIS??类神经网络的显著区别在于它在各层的神经元之间仍然通过权值联系。RNN模型的??结构如下图2-3所示。??(y?]?\?y<r?>>?:?/?y(t)、?f?yi.O?)??I:?i:?r’?I’??(L?)?(?L11'1'?)?(?L⑴)?:、)??^?不?4?“??输出层(〇?)?(?〇(r)?)?(〇^?)??i?Unfold?扣?丫?丫?V??V?w?V?T?V?V??1?Z^X?.?_、W?,丄、、:?丄?'?广'??隐藏Ji?h?]?w?循环层?huh“-i‘?l_!???h⑴—???h(l—*—??h^'??^?V?'?】<?Y?w??输入尼丨x?j?x(f*"?1?丨x(t》〗?/?x(t*j)?1??f,?%?:?\?:??_、?/??V?/????y"??图2-3?RNN模型基础结构??上图2-3是RNN模型的基础结构图,图中通过箭头表示做一次变换,也就是??说,箭头是带有权值的。图的左边表示折叠起来的样子,图的右边表示展开之后的??样子,在图的左边h右边的弧形箭头代表“循环”发生在隐藏层。在图的右边,??不难看到,在RNN模型的基础结构中,隐藏层中的各个神经元就是通过权值联系??的。也就是说,在各个时刻,隐藏层的前后之间是有一定的联系的。??(2)?RNN的计算过程??上图2-3显示了一个RNN模型被展开成一个完整的神经网络,从被展开的网络??中,我们可以清楚地看出每一个神经元的计算过程。RNN的计算过程如下所示:??是指在t时刻模型的输入。同理,是指在t
【参考文献】:
期刊论文
[1]基于多语言本体的中英跨语言信息检索模型及实现[J]. 司莉,陈雨雪,曾粤亮. 图书情报工作. 2017(01)
[2]一种新的基于中间语义的跨语言信息检索模型[J]. 黄国斌,王明文,叶浩. 中文信息学报. 2009(02)
[3]跨语言检索技术:策略与方法[J]. 赖茂生,侯艳飞. 郑州大学学报(哲学社会科学版). 2005(04)
[4]基于英汉机译实现跨语言信息检索[J]. 张玥杰,郭依昆,连理,吴立德. 小型微型计算机系统. 2004(07)
[5]基于本体的跨语言信息检索模型[J]. 王进,陈恩红,张振亚,王煦法. 中文信息学报. 2004(03)
[6]跨语言信息检索中的查询翻译方法研究[J]. 徐红姣,王惠临. 数字图书馆论坛. 2009 (04)
硕士论文
[1]基于双语文档相似度的跨语言文档排序学习方法研究[D]. 黄健.昆明理工大学 2017
[2]跨语言信息检索技术的研究与实现[D]. 牛亚萌.西安电子科技大学 2011
[3]基于统计语言模型的跨语言信息检索[D]. 苏绥绥.大连理工大学 2009
本文编号:3541472
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3541472.html
最近更新
教材专著