基于概念图的文本跨语言信息检索技术研究
发布时间:2023-02-12 18:30
传统的文本跨语言信息检索方法主要依赖于翻译技术,通过对源文本的翻译,在另一种语言环境中进行信息检索。近年来,基于语义的文本处理方法在很多自然语言处理领域中表现优秀。对此,本文研究了一种基于语义的文本跨语言信息检索的技术,本技术基于文本概念图实现跨语言检索,其中包括双语概念图的构建、双语概念图的向量化表示与检索。概念图的构建部分是对文本全文进行形式化表示,可以在大大压缩文本大小的情况下对文本中的重要信息进行保留。先利用融合Attention机制的LSTM网络,构造生成式摘要模型,对长文本进行自动摘要。该模型对全文中重要的概念和关系进行初步过滤。对摘要中的概念和关系进行简要的句法词性标注后,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。双语概念图的向量化表示与检索部分是对概念图进行向量空间嵌入,生成概念图在向量空间中的图级别标签,进而进行相似检索。通过对图结构和内容的融合嵌入,相似的跨语言概念图在嵌入后也表现为相似。本文提出了概念图的跨语言信息检索框架CG-CLIR框架,该框架融合了概念图中的上下文节点关系信息与概...
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题背景及意义
1.2 国内外研究现状
1.2.1 跨语言信息检索
1.2.2 文本概念图应用
1.2.3 研究现状存在问题
1.3 论文研究内容
1.4 论文组织结构
第2章 相关理论及技术
2.1 文本摘要抽取相关技术
2.1.1 抽取式文本摘要
2.1.2 生成式文本摘要
2.1.3 摘要评价技术
2.2 文本概念图相关技术
2.3 文本相似度计算相关技术
2.3.1 Word2Vec工具
2.3.2 Bi-LSTM技术
2.4 本章小结
第3章 基于神经网络的概念图构建技术
3.1 引言
3.2 生成式摘要模型构建
3.2.1 模型概述
3.2.2 双语语料库处理
3.2.3 自动摘要Encoder-Decoder模型设计
3.2.4 参数推断
3.3 融合语法树的概念图构造
3.3.1 关键实体识别
3.3.2 属性发现与附加
3.3.3 基于Bi-LSTM的概念图构建
3.4 实验与分析
3.4.1 实验语料处理
3.4.2 自动摘要实验及结果分析
3.4.3 概念图构建实验及结果分析
3.5 本章小结
第4章 跨语言相似度评估框架CG-CLIR
4.1 引言
4.2 CG-CLIR框架介绍
4.3 基于Skip-Gram的概念图边表示
4.3.1 文本预处理
4.3.2 概念图边语义嵌入
4.4 融合边信息的高阶语义嵌入及相似度计算
4.4.1 基于LSTM的图级别语义嵌入
4.4.2 基于图嵌入的相似度计算
4.5 实验设计与分析
4.5.1 双语语料处理
4.5.2 图中关系嵌入表示效果分析
4.5.3 单语语料与双语语料实验分析
4.5.4 跨语言信息检索实验结果
4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:3741603
【文章页数】:82 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题背景及意义
1.2 国内外研究现状
1.2.1 跨语言信息检索
1.2.2 文本概念图应用
1.2.3 研究现状存在问题
1.3 论文研究内容
1.4 论文组织结构
第2章 相关理论及技术
2.1 文本摘要抽取相关技术
2.1.1 抽取式文本摘要
2.1.2 生成式文本摘要
2.1.3 摘要评价技术
2.2 文本概念图相关技术
2.3 文本相似度计算相关技术
2.3.1 Word2Vec工具
2.3.2 Bi-LSTM技术
2.4 本章小结
第3章 基于神经网络的概念图构建技术
3.1 引言
3.2 生成式摘要模型构建
3.2.1 模型概述
3.2.2 双语语料库处理
3.2.3 自动摘要Encoder-Decoder模型设计
3.2.4 参数推断
3.3 融合语法树的概念图构造
3.3.1 关键实体识别
3.3.2 属性发现与附加
3.3.3 基于Bi-LSTM的概念图构建
3.4 实验与分析
3.4.1 实验语料处理
3.4.2 自动摘要实验及结果分析
3.4.3 概念图构建实验及结果分析
3.5 本章小结
第4章 跨语言相似度评估框架CG-CLIR
4.1 引言
4.2 CG-CLIR框架介绍
4.3 基于Skip-Gram的概念图边表示
4.3.1 文本预处理
4.3.2 概念图边语义嵌入
4.4 融合边信息的高阶语义嵌入及相似度计算
4.4.1 基于LSTM的图级别语义嵌入
4.4.2 基于图嵌入的相似度计算
4.5 实验设计与分析
4.5.1 双语语料处理
4.5.2 图中关系嵌入表示效果分析
4.5.3 单语语料与双语语料实验分析
4.5.4 跨语言信息检索实验结果
4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:3741603
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3741603.html
最近更新
教材专著