汉藏跨语言旅游领域关系抽取及知识库构建原型系统研究
发布时间:2021-01-13 23:00
互联网的快速发展,使得网络中涌现出越来越多的汉文旅游网站,为游客提供丰富的旅游信息。但汉文旅游网站信息庞杂,人们很难从海量无结构的文本中快速准确地了解景点全面的信息。相比之下,藏文旅游领域数据十分匮乏。如何借助资源丰富语言的知识辅助藏文旅游领域知识库构建,以及在资源丰富语言中如何从海量、多源、无结构数据中抽取旅游领域知识具有重要的研究价值。针对以上问题,本文主要进行了汉藏跨语言旅游领域的关系抽取与知识库构建研究,主要工作如下:(1)针对目前网络资源中藏文景点语料匮乏,不易直接获取藏文景点知识的问题,本文借助资源丰富的汉文旅游语料进行属性关系抽取,获取全面的景点知识,然后将汉文知识迁移到藏文旅游领域。在对大量汉文旅游文本的特点进行分析的基础上,采用双向长短时记忆网络(Bidirectional Long Short-term Memory,BiLSTM)模型对藏族地区旅游景点文本进行关系抽取。在该模型中,为了丰富词向量的语义表示能力,本文在词向量模型中融合了词性特征和位置特征,通过对比实验表明融合多特征信息的词向量表示方法比传统词向量表示方法的结果有大幅度提升。其中,对于“临近关系”和“...
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:108 页
【学位级别】:硕士
【部分图文】:
图2-1?LSTM结构图??首先计算遗忘门ft,经过Sigmoid函数处理后,ft中每一维的取值都在0到1??
将经过预处理(分句、分词、词性标注)的旅游文本作为待输入语料库(CorpusDate),采用基于Word2Vec_模型进行联合训练,最终向量模型(Ci_VecModel)以及词性向量模型(Xi_VecModel)。??位置向量。通过计算句子中每个词语到目标实体的距离,使得同一个不同的实例关系也可以很好的区分,具体实现是:对于一个长度为I的句序列中的每一个词语s,,其距离实体el和实体e2的相对距离i-b,其中i表示当前词语在句子中的索引下标,^和^分别是实体el和2的索引下标,负数即表示当前词语位于实体词前。如2-7图所示,句子“
中d表示位置向量的维度。最终,句子中每个词语的位置向量表示为pVFfpVihPVc],??其中卩^和pvi2分别表示句子中第i个词语到实体el和实体e2的相对距离的向??量表不。??-5??I?;??恰嗅曲德寺(e1)?建于?16世纪末,属?格鲁派(e2)?<,??t?|??1??图2-7距离向量示例??2.4.2基于BiLSTM的旅游领域关系抽取模型??本文研宄的旅游领域关系抽取模型的词向量表示除了关注词语特征外,还依??次融合了词语的词性特征和位置特征;基于BiLSTM特征融合的旅游领域关系抽??取模型如图2-8所示。??
本文编号:2975703
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:108 页
【学位级别】:硕士
【部分图文】:
图2-1?LSTM结构图??首先计算遗忘门ft,经过Sigmoid函数处理后,ft中每一维的取值都在0到1??
将经过预处理(分句、分词、词性标注)的旅游文本作为待输入语料库(CorpusDate),采用基于Word2Vec_模型进行联合训练,最终向量模型(Ci_VecModel)以及词性向量模型(Xi_VecModel)。??位置向量。通过计算句子中每个词语到目标实体的距离,使得同一个不同的实例关系也可以很好的区分,具体实现是:对于一个长度为I的句序列中的每一个词语s,,其距离实体el和实体e2的相对距离i-b,其中i表示当前词语在句子中的索引下标,^和^分别是实体el和2的索引下标,负数即表示当前词语位于实体词前。如2-7图所示,句子“
中d表示位置向量的维度。最终,句子中每个词语的位置向量表示为pVFfpVihPVc],??其中卩^和pvi2分别表示句子中第i个词语到实体el和实体e2的相对距离的向??量表不。??-5??I?;??恰嗅曲德寺(e1)?建于?16世纪末,属?格鲁派(e2)?<,??t?|??1??图2-7距离向量示例??2.4.2基于BiLSTM的旅游领域关系抽取模型??本文研宄的旅游领域关系抽取模型的词向量表示除了关注词语特征外,还依??次融合了词语的词性特征和位置特征;基于BiLSTM特征融合的旅游领域关系抽??取模型如图2-8所示。??
本文编号:2975703
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2975703.html