面向领域的实体识别与关系抽取设计与实现
发布时间:2021-04-14 05:58
随着互联网的不断发展,网络数据的激增,互联网中的数据包含的信息也开始爆炸式的增长。如何快捷准确的从海量数据中抽取知识,并将提取的知识应用到各个领域成为当下研究的热点。目前对于英文隐含关系的抽取和实体识别有很多研究成果,但中文的研究却十分欠缺。为此,本文针对中文研究设计了命名实体识别和关系抽取的模型。传统基于特征的方法较为成熟,且提升空间有限,为了进一步提升模型的自动化和性能,本文着重研究了基于统计机器学习和基于深度学习的命名实体识别模型和关系抽取模型。本文模型以先进的词向量技术作为基础,以传统机器学习和深度学习的理论为指导,分析、训练、比较了模型的表现效果。本文主要工作包括如下几个方面:1.传统层叠马尔可夫的命名实体识别需要人工总结实体领域命名实体的构成规律。本文结合词向量技术,让模型学习命名实体的构成规律,增加算法的自动化程度,减少算法对先验知识的依赖,使该算法有更为通用的使用场景,提高其跨领域的使用。2.在关系抽取任务中,结合多种的词向量、深度学习理论构建模型。使用transformer,解决一词多义问题。并使用绝对位置嵌入和相对位置嵌入解决网络对语序信息的捕捉。3.构建了文本分析...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
Skip-gram模型的预测
样的一句话“wherecanIbuyapple.”中,以“buy”作为中心词,且背 2 时,连续词袋模型关心的是,给定背景词“where”、“can”、“I”和“词“buy”的条件概率,也就是公式 2-6 的内容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).词袋模型的上下文词语有很多个,所以将这些背景的词向量取平用类似于跳子模型的方法来计算连续词袋模型关注的条件概率。 div 和 diu 分别表示词典中第 i 个的词语的背景词和中心中心词cw 在词典中第 c 个词语,背景词1 2, ,mo ow w 在词典中位,那么给定背景词生成中心词的条件概率是公式 2-7 所展示的内1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v图 2-2 cbow 模型的预测
其中“<电子”,“电子科”,“子科技”,“科技大”,“技大学”和“大学>”都 n=3 的子词,“<电子科技大学>”是特殊的子词,它将整个词语当作子词,但要区分的是他的向量不同于“电子科技大学”的词向量,而只是作为子词的向。在 fastText 的训练过程中,对于每个单词都将它所有 n 在 3 到 6 的子词和殊子词的用来表示词语。令某个词语切割出来的子词集和记为w,假设词典词语 g 的向量为gz ,则当词语 w 在跳字模型中时,他作为中心词的向量wv ,表为公式 2-10 所示。. ww ggv z(2-1因为在计算此词向量时,fastText 还有子词向量的计算,所以在参数一致训语料相同的情况下 fastText 的时间复杂度比 Word2vec 要高上不少。但是通过tText 训练得到的词向量信息更多,另外对于一些出现次数很少的词语甚至于图 2-3 子词的提取示例
本文编号:3136800
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
Skip-gram模型的预测
样的一句话“wherecanIbuyapple.”中,以“buy”作为中心词,且背 2 时,连续词袋模型关心的是,给定背景词“where”、“can”、“I”和“词“buy”的条件概率,也就是公式 2-6 的内容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).词袋模型的上下文词语有很多个,所以将这些背景的词向量取平用类似于跳子模型的方法来计算连续词袋模型关注的条件概率。 div 和 diu 分别表示词典中第 i 个的词语的背景词和中心中心词cw 在词典中第 c 个词语,背景词1 2, ,mo ow w 在词典中位,那么给定背景词生成中心词的条件概率是公式 2-7 所展示的内1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v图 2-2 cbow 模型的预测
其中“<电子”,“电子科”,“子科技”,“科技大”,“技大学”和“大学>”都 n=3 的子词,“<电子科技大学>”是特殊的子词,它将整个词语当作子词,但要区分的是他的向量不同于“电子科技大学”的词向量,而只是作为子词的向。在 fastText 的训练过程中,对于每个单词都将它所有 n 在 3 到 6 的子词和殊子词的用来表示词语。令某个词语切割出来的子词集和记为w,假设词典词语 g 的向量为gz ,则当词语 w 在跳字模型中时,他作为中心词的向量wv ,表为公式 2-10 所示。. ww ggv z(2-1因为在计算此词向量时,fastText 还有子词向量的计算,所以在参数一致训语料相同的情况下 fastText 的时间复杂度比 Word2vec 要高上不少。但是通过tText 训练得到的词向量信息更多,另外对于一些出现次数很少的词语甚至于图 2-3 子词的提取示例
本文编号:3136800
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3136800.html
最近更新
教材专著