初等数学问题中实体引入及指代消解的研究与应用
发布时间:2021-11-01 16:57
随着计算机科学技术与人工智能的快速发展,类人答题、机器证明等研究方向成为国内外研究热点。计算机的类人答题与自动推理是指计算机系统以数学文本作为输入,通过自然语言处理技术提取文本中的知识,然后通过知识的推理实现知识的迭代更新过程。实体提取作为自然语言理解的基本任务,在数学文本的知识提取中起到了至关重要的作用,其效果将会直接影响到初等数学的题意理解。本文围绕初等数学领域中的实体提取任务展开相关研究工作,结合初等数学文本特点与自然语言总体过程,将实体提取任务分为实体引入与指代消解两个子任务。基于数学文本的表述特点,本文将数学实体定义为既包含实体类型又包含实体变量的二元组。而数学文本中的实体往往并不是这样完整的二元组,根据实体元素的缺失类型不同将实体缺失分为实体类型缺失、实体变量缺失与实体二元组缺失三种。对于实体类型缺失,本文构建使用基于词序列的BERT-Bi-LSTM-CRF模型进行命名实体标注来将实体所缺失类型进行补全和引入;对于实体二元组缺失,则将其通过数量词展开来转换为实体变量缺失问题;对于实体变量缺失,则采用基于映射规则的方法来确定待引入实体与其他实体的数量关系与对应关系,并针对这些...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
隐马尔可夫模型结构
电子科技大学硕士学位论文图2-2最大正向匹配分词算法(2)最大逆向匹配算法最大逆向匹配算法是最大正向匹配算法的逆向思维,该算法是指从右向左进取maxlen个字符进行匹配,并且在每次无法匹配的时候去掉匹配字符串的第一个字符,然后继续进行匹配,直到整个句子被切分开来。(3)最大双向匹配算法双向最大匹配算法是最大正向匹配算法与最小正向匹配算法的综合,该算法将待切分句子分别做最大正向匹配分词与最小正向匹配分词,对两种算法分词的结果进行比较,从而确定效果较好的分词方法。有的学者在此基础上也在词典上做了处理,对词典根据词频与词性做了排序来降低时间复杂度。2.基于统计方法的分词这种方法是一种无词典分词,它的主要思想是:上下文中,相邻的字同时出现的次数越多就越可能构成一个词,因此字与字相邻出现的概率或频率则代表相邻的字构成词的可能性[36]。依据该思想的主要统计模型有:N-gram模型,隐马尔可夫模型。10
第二章相关理论技术研究表2-1斯坦福Parser的句子结构部分符号含义句法符号含义NP名词短语VP动词短语LCP方位词短语DNP由“的”构成的表示修饰性关系的短语PP介词短语ADVP副词短语PN代词QP量词短语ADJP形容词短语CC连词......2.3循环神经网络(RecurrentNeuralNetworks,RNN)循环神经网络是基于输入序列中前面的序列会对后面的序列产生影响的特征而构建的神经网络模型。在处理文本时,可以将句子看作有序的词序列,若将每个词语作为一个时间点,就可以将在空间上的序列转换为时间上的时间序列[42]。RNN网络在隐层节点之间建立连接,使得“空间”与“时间”相互连接起来。下图2-3即是循环神经网络的原理示意图:图2-3RNN原理示意图如图即为RNN的原理示意图,其除了输入与输出节点外,还有一条环形数据流,这一数据流将t时刻时间点信息传递给t+1时刻时间点。将循环展开即为一个多层全连接的神经网络,每层的数据是一个时间点,通过这种特殊结构,可以将历史的信息动态的保存在每个时间点的模型中,就实现了记忆效果,即是当前时13
【参考文献】:
期刊论文
[1]基于深度学习的领域问答系统的设计与实现[J]. 胡婕,陶宏才. 成都信息工程大学学报. 2019(03)
[2]话语实体的引入-追踪模式[J]. 王红旗. 当代语言学. 2018(02)
[3]基于CRFs和领域本体的中文微博评价对象抽取研究[J]. 丁晟春,吴婧婵媛,李霄. 中文信息学报. 2016(04)
[4]共指消解研究方法综述[J]. 宋洋,王厚峰. 中文信息学报. 2015(01)
[5]篇章中指代消解研究综述[J]. 周炫余,刘娟,卢笑. 武汉大学学报(理学版). 2014(01)
[6]数学符号语言与自然语言的关系探微[J]. 孟艾菊,娄亚敏. 现代语文(语言研究版). 2014(01)
[7]名词回指选择的语用分析[J]. 黄利华. 重庆科技学院学报(社会科学版). 2012(19)
[8]汉语回指消解算法推导[J]. 王德亮. 外语教学. 2011(03)
[9]中文分词技术及其实现[J]. 付年钧,彭昌水,王慰. 软件导刊. 2011(01)
[10]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
硕士论文
[1]融合HMM及歌曲特征标签的混合推荐算法研究[D]. 李春俊.江西师范大学 2019
[2]基于标签相关性的文本多标签分类算法的研究[D]. 杨涛.北京工业大学 2019
[3]面向通信领域术语的命名实体识别[D]. 张晨.中国科学院大学(中国科学院人工智能学院) 2019
[4]初等数学问题题意理解方法研究及应用[D]. 汪中科.电子科技大学 2018
[5]初等数学应用题自动求解关键技术的研究及其实现[D]. 李锐.电子科技大学 2018
[6]基于统计NLP技术的甲骨卜辞的分析研究[D]. 黄勇杰.华东师范大学 2010
本文编号:3470461
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
隐马尔可夫模型结构
电子科技大学硕士学位论文图2-2最大正向匹配分词算法(2)最大逆向匹配算法最大逆向匹配算法是最大正向匹配算法的逆向思维,该算法是指从右向左进取maxlen个字符进行匹配,并且在每次无法匹配的时候去掉匹配字符串的第一个字符,然后继续进行匹配,直到整个句子被切分开来。(3)最大双向匹配算法双向最大匹配算法是最大正向匹配算法与最小正向匹配算法的综合,该算法将待切分句子分别做最大正向匹配分词与最小正向匹配分词,对两种算法分词的结果进行比较,从而确定效果较好的分词方法。有的学者在此基础上也在词典上做了处理,对词典根据词频与词性做了排序来降低时间复杂度。2.基于统计方法的分词这种方法是一种无词典分词,它的主要思想是:上下文中,相邻的字同时出现的次数越多就越可能构成一个词,因此字与字相邻出现的概率或频率则代表相邻的字构成词的可能性[36]。依据该思想的主要统计模型有:N-gram模型,隐马尔可夫模型。10
第二章相关理论技术研究表2-1斯坦福Parser的句子结构部分符号含义句法符号含义NP名词短语VP动词短语LCP方位词短语DNP由“的”构成的表示修饰性关系的短语PP介词短语ADVP副词短语PN代词QP量词短语ADJP形容词短语CC连词......2.3循环神经网络(RecurrentNeuralNetworks,RNN)循环神经网络是基于输入序列中前面的序列会对后面的序列产生影响的特征而构建的神经网络模型。在处理文本时,可以将句子看作有序的词序列,若将每个词语作为一个时间点,就可以将在空间上的序列转换为时间上的时间序列[42]。RNN网络在隐层节点之间建立连接,使得“空间”与“时间”相互连接起来。下图2-3即是循环神经网络的原理示意图:图2-3RNN原理示意图如图即为RNN的原理示意图,其除了输入与输出节点外,还有一条环形数据流,这一数据流将t时刻时间点信息传递给t+1时刻时间点。将循环展开即为一个多层全连接的神经网络,每层的数据是一个时间点,通过这种特殊结构,可以将历史的信息动态的保存在每个时间点的模型中,就实现了记忆效果,即是当前时13
【参考文献】:
期刊论文
[1]基于深度学习的领域问答系统的设计与实现[J]. 胡婕,陶宏才. 成都信息工程大学学报. 2019(03)
[2]话语实体的引入-追踪模式[J]. 王红旗. 当代语言学. 2018(02)
[3]基于CRFs和领域本体的中文微博评价对象抽取研究[J]. 丁晟春,吴婧婵媛,李霄. 中文信息学报. 2016(04)
[4]共指消解研究方法综述[J]. 宋洋,王厚峰. 中文信息学报. 2015(01)
[5]篇章中指代消解研究综述[J]. 周炫余,刘娟,卢笑. 武汉大学学报(理学版). 2014(01)
[6]数学符号语言与自然语言的关系探微[J]. 孟艾菊,娄亚敏. 现代语文(语言研究版). 2014(01)
[7]名词回指选择的语用分析[J]. 黄利华. 重庆科技学院学报(社会科学版). 2012(19)
[8]汉语回指消解算法推导[J]. 王德亮. 外语教学. 2011(03)
[9]中文分词技术及其实现[J]. 付年钧,彭昌水,王慰. 软件导刊. 2011(01)
[10]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
硕士论文
[1]融合HMM及歌曲特征标签的混合推荐算法研究[D]. 李春俊.江西师范大学 2019
[2]基于标签相关性的文本多标签分类算法的研究[D]. 杨涛.北京工业大学 2019
[3]面向通信领域术语的命名实体识别[D]. 张晨.中国科学院大学(中国科学院人工智能学院) 2019
[4]初等数学问题题意理解方法研究及应用[D]. 汪中科.电子科技大学 2018
[5]初等数学应用题自动求解关键技术的研究及其实现[D]. 李锐.电子科技大学 2018
[6]基于统计NLP技术的甲骨卜辞的分析研究[D]. 黄勇杰.华东师范大学 2010
本文编号:3470461
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3470461.html
最近更新
教材专著