基于深度学习的中文自动问答与校对研究
发布时间:2021-01-28 02:36
随着互联网的迅猛发展,海量的信息与数据在不断产生,人们对快速并准确获取信息以及对语言规范使用的需求,使中文自动问答与自动校对成为自然语言处理领域中备受瞩目的研究方向。其中,中文自动问答是指对用户以自然语言方式提问的问题,计算机自动返回简洁准确的答案。中文自动校对则是利用计算机来自动识别与纠正文本中的书写错误以及语法错误。针对中文自动问答,本文首先研究了基于语句相似度的自动问答。由于问句中的关键词可能与文本语句中的关键词不同,在限定领域中,对问句中所有关键词进行扩展会导致结果答非所问。针对该不足,本文首先利用依存句法分析来找到问句的核心关键词,然后利用深度学习模型对其进行语义扩展。通过实验发现,对问句核心关键词进行扩展能提高自动问答的查准率与查全率。为了真正实现语义检索,本文又研究了基于知识图谱的自动问答。由于开放领域文本的特点,知识图谱的构建采用了实体抽取和实体关系识别技术。其中,实体抽取的实现是基于经过序列标注过的语料,而序列标注的颗粒度大小会影响实体抽取的准确率。为了增大序列标注的颗粒度,本文首先利用依存句法分析来提取序列中的短语,然后结合领域词库来共同完成序列标注。通过实验发现,...
【文章来源】:浙江工商大学浙江省
【文章页数】:108 页
【学位级别】:硕士
【部分图文】:
图1-丨2012-2017年国内搜索引擎用户的规模与使用率??从上图可知,传统搜索引笮的使用率极高,但是在海量的互联网数据中,并??
?问答功能测试?问句预处理??图2-4基于语句相似度的问答功能整体设计??(1)向量空间的构建??由于语句相似度的基础是词语间的相似度,且原始语料为中文文本,首先需??要对文本做分词处理。由于向量空间模型是将词频作为向量的特征值,而分词后??文本中存在的大量停用词会影响最终的语句相似度,其中,停用词是指对文本内??容不起作用的高频词。接着,将分词后的文本进行停用词过滤,该操作是为了避??免这些高频词在相似度计算中变成噪声来制约答案的搜索精度。经过预处理后,??利用基于TF-IDF计算方法的向量空间模型来得到文本所有语句的向量化表示,??从而初步完成向量空间的构建。接着,利用LSI模型对向量化的语句进行降维,??23??
ED??图2-3依存句法分析举例??2.4.2问答功能的整体设计??在限定领域中,基于语句相似度的问答功能的整体设计如下图所示,主要分??成向量空间的构建,问句预处理以及问答功能的测试三部分。??|r^T'?[pi^i??17?||?1?J?|?^?1??数据预处理?丨问句预处理%?1依存句法分析??I?r—f——|?I?IL1?——*——|?I??■文本语句的TF-??l语句相似度计|?I?Word2vec扩展??I?|?IDF值计算?I ̄p?算?|?|核心关键词??I????I?|??y.??I?I????I??I?LSI模型降维|?|语句匹配结果?|?问句向S:化??L???????_i?—?—?—?—?I?i—?—?—?—?J??向量空间构建?问答功能测试?问句预处理??图2-4基于语句相似度的问答功能整体设计??(1)向量空间的构建??由于语句相似度的基础是词语间的相似度,且原始语料为中文文本,首先需??要对文本做分词处理。由于向量空间模型是将词频作为向量的特征值,而分词后??文本中存在的大量停用词会影响最终的语句相似度,其中,停用词是指对文本内??容不起作用的高频词。接着,将分词后的文本进行停用词过滤,该操作是为了避??免这些高频词在相似度计算中变成噪声来制约答案的搜索精度。经过预处理后,??利用基于TF-IDF计算方法的向量空间模型来得到文本所有语句的向量化表示
【参考文献】:
期刊论文
[1]改进的基于词典的中文分词方法[J]. 莫建文,郑阳,首照宇,张顺岚. 计算机工程与设计. 2013(05)
[2]基于Deep Belief Nets的中文名实体关系抽取[J]. 陈宇,郑德权,赵铁军. 软件学报. 2012(10)
[3]词汇语义信息对中文实体关系抽取影响的比较[J]. 刘丹丹,彭成,钱龙华,周国栋. 计算机应用. 2012(08)
[4]文本相似度计算在主观题评分中的应用[J]. 程传鹏,齐晖. 计算机工程. 2012(05)
[5]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
[6]一种基于向量空间模型的主观题批改算法[J]. 蔡玮,黄陈蓉,林忠,韩磊. 计算机与现代化. 2008(12)
[7]自动作文评分研究综述[J]. 陈潇潇,葛诗利. 解放军外国语学院学报. 2008(05)
[8]一种基于知网的主观题阅卷算法[J]. 丁振国,陈海霞. 微电子学与计算机. 2008(05)
[9]基于自然语言理解的自动阅卷系统的设计与实现[J]. 高雪霞,张超. 新乡师范高等专科学校学报. 2007(05)
[10]文本自动校对技术研究综述[J]. 张仰森,俞士汶. 计算机应用研究. 2006(06)
硕士论文
[1]基于知识图谱的bug分析技术研究与系统实现[D]. 王璐.扬州大学 2018
[2]面向领域文本知识实体识别及关系抽取的关键技术研究[D]. 何晓艺.河北科技大学 2018
[3]基于《中国语言生活状况报告》流行语的多视角研究[D]. 宗冰冰.浙江财经大学 2018
[4]基于信息抽取的实体知识库系统研究[D]. 李明鑫.北京交通大学 2017
[5]文本相似度算法在自动评分系统中的应用研究[D]. 欧阳经纶.湘潭大学 2017
[6]自动作文评分模型及方法研究[D]. 陈珊珊.哈尔滨工业大学 2017
[7]基于LDA主题模型的主观题自动评分算法[D]. 楚尚武.湘潭大学 2017
[8]中文文本自动校对系统设计与实现[D]. 张涛.西南交通大学 2017
[9]基于回归分析的中文作文自动评分技术研究[D]. 陈一乐.哈尔滨工业大学 2016
[10]面向跨领域产品评论的情感分析研究[D]. 李宁.北京工业大学 2016
本文编号:3004200
【文章来源】:浙江工商大学浙江省
【文章页数】:108 页
【学位级别】:硕士
【部分图文】:
图1-丨2012-2017年国内搜索引擎用户的规模与使用率??从上图可知,传统搜索引笮的使用率极高,但是在海量的互联网数据中,并??
?问答功能测试?问句预处理??图2-4基于语句相似度的问答功能整体设计??(1)向量空间的构建??由于语句相似度的基础是词语间的相似度,且原始语料为中文文本,首先需??要对文本做分词处理。由于向量空间模型是将词频作为向量的特征值,而分词后??文本中存在的大量停用词会影响最终的语句相似度,其中,停用词是指对文本内??容不起作用的高频词。接着,将分词后的文本进行停用词过滤,该操作是为了避??免这些高频词在相似度计算中变成噪声来制约答案的搜索精度。经过预处理后,??利用基于TF-IDF计算方法的向量空间模型来得到文本所有语句的向量化表示,??从而初步完成向量空间的构建。接着,利用LSI模型对向量化的语句进行降维,??23??
ED??图2-3依存句法分析举例??2.4.2问答功能的整体设计??在限定领域中,基于语句相似度的问答功能的整体设计如下图所示,主要分??成向量空间的构建,问句预处理以及问答功能的测试三部分。??|r^T'?[pi^i??17?||?1?J?|?^?1??数据预处理?丨问句预处理%?1依存句法分析??I?r—f——|?I?IL1?——*——|?I??■文本语句的TF-??l语句相似度计|?I?Word2vec扩展??I?|?IDF值计算?I ̄p?算?|?|核心关键词??I????I?|??y.??I?I????I??I?LSI模型降维|?|语句匹配结果?|?问句向S:化??L???????_i?—?—?—?—?I?i—?—?—?—?J??向量空间构建?问答功能测试?问句预处理??图2-4基于语句相似度的问答功能整体设计??(1)向量空间的构建??由于语句相似度的基础是词语间的相似度,且原始语料为中文文本,首先需??要对文本做分词处理。由于向量空间模型是将词频作为向量的特征值,而分词后??文本中存在的大量停用词会影响最终的语句相似度,其中,停用词是指对文本内??容不起作用的高频词。接着,将分词后的文本进行停用词过滤,该操作是为了避??免这些高频词在相似度计算中变成噪声来制约答案的搜索精度。经过预处理后,??利用基于TF-IDF计算方法的向量空间模型来得到文本所有语句的向量化表示
【参考文献】:
期刊论文
[1]改进的基于词典的中文分词方法[J]. 莫建文,郑阳,首照宇,张顺岚. 计算机工程与设计. 2013(05)
[2]基于Deep Belief Nets的中文名实体关系抽取[J]. 陈宇,郑德权,赵铁军. 软件学报. 2012(10)
[3]词汇语义信息对中文实体关系抽取影响的比较[J]. 刘丹丹,彭成,钱龙华,周国栋. 计算机应用. 2012(08)
[4]文本相似度计算在主观题评分中的应用[J]. 程传鹏,齐晖. 计算机工程. 2012(05)
[5]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
[6]一种基于向量空间模型的主观题批改算法[J]. 蔡玮,黄陈蓉,林忠,韩磊. 计算机与现代化. 2008(12)
[7]自动作文评分研究综述[J]. 陈潇潇,葛诗利. 解放军外国语学院学报. 2008(05)
[8]一种基于知网的主观题阅卷算法[J]. 丁振国,陈海霞. 微电子学与计算机. 2008(05)
[9]基于自然语言理解的自动阅卷系统的设计与实现[J]. 高雪霞,张超. 新乡师范高等专科学校学报. 2007(05)
[10]文本自动校对技术研究综述[J]. 张仰森,俞士汶. 计算机应用研究. 2006(06)
硕士论文
[1]基于知识图谱的bug分析技术研究与系统实现[D]. 王璐.扬州大学 2018
[2]面向领域文本知识实体识别及关系抽取的关键技术研究[D]. 何晓艺.河北科技大学 2018
[3]基于《中国语言生活状况报告》流行语的多视角研究[D]. 宗冰冰.浙江财经大学 2018
[4]基于信息抽取的实体知识库系统研究[D]. 李明鑫.北京交通大学 2017
[5]文本相似度算法在自动评分系统中的应用研究[D]. 欧阳经纶.湘潭大学 2017
[6]自动作文评分模型及方法研究[D]. 陈珊珊.哈尔滨工业大学 2017
[7]基于LDA主题模型的主观题自动评分算法[D]. 楚尚武.湘潭大学 2017
[8]中文文本自动校对系统设计与实现[D]. 张涛.西南交通大学 2017
[9]基于回归分析的中文作文自动评分技术研究[D]. 陈一乐.哈尔滨工业大学 2016
[10]面向跨领域产品评论的情感分析研究[D]. 李宁.北京工业大学 2016
本文编号:3004200
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3004200.html
最近更新
教材专著