当前位置:主页 > 文艺论文 > 语言学论文 >

面向“校园百事通”的藏文问题分类研究

发布时间:2020-11-21 13:13
   当前问答系统已经成为广大院校和研究机构的一个研究热点,而研究问题分类是做好问答系统的前提。如今中文问题分类的研究已经趋于成熟,对于藏文问题分类的研究则寥寥无几。本文选择西北民族大学这个特定领域,研究民族院校问答系统中藏文问题分析模块中的问题分类。本文首先分析了藏文问句与普通文本的区别以及藏文问句的特点,然后结合问题集的特点对现有的语料进行分类。由于本文所使用的语料是来自西北民族大学的藏文校园问题集,考虑到本文的语料较小,且问句较短,特征较少,若将类别划分的太细则导致特征无法识别,类与类之间区分度降低。文章将全部问题共划分为四大类。这四大类分别为学校概况、教育教学、民大文化和服务保障。将语料整理完成之后就是对语料进行预处理,文章采用了西北民族大学祁坤钰老师的藏文分词系统进行分词处理。其次本文在问题文本表示方面选择了词向量表示方法,用word2vec技术中Skip-gram模型将问题文本转化为低维且稠密的词向量。该方法可以解决因维数稀疏造成的维数灾难问题,同时也可以用来衡量词与词之间的相似性。问题文本转化为词向量表达形式后,将每条问题以二维矩阵的形式输入到卷积神经网络模型中去。文章根据问题集的特点和大小将卷积神经网络模型结构设计为一个输入层、一个卷积层、一个池化层和一个全连接层。在CNN模型中用卷积层和池化层提取问句特征,最后用softmax分类器完成问句分类的工作。为了证明卷积神经网络对藏文问题分类的效果,文章将其与机器学习中朴素贝叶斯和KNN分类方法进行了对比。实验结果表明,卷积神经网络模型的分类效果优于机器学习,对藏文问题分类具有良好的效果。
【学位单位】:西北民族大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:H214;TP391.1
【部分图文】:

网络结构图,局部连接,平移不变性,感受野


4.2 卷积神经网络的结构卷积神经网络其实是一种前馈神经网络,是通过生物学中的感受野机制所出的。具有局部连接、权值共享和子采样的特点,这三个特点使得模型参数少,并具有平移不变性。卷积神经网络 CNN的网络结构如图 2.1 所示。

语料,搜集与整理,问题集,藏文


图 3.1 中文版问题语料本文是先搜集与整理的中文版问题集,然后本文将中文版的问题语料藏文版,其藏文版的问题集格式如图 3.2所示。图 3.2 藏文版问题语料由于本文主要是研究藏文版西北民族大学的校园问题集,属于特定领

搜集与整理,语料,问题集,藏文


藏文版问题语料由于本文主要是研究藏文版西北民族大学的校园问题集,属于特定领域问
【参考文献】

相关期刊论文 前8条

1 柔特;;藏文问答系统中问句的分类方法研究[J];计算机工程与科学;2015年07期

2 熊富林;邓怡豪;唐晓晟;;Word2vec的核心架构及其应用[J];南京师范大学学报(工程技术版);2015年01期

3 周练;;Word2vec的工作原理及应用探究[J];科技情报开发与经济;2015年02期

4 袁晓洁;师建兴;宁华;于士涛;;问题分类中基于句法和语义信息的特征选择[J];计算机工程与应用;2008年33期

5 祁坤钰;;信息处理用藏文自动分词研究[J];西北民族大学学报(哲学社会科学版);2006年04期

6 格桑央京;;汉语藏语疑问句对比[J];西北民族大学学报(哲学社会科学版);2006年02期

7 文勖;张宇;刘挺;马金山;;基于句法结构分析的中文问题分类[J];中文信息学报;2006年02期

8 张宇,刘挺,文勖;基于改进贝叶斯模型的问题分类[J];中文信息学报;2005年02期


相关博士学位论文 前2条

1 焦志成;基于卷积神经网络的生物医学信号分类与重构[D];西安电子科技大学;2018年

2 周小强;基于深度学习的交互式问答技术研究[D];哈尔滨工业大学;2017年


相关硕士学位论文 前10条

1 齐凯凡;基于卷积神经网络的新闻文本分类问题研究[D];西安理工大学;2018年

2 程颖涛;基于深度学习的自然语言处理中问题分析的研究[D];西安邮电大学;2018年

3 李鸿宇;养老保险领域问答系统关键技术研究[D];哈尔滨工程大学;2018年

4 张倩;问句分类方法及其在问答系统中的应用研究[D];郑州大学;2018年

5 刘洋;基于深度学习的问题分类组合模型研究[D];华中师范大学;2018年

6 高森;农业问答系统中问题分类和相似度计算的研究[D];中国科学技术大学;2018年

7 崔霞霞;基于机器学习的分类问题研究[D];中北大学;2018年

8 谢文杰;基于卷积神经网络的问句分类研究[D];安徽大学;2018年

9 王前;基于卷积神经网络的中文问句分类方法研究[D];昆明理工大学;2018年

10 王子木;基于语义网的站内搜索引擎模块的研究与实现[D];华北电力大学;2018年



本文编号:2893051

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2893051.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户59345***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com