当前位置:主页 > 科技论文 > 数学论文 >

基于SVM的初等数学问题自动分类的研究与应用

发布时间:2018-10-29 21:03
【摘要】:众所周知,随着计算机信息技术的迅速发展,信息技术已经在我们生活的方方面面有所应用。在教育领域,人们的目光也逐渐从线下老师辅导以及手工批阅试卷,解题转向了基于人工智能的互联网智能教育。这种新型的数学教育理念实现的一个重要前提就是对文本自然语言进行转换,通俗的讲就是把人类理解的数学语句转化为事先定义好的计算机存储知识,来供计算机进行下一步的处理。这些处理主要有解题,以及全流程判卷等等。这一前提也可以称为自然语言处理过程。而分类问题又是自然语言处理的过程中的主要问题。本文主要分为两个部分,第一部分是对初等数学问题文本进行分词,以及词性标注和命名实体识别。第二部分是基于SVM对初等数学问题文本进行题型分类,进而根据不同的类别转换成计算机推理所需的表现形式。在英文表达中,每个单词之间都是有空格的,但是中文则不同,所有的字符都是连接在一起的,所以需要对中文的文本进行分词。但是数学表述中包含了较多的有特定含义的符号,所以通用的分词方法行不通。因此需要针对数学表述构造专门的分词器。同样,数学语言表达中的实体和普通语言表达的实体不同,普通语言的实体更多是时间,地点,姓名等。而在数学表达中,包含重要信息的实体往往是数学名词,比如三角形,以及各方程等等。因此需要针对初等数学方向定义专门的命名实体,然后进行提取。本论文采用条件随机场来进行命名实体标注。初等数学问题中涉及的类型有很多,想要对初等数学问题进行自动求解,首先要做的是把问题进行分类,然后根据不同的类别调用相应的求解方法。对经过命名实体模型标注的初等数学问题文本进行文本预处理,包括去停用词,建立词袋模型。在本论文中,通过卡方统计量来实现文本特征向量的选择。这样使用特征向量通过选择降维技术能很好的减少计算量,还能维持分类的精度。最后,根据本文提出的方法,使用支持向量机实现了一套对初等数学问题进行命名实体提取并且对题目进行分类的系统。该系统可以准确标注命名实体,为后面解题等处理提供知识表示,同时有效的题目分类可以为后面解题或者判卷做推理剪枝。
[Abstract]:As we all know, with the rapid development of computer information technology, information technology has been applied in every aspect of our life. In the field of education, people's eyes have gradually shifted from offline tutoring and manual marking of examination papers to intelligent Internet education based on artificial intelligence. One of the important prerequisites for the realization of this new concept of mathematical education is to transform the text into natural language. In popular terms, it is to convert mathematical statements understood by human beings into pre-defined computer storage knowledge. To allow the computer to handle the next step. These processing mainly have the solution, as well as the whole flow judgment paper and so on. This premise can also be called natural language processing process. Classification is the main problem in the process of natural language processing. This paper is mainly divided into two parts. The first part is the participle of elementary mathematical problem text, as well as part of speech tagging and named entity recognition. In the second part, the paper classifies the text of elementary mathematics problem based on SVM, and then transforms it into the representation of computer reasoning according to different categories. In English, there is a space between each word, but Chinese is different, all characters are connected together, so the Chinese text should be partitioned. However, mathematical expressions contain more symbols with specific meanings, so the general participle method is not feasible. Therefore, it is necessary to construct a special participle for mathematical expression. Similarly, the entities expressed in mathematical language are different from those expressed in common language. The entities of common language are more time, place, name and so on. In mathematical expressions, the entities that contain important information are often mathematical nouns, such as triangles, equations and so on. Therefore, it is necessary to define a specific named entity for the primary mathematical direction and then extract it. In this paper, conditional random fields are used to label named entities. There are many types involved in elementary mathematics problems. In order to solve elementary mathematical problems automatically, the first thing to do is to classify the problems and then call the corresponding solving methods according to different categories. The text preprocessing of primary mathematical problem text tagged by named entity model includes deactivating words and establishing word bag model. In this paper, chi-square statistics are used to select text feature vectors. In this way, the feature vector can reduce the computational cost and maintain the classification accuracy by selecting dimensionality reduction. Finally, according to the method proposed in this paper, the support vector machine (SVM) is used to implement a system for extracting named entities from elementary mathematical problems and classifying them. The system can accurately label named entities and provide knowledge representation for later problem solving and so on. At the same time, effective topic classification can be used as inference pruning for later problem solving or marking.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;O12

【参考文献】

相关期刊论文 前10条

1 奚雪峰;周国栋;;面向自然语言处理的深度学习研究[J];自动化学报;2016年10期

2 何苑;郝梦岩;;基于自然语言处理的计算机专业数学课程教学研究[J];长治学院学报;2016年02期

3 邱均平;方国平;;基于知识图谱的中外自然语言处理研究的对比分析[J];现代图书情报技术;2014年12期

4 李海舰;田跃新;李文杰;;互联网思维与传统企业再造[J];中国工业经济;2014年10期

5 王宇;邵洪雨;;基于主题词提取的国内自然语言处理研究现状分析[J];情报科学;2013年03期

6 唐钊;;条件随机场模型在中文人名识别中的研究与实现[J];现代计算机(专业版);2012年21期

7 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期

8 付年钧;彭昌水;王慰;;中文分词技术及其实现[J];软件导刊;2011年01期

9 周颖;袁莺;马玉慧;任峗;;小学数学应用题自动解答特征分析及研究路线[J];中国电化教育;2010年08期

10 李国臣;王瑞波;李济洪;;基于条件随机场模型的汉语功能块自动标注[J];计算机研究与发展;2010年02期

相关博士学位论文 前2条

1 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年

2 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年

相关硕士学位论文 前8条

1 张磊磊;基于Hadoop和SVM算法的中文文本分类的研究与实现[D];昆明理工大学;2015年

2 王纲;一种改进隐条件随机场模型的行为识别方法[D];西安电子科技大学;2014年

3 王鹏;基于Lucene的中文分词技术研究与实现[D];浙江工商大学;2014年

4 张硕果;基于条件随机场模型的文本分类研究[D];重庆大学;2010年

5 毛玉才;基于语义网技术的语义检索系统模型研究[D];黑龙江大学;2008年

6 王秋;浅析自然语言理解及其应用[D];陕西师范大学;2008年

7 王宇宁;隐马尔可夫模型在信息抽取中的应用研究[D];大连理工大学;2007年

8 赵俊霞;中学数学教师专业知识的发展[D];东北师范大学;2006年



本文编号:2298820

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2298820.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8317***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com