文本挖掘技术的研究及其在教学平台中的应用
发布时间:2017-04-27 23:08
本文关键词:文本挖掘技术的研究及其在教学平台中的应用,由笔耕文化传播整理发布。
【摘要】:文本挖掘的任务是发现文本的内容特征,研究技术涉及自然语言处理、机器学习、数据挖掘等学科,目前该技术已经广泛应用在各个领域。在网络教学平台中存放着大量的非结构化和半结构化的数据,可以将文本挖掘技术引入到教学平台中来有效管理这些零散的数据。本研究的目的就是深入学习文本挖掘技术并与实际的应用需求相结合,在教学平台中实现主观题的自动批改功能。 本文首先分别对文本挖掘技术和主观题自动评分的国内外研究现状做了介绍,并认真研究了涉及到的中文分词、文本相似度计算和文本分类技术。随后,模拟教师评阅主观题的思维,引入模糊数学理论中的单向贴近度模型实现了简答题的自动评分,通过计算学生答案与标准答案的各个关键字的贴近度来衡量学生答案的正确性,简答题答案短小精悍,重点在于与关键字的匹配。但论述题的文本内容较多,就会更多地受到汉语语义复杂性以及同义词、近义词等的影响,故本文针对这类题型设计了基于文本语义相似度的计算方法,通过《知网》计算词语的语义相似度,进而构造文本相似度矩阵模型和由此形成的最大值序列逐层计算句子、段落,直至文本的语义相似度。针对KNN算法应用在主观题自动评分领域中,可能会出现的类别样本数量差异大和文本密度不均衡两种情况,本文提出了用修正权重因子来给K个最近邻打分的方法,旨在降低上述两种情况对打分的影响。最后,将上述算法做了实验验证,并在思源教学平台的作业管理模块实现了针对简答题和论述题的自动评分功能。
【关键词】:文本挖掘 主观题自动批改 单向贴近度 语义相似度 修正权重因子
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;G434
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 绪论11-17
- 1.1 论文的研究背景及选题意义11-13
- 1.2 国内外研究现状13-15
- 1.2.1 文本挖掘技术研究现状14
- 1.2.2 主观题自动评分系统研究现状14-15
- 1.3 论文主要工作15
- 1.4 论文结构安排15-17
- 2 主观题自动评分关键技术研究17-32
- 2.1 中文分词技术18-21
- 2.1.1 基于词典的分词方法18-19
- 2.1.2 基于统计的分词方法19-20
- 2.1.3 基于理解的分词方法20
- 2.1.4 中文分词开源项目20-21
- 2.2 文本相似度计算21-26
- 2.2.1 基于向量空间模型的计算方法21-24
- 2.2.2 基于汉明距离的计算方法24-25
- 2.2.3 基于语义理解的计算方法25-26
- 2.3 文本分类26-32
- 2.3.1 训练模块27-30
- 2.3.2 测试和性能评估模块30-32
- 3 基于单向贴近度的简答题自动评分算法研究32-38
- 3.1 简答题特点及阅卷流程32
- 3.2 模糊数学理论32-34
- 3.2.1 模糊数学概述33-34
- 3.2.2 模糊数学的应用34
- 3.3 单向贴近度算法应用34-38
- 3.3.1 单向贴近度的定义34-35
- 3.3.2 单向贴近度的计算35
- 3.3.3 主观题评分公式35-36
- 3.3.4 算法举例36-37
- 3.3.5 算法特点总结37-38
- 4 基于文本语义相似度的论述题自动评分算法研究38-50
- 4.1 论述题特点及阅卷方法38
- 4.2 词语语义相似度计算38-45
- 4.2.1 语义相似度与语义距离38-40
- 4.2.2 关于《知网》40-41
- 4.2.3 根据《知网》计算词语语义相似度41-45
- 4.3 句子、段落和文本的语义相似度计算45-50
- 5 KNN算法改进及实验结果分析50-57
- 5.1 KNN算法在主观题自动评分的应用50-51
- 5.2 KNN算法原理及其改进51-54
- 5.2.1 类别样本数量差异51-53
- 5.2.2 样本分布密度不均衡53-54
- 5.3 实验与结果分析54-57
- 5.3.1 实验数据集54
- 5.3.2 性能评价指标54-55
- 5.3.3 实验工具与方法55
- 5.3.4 实验结果分析55-57
- 6 算法实现及实验结果分析57-67
- 6.1 功能设计57-58
- 6.1.1 功能设计基本原则57
- 6.1.2 功能设计思想57-58
- 6.1.3 功能设计内容58
- 6.2 开发环境58
- 6.3 功能实现58-61
- 6.3.1 关键步骤的实现59-60
- 6.3.2 功能展示60-61
- 6.4 实验结果分析61-67
- 6.4.1 实验数据选取61-62
- 6.4.2 实验评价指标62-63
- 6.4.3 实验结果分析63-67
- 7 总结与展望67-69
- 参考文献69-72
- 附录A72-74
- 作者简历74-76
- 学位论文数据集76
【参考文献】
中国期刊全文数据库 前10条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 叶福军;;文本数据挖掘在数字图书馆中的应用研究[J];硅谷;2009年07期
3 张量,詹国华;开放式、智能化计算机考核阅卷系统的设计与实现[J];计算机工程与应用;2001年10期
4 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
5 高思丹,袁春风;语句相似度计算在主观题自动批改技术中的初步应用[J];计算机工程与应用;2004年14期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 王自强;钱旭;;基于流形学习和SVM的Web文档分类算法[J];计算机工程;2009年15期
8 杨延娇;王治和;;基于树桩网络的贝叶斯文本分类算法[J];计算机工程;2009年16期
9 孙荣宗;苗夺谦;卫志华;李文;;基于粗糙集的快速KNN文本分类算法[J];计算机工程;2010年24期
10 朱巧明,陈越,翟洁,赵星涛;一个自动阅卷系统的设计与实现[J];计算机工程与科学;1999年03期
本文关键词:文本挖掘技术的研究及其在教学平台中的应用,,由笔耕文化传播整理发布。
本文编号:331612
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/331612.html