基于决策树的教学信息挖掘系统的研究与实现
本文关键词:基于决策树的教学信息挖掘系统的研究与实现
【摘要】:在社会进入信息时代的今天,信息技术已经成为生活中不可缺少的一部分。而随着信息技术运用的深入和广泛普及,产生了大量需要存储和再利用的数据,这就引出了一个崭新的“大数据时代”。面对如此巨大的数据,就出现了数据挖掘技术,该技术就是为了找到数据与数据之间的联系和数据内部隐藏的秘密。在我国数据挖掘起步较晚但进步较快,一些大企业、高科技企业已经做了比较深入的研究和初步的商业运用,取得了许多成绩。在大数据和数据挖掘背景下,义务教育阶段的中小学等初级教育单位应对却有些滞后,每年的大量投入还是花在硬件装备的更新上,很少会去分析数据更不要说数据挖掘。而现代学校要想发展,就必须要有新技术的变革,靠传统的教育模式已经落后,而数据挖掘技术的出现正可以为现代教育变革的强大引擎。首先,本文从大数据的产生背景和数据挖掘技术发展历程入手,通过对数据挖掘技术的ID3、C4.5、CART三种常用算法的工作原理的研究及其优缺点的比较分析,论证了该技术在教学信息系统中应用的可行性。根据所在学校的现状,完全可以运用数据挖掘技术来推进学校的办学质量。其次,分析了学校的数据特点,一般数据量不会太大,特征值也不会太多的情况,结合数据挖掘技术,抽取少量样本数据对ID3、C4.5进行比较,在生成效果差不多的情况下,决定采用相对复杂度不高的ID3算法来构建学校的决策树模型。但是ID3算法本身也存在缺点:它通过信息增益选择特征时,一般选出的都是属性值多的特征作为分割特征,但这些特征不一定就是最好的选择;另外信息增益的计算太过于复杂,当样本量比较大时给计算带来不小的负担。针对这此问题本文对ID3算法进行了小的改进,设计了采用等价无穷小和用户兴趣度概念来简化计算公式和特征取值的偏向问题。通过实际样本测试改进后的新算法对比ID3算法实现了在选报特征值一样的情况下,信息增益的快速计算并且特征值选取也符合预期。再次,针对学校特点采用B/s结构对系统进行设计,数据库mysql,编程语言python。系统分为登陆、数据输入、学生管理、班级管理、数据预处理、决策树生产模块。对各模块的功能和结构进行了详细的分析。最后,本文选择了2012年入学的两个班学生三年的样本数据,抽取了学生入学情况、初一期末成绩、初二期末成绩、初三中考成绩、班级学生管理、教师配备初三中考、提优补差等特征进行数据的泛化处理,然后通过改进后的ID3算法得到决策树,通过计算过程的演示,可以看出这种改进算法提高了决策树的生成速度,避免了特征选择时选报偏向的问题。
【关键词】:数据挖掘 ID3 决策树
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-6
- Abstract6-11
- 第1章 绪论11-18
- 1.1 研究背景11-12
- 1.2 选题意义12-13
- 1.3 国内外发展历史和现状13-15
- 1.3.1 国外发展历史和现状13-15
- 1.3.2 国内发展历史和现状15
- 1.4 本文工作15-16
- 1.5 论文内容和结构16-18
- 第2章 基础概念和相关原理18-30
- 2.1 知识发现的概念18
- 2.2 数据挖掘的概念18-19
- 2.3 KDD数据挖掘过程19-20
- 2.4 数据挖掘所要解决的问题20-21
- 2.5 数据挖掘决策树技术21-23
- 2.5.1 决策树的定义和结构21-22
- 2.5.2 决策树的工作原理22
- 2.5.3 决策树生成过程22-23
- 2.6 决策树的特征选择23-27
- 2.6.1 去掉取值变化小的特征23-24
- 2.6.2 信息增益24-26
- 2.6.3 信息增益比26-27
- 2.7 决策树的算法27-29
- 2.7.1 ID3算法27-29
- 2.7.2 C4.5 算法29
- 2.8 小结29-30
- 第3章 面向教学信息挖掘的ID3算法的改进与应用30-38
- 3.1 ID3和c4.5 比较30-33
- 3.2 ID3算法改进一33-34
- 3.3 改进算法验证34-35
- 3.4 ID3算法改进二35-37
- 3.5 小结37-38
- 第4章 教学管理系统的需求分析38-45
- 4.1 学校面临的问题38-39
- 4.2 教学信息挖掘系统需求问题说明39-44
- 4.3 小结44-45
- 第5章 教学信息管理系统框架及结构设计45-51
- 5.1 总体框架设计45-46
- 5.2 登陆模块46-47
- 5.3 数据输入模块47-48
- 5.4 班级管理模块48
- 5.5 学生管理模块48-49
- 5.6 数据预处理模块49-50
- 5.7 决策树生成模块50
- 5.9 小结50-51
- 第6章 教学管理系统的详细设计与决策树分析51-70
- 6.1 运行环境51-52
- 6.2 数据库设计52-57
- 6.3 登陆界面57-59
- 6.4 程序框架结构59-60
- 6.5 数据导入60-61
- 6.6 数据的泛化处理61-62
- 6.7 决策树计算62-69
- 6.8 本章小结69-70
- 第7章 总结和展望70-72
- 7.1 总结70-71
- 7.2 展望71-72
- 参照文献72-74
- 作者简介及在学习期间取得的科研成果74-75
- 致谢75
【相似文献】
中国期刊全文数据库 前10条
1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
8 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年
9 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年
10 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
,本文编号:901477
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/901477.html