Web数据挖掘技术在网络教育论坛中的应用研究
本文关键词:Web数据挖掘技术在网络教育论坛中的应用研究
更多相关文章: 网络教育论坛 热点话题 Web数据挖掘 中文分词 K-means聚类算法
【摘要】:随着互联网的飞速发展,网络教育论坛逐渐成为一种教育资源平台并得到充实壮大,成为人们尤其是教师和学生日常交流、研究、学习中不可或缺的要素。网络教育论坛尤其是与专业方向密切相关的论坛上有大量交流思想、探讨学习和专业研究的帖子,这些帖子本身就是极好的教育资源,论坛对某个话题的深入广泛的讨论会使其成为热点话题而受到广泛关注。因帖子的数量庞大,手工统计分析网页上帖子已不能满足应用要求。Web数据挖掘技术的发展,使深入研究和分析教育论坛的帖子内容成为可能,为研究者提供了强大的技术支撑。利用Web数据挖掘技术研究教育论坛中有关专业研究学习方面的热点话题,并把研究结果反馈于教育教学活动,是对变革教育方式积极有益的探索,对加快教育现代化进程具有重要意义。 文章主要利用Web数据挖掘技术对网络教育论坛上的内容展开研究。以北大中文论坛的中文信息处理版块为研究对象,挖掘论坛中的热点话题和话题领袖,从而对课堂教育教学提供补充和扩展,加快教育方式变革。 文章主要完成了以下工作: (1)获取网页文本数据是Web数据挖掘的第一步,本研究实现了利用网络爬虫程序下载网页,使用DOM树和正则表达式解析网页以获得所需要的正文内容。在进行大规模网页采集、抽取时,对采集到的数据进行清理、筛选、转换,并将结果存入本地数据库中。 (2)实现并改进正向最大匹配中文分词算法,使分词的粒度较大,便于划分出一些学科的专有名词。研究设计的中文分词词典能很好地支持本算法的实现。 (3)编程实现了经典的K-means聚类挖掘算法。通过对论坛网页的聚类分析发现网络教育论坛中讨论的热点话题,通过判断和分析热点话题,就可把握话题的发展方向,了解教育论坛中人们研究、学习的主要方面,以此辅助教学。 (4)根据挖掘结果,有针对性地关注热点话题、关注话题领袖引领的话题可以解决在专业方面反映突出的问题,进而可以利用好课堂内外两个平台。课堂教学是教育教学工作的重要部分,而通过网络教育论坛解决学生学习中遇到的问题是对教育方式变革积极有益的探索。
【关键词】:网络教育论坛 热点话题 Web数据挖掘 中文分词 K-means聚类算法
【学位授予单位】:新疆师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13;G434
【目录】:
- 中文摘要3-4
- Abstract4-7
- 1 引言7-13
- 1.1 研究目的和意义8-9
- 1.1.1 研究目的8
- 1.1.2 研究意义8-9
- 1.2 研究对象的选取9-10
- 1.3 网络教育论坛的研究现状10-11
- 1.4 研究思路11
- 1.5 本文的组织安排11-12
- 1.6 本章小结12-13
- 2 网络教育论坛分析的理论与方法13-16
- 2.1 网络内容分析理论13
- 2.2 人本主义学习理论13-14
- 2.3 知识管理理论14
- 2.4 统计分析法14-15
- 2.5 本章小结15-16
- 3 Web 数据挖掘的基本过程16-26
- 3.1 Web 数据挖掘概述16-17
- 3.1.1 Web 数据挖掘分类16-17
- 3.1.2 网络教育论坛相关术语17
- 3.2 Web 数据挖掘中的数据采集及预处理17-23
- 3.2.1 Web 数据采集17-20
- 3.2.2 Web 数据预处理20-23
- 3.3 挖掘热点话题23-25
- 3.3.1 网络热点话题的定义23
- 3.3.2 文本聚类23-24
- 3.3.3 k-平均值(k-means)聚类算法24-25
- 3.4 本章小结25-26
- 4 本研究对关键技术的改进26-37
- 4.1 改进的Web 文本特征提取方法26-30
- 4.2 改进的中文分词算法30-36
- 4.3 本章小结36-37
- 5 网络教育论坛的 Web 数据挖掘应用与分析37-47
- 5.1 爬取网页及抽取数据37-40
- 5.2 k-平均值算法挖掘应用及分析40-45
- 5.2.1 对帖子主题的k-平均值聚类挖掘及分析40-44
- 5.2.2 对发帖人的分析44-45
- 5.3 挖掘结果对课堂教学的指导45-46
- 5.4 本章小结46-47
- 总结与展望47-48
- 参考文献48-51
- 在读期间发表的论文51-52
- 后记52
【参考文献】
中国期刊全文数据库 前10条
1 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
2 吴焕政;吴渝;;BBS网络舆情定量分析研究[J];广西师范大学学报(自然科学版);2010年03期
3 谭骏珊;吴惠雄;;一种改进整词二分法的中文分词词典设计[J];信息技术;2009年05期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
6 李朝;彭宏;叶苏南;张欢;杨亲遥;;基于DOM树的可适应性Web信息抽取[J];计算机科学;2009年07期
7 曲著伟;李敏强;;基于数据区域发现的信息抽取规则生成方法[J];计算机工程;2009年22期
8 金明珠;丁岳伟;;基于动态主题库的主题爬虫[J];计算机应用;2009年S2期
9 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
10 饶文碧;柯慧燕;张丽;;一种扩展的基于VSM的Web文本分类算法[J];计算机应用与软件;2006年10期
中国硕士学位论文全文数据库 前4条
1 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年
2 王丽影;数据挖掘技术在网络教育平台中的应用研究[D];天津师范大学;2008年
3 杨梅;网络舆情热点发现的研究[D];北京交通大学;2008年
4 姚晓娜;BBS热点话题挖掘与观点分析[D];大连海事大学;2008年
,本文编号:533191
本文链接:https://www.wllwen.com/jiaoyulunwen/xueshengguanli/533191.html