Web教学资源采集中超链接可采集度评价研究
发布时间:2019-04-18 19:26
【摘要】:随着现代信息技术的高速发展,网络已经成为知识获取与利用的重要途径。网络中的资源异常丰富,然而分布也十分广泛,组织性很差。面对海量的网络资源,如何快速、有效地获取人们感兴趣的主题资源成为知识获取的一个重要问题。主题资源的自动获取主要通过对网络超链接的采集来实现,而主题资源获取的关键问题之一就是对网络中超链接是否采集的评价方法。 本文设计了一个基于贝叶斯网络的主题超链接评价系统,主要实现了在web教学资源获取的过程中对超链接是否采集进行评价,以指导网络爬虫进行有方向地爬行和采集。 首先,本文介绍了web主题资源获取的概念和意义,对主题资源采集的相关理论与技术进行了阐述和比较,对网络主题资源的分布形态进行了探究,并重点分析了影响网络超链接建立的影响因子。 接着,本文介绍了贝叶斯网络的基本概念、应用领域以及相关的理论与技术,并提出了基于贝叶斯网络的web超链接评价方案。首先将网络超链接的影响因子抽象化为贝叶斯网络中的变量;然后经过网络结构的学习、参数学习,建立起关于超链接可采集度评价的贝叶斯网络;最后利用该网络对新的超链接是否采集进行评价和预测。 然后,针对Web主题资源采集中超链接的评价问题,根据实际情况选择并改进了贝叶斯网络构建过程中的方法与技术,通过将先验知识与测试数据相结合,将二者的优势融合在一起,减少了计算量,提高了算法效率。 最后,实现了基于贝叶斯网络的超链接可采集度评价系统。从多个站点下载了5000多个超链接用于效果测试。实验结果表明,贝叶斯网络可用于超链接可采集度的评价,并能取得良好的效果。
[Abstract]:......
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:G434;TP18;TP391.3
本文编号:2460274
[Abstract]:......
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:G434;TP18;TP391.3
【参考文献】
相关期刊论文 前2条
1 郑凯;;基于动态评价URL链接结构的主题爬行策略[J];福建电脑;2010年02期
2 刘启元;张聪;沈一栋;;信度网推理——方法及问题(上)[J];计算机科学;2001年01期
,本文编号:2460274
本文链接:https://www.wllwen.com/jiaoyulunwen/wangluojiaoyulunwen/2460274.html