面向教学的Web信息集成技术研究
发布时间:2017-11-17 07:18
本文关键词:面向教学的Web信息集成技术研究
【摘要】:随着Web2.0和网络技术的发展,网络用户不仅是Web信息的消费者,也是Web信息的生产者,这就导致了网络上的信息量呈爆炸性增长。如何有效利用Web信息资源成为需要面对和解决的重要问题。对于这个问题,学者们也进行了Web信息集成方面的一些研究,但是这些研究工作主要集中在新闻、电影、音乐、博客等领域,而面向教育领域的工作却不多。基于此,本文提出了一种面向教学的试题抽取与分类方法,该方法基于用户输入的书籍名称和作者信息以及题型,自动在Web中爬取相关的书籍目录和试题,并通过计算书籍目录和题目之间的相似度来进行题目分类,从而可以达到自动化地建立试题库的目的。本文的主要工作如下:(1)提出了面向教学的书籍目录抽取方法。通过研究发现,由于亚马逊上的书籍目录相对其他网站(当当网、京东网等)比较完整,本文选择了亚马逊作为书籍目录的数据源。当用户输入书籍的名称和作者名时,通过PHP语言的simplehtmldom爬虫技术和模式匹配,能够从亚马逊上爬取该书籍的目录信息,然后通过DOM技术解析获得该书籍的章节信息;(2)提出了面向教学的书籍试题抽取方法。本文主要在百度文库上进行书籍试题抽取,通过用户输入书籍名称和试题类型来获得该书籍的相关试题,在这个过程中,需要对爬取过的文本和链接通过队列进行去重,过滤之前已经爬取得信息,然后对爬取得信息进行解析,最后获得每一道试题;(3)提出了面向教学的试题分类方法,在爬取书籍目录和书籍试题之后,通过下面步骤来进行试题分类:首先,本文需要利用PHPAnalysis和TF-IDF方法对书籍目录和试题进行分词和计算关键词,然后使用Jaccard方法进行相似度计算,获得每道试题的所属的章,即对试题进行按章分类,最后存入试题库,达到按章出题的目的;(4)基于上面这些方法,本文使用PHP语言设计和开发了一个原型系统,原型系统主要包括两方面的内容:手动输入试题和自动从网上集成试题,最后分类到试题库中。本文经过实验验证了这些方法的准确性和可行性。
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TP393.09
【参考文献】
中国期刊全文数据库 前7条
1 王宇颖,侯爽,郭茂祖;题库系统试卷自动生成算法研究[J];哈尔滨工业大学学报;2003年03期
2 袁占亭,张爱民,张秋余;基于概念的Web信息检索[J];计算机工程与应用;2003年36期
3 孟小峰;Web信息集成技术研究[J];计算机应用与软件;2003年11期
4 黄春毅;邓红军;;一种自适应搜索引擎的构建研究[J];情报杂志;2006年02期
5 张科;;多次Hash快速分词算法[J];计算机工程与设计;2007年07期
6 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
7 邹嵩;赵诗阳;周新志;;垂直搜索引擎中分词技术的算法研究[J];计算机技术与发展;2012年02期
中国硕士学位论文全文数据库 前1条
1 赵宁;面向语义的信息集成中对查询处理问题的研究[D];山东大学;2005年
,本文编号:1195229
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1195229.html