面向远程教育主题搜索引擎的研究与实现
本文关键词:面向远程教育主题搜索引擎的研究与实现
【摘要】:随着Internet和网络多媒体技术的高速发展,远程教育信息资源日益丰富,成为人们获得知识的一种重要途径,远程教育资源不仅满足了广大学习者的学习新知识的需求,同时也为建设学习型社会和实现终身教育做出了巨大的贡献。但是随着数据量的不断增大,通过手动的浏览网页或者传统的搜索引擎在海量的网络资源中定位自己需要的资源也越来越困难。面向远程教育的主题搜索引擎正是在这样的背景下诞生的,它能帮助学习者快速的定位自己需要的信息资源。 本论文以远程教育学院资源建设为出发点,以部分远程教育学院的网站为研究对象,设计并实现了一个面向远程教育的主题搜索引擎。面向远程教育的主题搜索引擎首先确定了远程教育专业词库的构建方法,提出一种基于Heritrix的主题网页过滤方法。其次,借助HTMLParser对抓取的网页进行信息提取,形成文本文件。最后,由Lucene完成索引和搜索,本文还对Lucene的索引过程进行了优化,提高了索引的速度,,另外对Lucene排序算法进行了改进。通过试验测试,验证了本文设计的面向远程教育的主题搜索引擎各子系统的可行性,并与传统搜索引擎进行对比,在保证查全率的基础上能够更高效、更准确地进行信息资源定位。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:G40-057
【参考文献】
中国期刊全文数据库 前10条
1 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
2 赵善明;崔翔;杨书涛;;主题搜索引擎搜索浅析[J];才智;2008年13期
3 王庆民;;互联网搜索引擎的发展、应用和特点[J];农业网络信息;2009年05期
4 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期
5 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
6 张文静;;搜索引擎的分类及发展趋势[J];焦作大学学报;2006年03期
7 张焕武;;搜索引擎技术研究的现状与展望[J];科技情报开发与经济;2009年03期
8 贾花萍;;元搜索引擎小议[J];科技信息(学术研究);2007年15期
9 黄日昆;网络引文搜索引擎CiteSeer评析[J];情报杂志;2004年06期
10 孙庚;冯艳红;于红;史鹏辉;;一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J];软件导刊;2010年05期
中国硕士学位论文全文数据库 前9条
1 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
2 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
3 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
4 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
5 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年
6 孙静;搜索引擎网页快照的安全性研究[D];北京化工大学;2007年
7 王启户;面向远程教育的搜索引擎系统设计与实现[D];西安电子科技大学;2008年
8 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
9 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年
本文编号:1212525
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyugaigechuangxinlunwen/1212525.html