面向情报学研究生教育领域的垂直搜索引擎研究

发布时间:2017-07-02 21:17

  本文关键词:面向情报学研究生教育领域的垂直搜索引擎研究


  更多相关文章: 情报学研究生教育 垂直搜索引擎 聚类


【摘要】:目前网络上存在很多各种类型的情报学研究生教育资源:各高校研究生网站、高校图书馆网站、科研院所网站、研究生论坛、情报学专家和学者的个人网页或博客等等。面对大量的情报学研究生教育资源,用户很难定位自己所需要的信息。情报学研究生教育垂直搜索引擎能整合这些繁杂、散乱无序的网络资源。 垂直搜索引擎专注具体深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,对于领域外的信息不收录,情报学研究生教育垂直搜索是针对通用搜索引擎信息量大、查询不准确等问题提出来的,其特点就是“专”“精”“深”且具有行业色彩,它是与通用搜索引擎截然不同的引擎类型。 传统搜索引擎的检索返回结果太多,不知道从哪开始浏览,查准率低,垂直搜索虽面向主题排除了很多闲杂信息,但为了更好的使用户定位自己所需要的信息,对搜索结果进行聚类是非常重要的。情报学研究生教育涉及范围广资源种类多,例如培养机构包括高校教学院系、科研院所、高校图书馆等,情报学又是图书馆和文献学、计算机和通讯科学、管理和系统科学等领域的交叉产物,导致培养内容和方式丰富,所以用户面对搜索结果将无从下手,在搜索引擎中应用聚类技术,能使经过处理后的搜索结果以一种超链接的层次类目方式提交给用户,内容相似的搜索结果被划分为一个类目,这样,搜索结果就被有效地组织起来,用户就可以快速地了解搜索结果的整体分布情况,并快速定位自已需要的结果。 本文就面向情报学研究生教育领域的垂直搜索引擎提出了构建策略,实现了此系统的五大模块:爬虫模块、网页信息分析处理模块、建立索引模块、用户检索接口模块、聚类模块。并对垂直索引的主题过滤、面向情报学研究生教育领域的专业分词、聚类模块的实现等作了大量实验。 本文分为七章,文第一章介绍,垂直搜索引擎的研究意义和背景,提出了面向此领域的垂直搜索引擎的技术结构;第二章详细论述了垂直搜索引擎与通用搜索引擎的不同;第三章采用文献计量学的关键词分析法,对情报学研究生教育相关学术论文进行关键词分析,统计出情报学研究培养领域的高频词和热点词,更新分词词典,为情报学研究生教育领域的分词词典提供了专业分词;第四章研究了我国情报学核心网站基于关键词的搜索引擎优化的统计,分析了我国情报学核心网站的结构特点,有利于选取和合适的网站进行垂直搜索引擎的构建;第五章提出了构建此领域垂直搜索引擎的五大模块;第六章具体实现了垂直搜索引擎的构建,并实现了聚类显示;第七章作出了总结和展望。
【关键词】:情报学研究生教育 垂直搜索引擎 聚类
【学位授予单位】:山东理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:G643;G350;G353.21
【目录】:
  • 摘要3-5
  • Abstract5-7
  • 目录7-10
  • 图表目录10-11
  • 第1章 绪论11-17
  • 1.1 研究背景与意义11-12
  • 1.2 国内外研究现状12-13
  • 1.3 主要研究内容及思路13-16
  • 1.4 本章小结16-17
  • 第2章 搜索引擎原理17-22
  • 2.1 通用搜索引擎的介绍17-19
  • 2.1.1 通用搜索引擎的结构17-18
  • 2.1.2 通用搜索引擎的进展18
  • 2.1.3 通用搜索引擎的类型18-19
  • 2.2 垂直搜索引擎的介绍19-21
  • 2.2.1 垂直搜索引擎的意义19-20
  • 2.2.2 垂直搜索引擎的结构20-21
  • 2.3 本章小结21-22
  • 第3章 情报学研究生教育领域热点研究22-31
  • 3.1 情报学研究生教育领域热点研究的背景22-23
  • 3.2 数据来源和格式分析23-25
  • 3.2.1 数据来源23
  • 3.2.2 格式分析23
  • 3.2.3 关键词提取23-25
  • 3.2.4 行列转化25
  • 3.3 关键词统计分析25-28
  • 3.4 共词聚类分析28-29
  • 3.5 本章小结29-31
  • 第4章 情报学研究生教育领域网站的搜索引擎优化分析31-39
  • 4.1 搜索引擎优化的重要性31
  • 4.2 研究对象选择31-32
  • 4.3 基于关键词的搜索引擎优化评测32-37
  • 4.3.1 关键词词组数量的统计33-34
  • 4.3.2 关键词词组密度的统计34-35
  • 4.3.3 关键词分布统计35-37
  • 4.4 本章小结37-39
  • 第5章 情报学研究生教育领域垂直搜索引擎模块设计39-46
  • 5.1 爬虫模块与技术要求39-41
  • 5.1.1 网络爬虫的结构和策略39-40
  • 5.1.2 开源爬虫技术40-41
  • 5.2 网页信息分析处理模块41-43
  • 5.2.1 基于网页内容的消重41-42
  • 5.2.2 文本信息处理42-43
  • 5.3 索引模块43
  • 5.4 检索接口模块43-44
  • 5.5 聚类模块44-45
  • 5.5.1 聚类的算法44-45
  • 5.5.2 聚类的工具和系统45
  • 5.6 本章小结45-46
  • 第6章 情报学研究生教育领域垂直搜索引擎构建46-53
  • 6.1 开发平台和环境准备46
  • 6.2 Nutch的基本配置46-47
  • 6.3 主题的过滤实现47-48
  • 6.4 分词词典的扩展48-49
  • 6.5 索引的构建和索引接口49
  • 6.6 客户端接口建立49-51
  • 6.7 聚类模块的实现51-52
  • 6.8 本章小结52-53
  • 第7章 总结与展望53-54
  • 7.1 全文总结53
  • 7.2 创新与展望53-54
  • 参考文献54-57
  • 致谢57-58
  • 攻读硕士学位期间的科研情况58-59
  • 附录59-60

【参考文献】

中国期刊全文数据库 前6条

1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

2 储节旺;郭春侠;;共词分析法的基本原理及EXCEL实现[J];情报科学;2011年06期

3 马媛;赵海军;;中外情报学专业研究生教育比较研究[J];情报资料工作;2006年02期

4 张雁;彭s,

本文编号:511300


资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/yjsjy/511300.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e5f43***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com