当前位置:主页 > 科技论文 > 搜索引擎论文 >

企业内网搜索引擎关键技术研究与实现

发布时间:2017-09-23 07:33

  本文关键词:企业内网搜索引擎关键技术研究与实现


  更多相关文章: 企业内网 搜索引擎 链接过滤 评分排序 复杂网络


【摘要】:随着企业自身业务和信息化建设的不断发展与扩张,企业内部网络的规模也急剧膨胀。同一时间,企业内部网络上所保存的数据资源也呈爆炸性增长。为了能够根据企业内网上的重要数据制定正确的发展计划,如何在企业内网这个庞大的资源信息库中获得对企业有价值的数据资源,便成为了企业现在需要迫切解决的问题。目前,通用搜索引擎虽然能够提供大量的搜索结果以此满足大部分普通用户的需求,但这些结果不仅很难满足企业的特殊需要,而且不具有足够的导向作用。更重要的是搜索结果经常出现网页覆盖率较低、信息更新不及时等问题。而企业内网搜索引擎能根据企业的需要对关键算法进行定制,它只抓取与企业相关的数据资源并对检索出来的结果进行有效的排序,使其搜索内容针对性更强,更具有企业导向性,所以企业内网搜索引擎便成为一个解决该问题的有效方案。本文着重研究搜索引擎所使用的关键技术与算法,并根据企业需求的特殊性对其进行改进创新,完成企业内网搜索引擎所需的功能。同时,对复杂网络学科中的搜索算法进行创新,力求将其应用于大型服务器的本地文件检索系统中,增强企业内网搜索引擎的功能。本文主要提出了三个新算法,分别是基于域名的链接过滤算法、基于向量空间模型的多因素评分算法和路径压缩搜索算法:基于域名的链接过滤算法通过对链接进行分析,能够有效的阻止网络爬虫下载与企业无关的数据,提高网络爬虫的性能,同时增加搜索结果的准确率和搜索效率;基于向量空间模型的多因素评分算法是对现有的相关性评分算法进行改进,该算法综合考虑影响相关性评分的各种因素,让对企业更有价值的数据排名尽可能靠前;路径压缩搜索算法是一种新的复杂网络搜索算法,该算法只需要较少的搜索步数与查询信息量便可以遍历整个网络,所以具有较高的搜索效率,同时力求将其应用在大型服务器本地文件搜索系统中,以提高本地文件搜索的效率。最后对本文所提出的三种算法的研究与实现进行总结,并提出其中的不足和需要改进的地方。
【关键词】:企业内网 搜索引擎 链接过滤 评分排序 复杂网络
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 绪论11-17
  • 1.1 研究背景与意义11-12
  • 1.2 国内外现状12-15
  • 1.2.1 国内外研究动态12-14
  • 1.2.2 存在的问题14-15
  • 1.3 论文研究内容15
  • 1.4 论文组织结构15-17
  • 第二章 关键技术与算法17-34
  • 2.1 搜索引擎关键技术与算法17-29
  • 2.1.1 搜索引擎整体架构17-18
  • 2.1.2 搜索引擎工作流程18-19
  • 2.1.3 网页评分算法19-22
  • 2.1.4 中文分词算法22-23
  • 2.1.5 网页信息抽取技术23-25
  • 2.1.6 信息索引技术25-27
  • 2.1.7 相关性评分算法27-29
  • 2.2 复杂网络中的网络模型与搜索算法29-33
  • 2.2.1 经典的网络模型30-32
  • 2.2.2 经典搜索算法32-33
  • 2.3 本章小结33-34
  • 第三章 基于域名的链接过滤算法34-51
  • 3.1 基于域名的链接过滤算法概述34
  • 3.2 基于域名的链接过滤算法核心思想34-36
  • 3.2.1 域名过滤阶段34-35
  • 3.2.2 主题过滤阶段35-36
  • 3.3 基于域名的链接过滤算法描述36-43
  • 3.3.1 算法架构描述37-39
  • 3.3.2 算法流程描述39-42
  • 3.3.3 关键数据结构描述42-43
  • 3.4 仿真实验43-49
  • 3.4.1 实验软硬件平台44
  • 3.4.2 算法衡量参数44
  • 3.4.3 实验与讨论44-49
  • 3.4.3.1 仿真实验一45-47
  • 3.4.3.2 仿真实验二47-49
  • 3.5 本章小结49-51
  • 第四章 基于向量空间模型的多因素评分算法51-60
  • 4.1 基于向量空间模型的多因素评分算法概述51
  • 4.2 基于向量空间模型的多因素评分算法核心思想51-53
  • 4.3 基于向量空间模型的多因素评分算法描述53-56
  • 4.3.1 算法核心公式描述54-55
  • 4.3.2 算法流程描述55-56
  • 4.4 仿真实验56-58
  • 4.4.1 实验数据集56-57
  • 4.4.2 算法衡量参数57
  • 4.4.2.1 MAP57
  • 4.4.2.2 P@n57
  • 4.4.3 实验与讨论57-58
  • 4.5 本章小结58-60
  • 第五章 路径压缩搜索算法60-77
  • 5.1 路径压缩搜索算法概述60-61
  • 5.2 路径压缩搜索算法核心思想61
  • 5.3 路径压缩搜索算法描述61-68
  • 5.3.1 算法流程描述62-66
  • 5.3.2 算法示例66-68
  • 5.4 仿真实验68-74
  • 5.4.1 实验软硬件平台68
  • 5.4.2 算法衡量参数68-69
  • 5.4.2.1 搜索步数68-69
  • 5.4.2.2 查询信息量69
  • 5.4.3 实验所用网络模型69-70
  • 5.4.3.1 NW小世界网络模型69-70
  • 5.4.3.2 BA无标度网络模型70
  • 5.4.4 实验与讨论70-74
  • 5.4.4.1 不同网络模型中的比较70-72
  • 5.4.4.2 不同大小网络中的比较72-74
  • 5.5 路径压缩搜索算法实际应用74-76
  • 5.6 本章小结76-77
  • 第六章 全文总结与展望77-79
  • 6.1 全文总结77-78
  • 6.2 后续工作展望78-79
  • 致谢79-80
  • 参考文献80-83
  • 攻读硕士学位期间取得的成果83-84

【参考文献】

中国期刊全文数据库 前1条

1 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期



本文编号:904003

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/904003.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5854c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com