当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向组织内部搜索引擎的构建策略

发布时间:2017-10-04 23:18

  本文关键词:面向组织内部搜索引擎的构建策略


  更多相关文章: 信息集成 信息更新 TF-IDF 搜索排序


【摘要】:在大数据时代,互联网产生的庞大的数据信息让亿万用户时刻享受着最新资讯。无论学习或者工作,对于用户而言,及时掌握学校或者企业的最新消息都是非常必要的,但是在内部网中最新更新的信息很难被及时发现。并且网站中还存在着大量的可用资源,这些资源处于网站的深层中,用户往往需要跳转很多的链接才能找到。现有的企业内部搜索工具不能有效地解决以上问题。本文通过对内部网站信息更新特点的研究,提出了解决方法,本文主要贡献如下:(1)提出了基于内部搜索引擎的信息更新方法。信息集成是计算内部网络中信息更新周期的基础,它决定了企业门户网站信息能否被全面检索。基于该问题,针对企业门户网站的特点,提出了企业信息集成方法。同时定义了企业web信息网络、有效访问、节点更新周期等相关概念。基于此,进一步提出了基于内部搜索引擎的信息更新方法。并比较了传统更新方法、基于更新周期的信息更新方法、自适应的更新方法的优点和不足。(2)提出了基于TF-IDF排序的优化方法。对传统的内部搜索工具的搜索结果进行对比,使用基于网页全文的搜索方法,结合返回结果和搜索语句计算网页的权重,并使用NDCG评分策略对优化后的结果进行评价,最终呈现一个用户满意的查询结果。(3)对提出的方法进行了系统实现。基于以上方法,进行了系统实现,通过实际使用验证了所提方法的有效性。
【关键词】:信息集成 信息更新 TF-IDF 搜索排序
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 绪论9-12
  • 1.1 研究背景及意义9-10
  • 1.2 研究现状10
  • 1.3 主要研究内容10-11
  • 1.4 论文组织结构11-12
  • 第二章 面向内部搜索引擎的信息更新方法12-23
  • 2.1 引言12
  • 2.2 问题描述12
  • 2.3 相关工作12-13
  • 2.4 信息集成框架13-15
  • 2.4.1 相关概念13
  • 2.4.2 信息抽取方法13-14
  • 2.4.3 集成框架14-15
  • 2.5 信息更新方法15-20
  • 2.5.1 遍历式更新方法15
  • 2.5.2 基于时间标签的信息更新方法15-19
  • 2.5.3 自适应的更新方法19-20
  • 2.6 实验评估20-22
  • 2.7 本章小结22-23
  • 第三章 基于TF-IDF的排序优化方法23-38
  • 3.1 引言23
  • 3.2 问题描述23-24
  • 3.3 相关概念24-25
  • 3.3.1 查全率和查准率24
  • 3.3.2 全文索引与Lucene简介24-25
  • 3.4 基于TF-IDF的排序优化方法25-34
  • 3.4.1 基于标题的搜索方法25-26
  • 3.4.2 基于网页全文的搜索方法26-29
  • 3.4.3 基于TF-IDF的综合排序方法29-34
  • 3.5 评估34-37
  • 3.5.1 生成实验数据集34
  • 3.5.2 基准建立34-35
  • 3.5.3 评估策略35
  • 3.5.4 实验结果35-37
  • 3.6 本章小结37-38
  • 第四章 原型系统实现38-43
  • 4.1 引言38
  • 4.2 设计思路38-39
  • 4.3 相关技术39
  • 4.4 系统功能39-40
  • 4.4.1 信息集成功能39
  • 4.4.2 信息搜索功能39-40
  • 4.5 系统评估40-42
  • 4.5.1 排序结果测试40-41
  • 4.5.2 功能测试41
  • 4.5.3 性能测试41-42
  • 4.6 本章小结42-43
  • 第五章 总结和展望43-44
  • 5.1 研究成果总结43
  • 5.2 未来工作展望43-44
  • 参考文献44-47
  • 发表论文和科研情况说明47-48
  • 致谢48-49

【相似文献】

中国期刊全文数据库 前10条

1 优利;公时;;信息更新大脑“芯片”[J];中国商界;1997年07期

2 任燕丽;信息与信息素质[J];北京成人教育;1999年06期

3 吴家皋;余浩;张雪英;;基于链接回溯的地理信息更新主题爬虫研究[J];计算机技术与发展;2014年07期

4 张令保;;“三统一”推进政府信息公开——安徽省运用信息化手段实践《条例》[J];信息化建设;2008年08期

5 曾祥兴;王喜成;;需求信息更新下短生命周期产品的订货模型[J];桂林电子工业学院学报;2006年03期

6 ;《北京通V2.0》为你服务[J];科技潮;1998年02期

7 陈建;让农业驶入信息化的快车道──信息化改造传统农业的实践与思考[J];信息化建设;2001年06期

8 郑士贵;新信息的检索[J];管理科学文摘;1997年11期

9 裘杭萍;王玲玲;权冀川;肖登海;;基于信息质量的信息优势评估指标研究[J];计算机技术与发展;2010年05期

10 王鹏展;孙晓钟;周海华;;全面建设数字青岛 着力打造信息强市[J];信息技术与信息化;2006年05期

中国重要会议论文全文数据库 前2条

1 申成霖;张新鑫;;需求信息更新应对策略性顾客行为的价值[A];第十四届中国管理科学学术年会论文集(上册)[C];2012年

2 罗迎;李胜;戴岱;刘阳;;供应商主导下具有需求信息更新的二级供应链数量弹性契约研究[A];第六届(2011)中国管理学年会——运作管理分会场论文集[C];2011年

中国重要报纸全文数据库 前10条

1 本报记者 黄穗诚;粤基础地理信息更新与应用研究通过评审[N];广东建设报;2009年

2 记者 杜永刚;1∶1万基础地理信息更新与建库有了技术纲要[N];中国测绘报;2001年

3 ;ICP升级信息集成凸现[N];科技日报;2000年

4 记者 王光耀;上海基础地理信息更新全面提速[N];中国测绘报;2003年

5 福州大学副校长 “数字福建”专家委员会主任 王钦敏;数字化建设应把握六大要点[N];通信信息报;2002年

6 本报记者 李继学;信息大整合,助力社保工作再上台阶[N];中国财经报;2011年

7 韩韫超;“煎饼人”:游走在信息饥渴与追逐中[N];工人日报;2012年

8 实习记者 冯君;信息更新不及时将进“黑名单”[N];政府采购信息报;2008年

9 记者 吴进宇 通讯员 李海杰;北京贷款卡基本信息实现自动更新[N];金融时报;2011年

10 苏州大学社会学院副院长兼电子政务系主任 周毅;档案部门应在网络信息存档行动中有所作为[N];中国档案报;2011年

中国硕士学位论文全文数据库 前7条

1 吴俊;基于需求信息更新的多产品双源采购策略研究[D];南京理工大学;2016年

2 卞智繁;面向组织内部搜索引擎的构建策略[D];天津理工大学;2016年

3 邱梅;基于信息更新视角的不确定决策机理研究[D];浙江大学;2012年

4 章长春;ASP海事信息服务平台的研究与实现[D];大连海事大学;2001年

5 高荃;我国政府信息公开途径研究[D];南昌大学;2012年

6 雷佩莹;基于Web的新闻信息抽取系统设计与实现[D];西北大学;2008年

7 师颖帅;学生公寓管理系统的设计与实现[D];电子科技大学;2013年



本文编号:973442

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/973442.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c489a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com