当前位置:主页 > 科技论文 > 软件论文 >

企业搜索引擎排序技术的研究

发布时间:2017-05-11 03:02

  本文关键词:企业搜索引擎排序技术的研究,,由笔耕文化传播整理发布。


【摘要】:当前,随着社会经济发展和企业信息化建设不断推进,企业信息资源愈加丰富,同时信息资源呈现分布散乱、形态多样化等特点,使查找信息变的更加困难;另外,由于企业文档信息涉及商业机密,利用商用搜索引擎检索会让公司承担经济风险。因此,在企业内部建立信息资源检索系统,并对检索结果合理有效排序显得越来越重要。为此,本文通过对搜索引擎排序算法展开深入研究,在基于传统搜索排序算法的基础上进行创新,一方面通过对初始迭代向量预估计和引入网页排名波动率作为算法停止迭代计算准则对传统PageRank算法进行改进,另一方面从用户点击行为角度将查询词历史点击量对文档贡献率引入到排序算法中,有效地提升了检索准确率和提高了用户满意度。首先,本文介绍了搜索引擎的工作流程,深入研究搜索引擎的技术原理;介绍了常用的搜索引擎排序算法,重点研究了经典排序算法PageRank算法;对搜索引擎用户行为进行研究,重点分析搜索引擎用户点击行为的可靠性,根据多个特征判断搜索引擎用户点击与查询的相关性;深入分析了开源Lucene的评分机制,其核心思想是根据查询词与网页内容相关度的大小进行排序。然后,提出改进的PageRank算法和对基于用户点击行为模型的排序算法的改进。首先对PageRank算法加以研究改进,从节点入度角度对其初始迭代向量预估计和引入网页排名波动率作为PageRank算法停止迭代计算准则,减少了迭代次数,加速了迭代过程;其次,通过对用户点击行为的挖掘,分析用户点击行为特征的可靠性,提出了查询词历史点击量对文档贡献率,从用户行为角度影响排序结果。最后,进行实验及结果分析。通过数值实验对比,验证改进的PageRank算法的迭代次数比传统的PageRank算法的迭代次数要少,减少了计算时间;通过比较搜索结果查准率,验证融合了改进的PageRank算法和用户点击行为模型的排序算法改善了排序结果,提高了搜索准确率。
【关键词】:企业搜索引擎 用户行为 PageRank 重排序 Lucene
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 绪论10-17
  • 1.1 研究背景与选题意义10-11
  • 1.2 国内外研究现状11-14
  • 1.2.1 搜索引擎的发展历史11-13
  • 1.2.2 企业搜索与互联网搜索的区别13
  • 1.2.3 企业搜索研究现状13-14
  • 1.3 论文的主要研究内容14-15
  • 1.4 论文的组织结构15-17
  • 第2章 搜索引擎排序算法及用户行为分析的相关技术研究17-41
  • 2.1 互联网搜索引擎系统基本架构17-22
  • 2.2 通用搜索引擎排序算法22-25
  • 2.2.1 词频和位置加权排序算法22-23
  • 2.2.2 HITS算法23-24
  • 2.2.3 Direct Hit算法24-25
  • 2.2.4 Hilltop算法25
  • 2.3 PageRank算法25-30
  • 2.3.1 PageRank算法的基本原理26-27
  • 2.3.2 PageRank算法的计算实例27-30
  • 2.3.3 PageRank算法与HITS算法比较30
  • 2.4 互联网用户行为分析30-33
  • 2.4.1 用户行为分析的相关概念31
  • 2.4.2 用户群体宏观统计分析31-32
  • 2.4.3 用户查询需求分析32
  • 2.4.4 用户群体点击行为分析32
  • 2.4.5 互联网用户浏览行为分析32-33
  • 2.5 用户点击行为特征及相关性分析33-38
  • 2.5.1 用户点击行为特征33-34
  • 2.5.2 用户点击行为特征分析34
  • 2.5.3 用户点击与查询相关性的形式化分析34-36
  • 2.5.4 贝叶斯点击模型36-38
  • 2.6 Lucene检索结果排序算法研究38-40
  • 2.7 本章小结40-41
  • 第3章 基于初始向量预估计和引入排名波动率对PageRank算法的改进41-50
  • 3.1 PageRank算法的流程41-42
  • 3.2 对PageRank算法的改进42-48
  • 3.2.1 从网页链入总数入手对PageRank初始向量预估计42-45
  • 3.2.2 以排名波动率作为PageRank停止迭代准则45-48
  • 3.3 改进的PageRank算法的基本流程48
  • 3.4 本章小结48-50
  • 第4章 基于用户点击行为的排序算法的设计50-56
  • 4.1 基于用户行为的研究50-52
  • 4.1.1 搜索日志的构建50-51
  • 4.1.2 搜索日志的组成内容51-52
  • 4.2 基于查询词历史点击率对网页贡献率的排序算法的设计52-54
  • 4.2.1 分解查询词52
  • 4.2.2 计算查询词对网页贡献率52-53
  • 4.2.3 更新历史查询词集合53
  • 4.2.4 基于查询词历史点击率对网页贡献率的排序算法主要工作流程53-54
  • 4.3 基于查询词历史点击率的排序算法计算公式54-55
  • 4.4 本章小结55-56
  • 第5章 企业搜索引擎系统的实现与实验结果分析56-72
  • 5.1 搜索结果评价方法56-57
  • 5.2 实验环境介绍57
  • 5.3 基于Lucene企业搜索引擎系统的设计与实现57-61
  • 5.3.1 中文分词器的实现58
  • 5.3.2 索引管理器实现58-60
  • 5.3.3 检索结果排序60-61
  • 5.4 实验数据收集61-63
  • 5.5 改进的PageRank算法实验及分析63-68
  • 5.5.1 实验方法及步骤63-65
  • 5.5.2 实验结果分析65-68
  • 5.6 基于改进的PageRank和用户点击模型的排序算法分析68-71
  • 5.6.1 实验方法及步骤68-70
  • 5.6.2 实验结果分析70-71
  • 5.7 本章小结71-72
  • 第6章 结论与展望72-75
  • 6.1 本文工作总结72-73
  • 6.2 进一步的研究方向及展望73-75
  • 参考文献75-79
  • 致谢79

【相似文献】

中国期刊全文数据库 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

中国重要会议论文全文数据库 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国重要报纸全文数据库 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

中国博士学位论文全文数据库 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年

2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

3 张W

本文编号:356063


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/356063.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户21216***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com