基于用户习惯的网页排序算法研究
发布时间:2022-01-23 20:36
在当今信息化的时代,互联网已经成为了人们获得信息的重要途径,搜索引擎的普及运用,使得搜索引擎成为了在互联网上进行全文检索的重要工具。根据对用户使用习惯的调查发现,用户通常只会点击搜索引擎返回最前面的几个网页地址,因此对搜索得到的网页进行排序以及排序结果是否能够满足用户的需求变得至关重要。著名的网页排序算法PageRank算法帮助Google成为了世界上最大的商业搜索引擎公司。PageRank算法利用链接型模型对每一个网页的权重值进行迭代计算,很大程度上提高了对网页权重程度计算上的精确度。在学术领域,与PageRank算法同样著名的HITS算法同样在网页排名算法领域占有一席之地。另外,基于词频位置加权排序算法也是一种十分优秀的网页排序算法,是在学术研究中经常会被用到的算法。虽然上述这些著名的网页排序算法对搜索引擎的发展做出了很大的贡献,但它们分别有各自的不足之处。本文提出了基于用户习惯的主题敏感的PageRank算法(BUHP算法)。该算法可有效地解决PageRank算法存在的主题漂移问题,并且可依据不同用户的不同习惯和个性,返回符合该用户习惯的搜索结果,可提高对搜索引擎的满意程度和搜索...
【文章来源】:大连交通大学辽宁省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.3 论文的研究意义和主要内容
第二章 经典网页排序算法分析
2.1 PageRank算法
2.1.1 PageRank算法的基本原理
2.1.2 PageRank算法的优点及缺陷
2.2 超链接分析主题搜索算法(HITS)
2.2.1 算法原理
2.2.2 算法计算公式
2.2.3 算法的优点及缺陷
2.3 对超链接分析主题搜索算法的改进工作
2.3.1 自动资源整合算法(ARC算法)
2.3.2 改进的HITS算法
本章小结
第三章 基于用户习惯算法(BUHP算法)的提出
3.1 BUHP算法提出的背景
3.2 开放目录项目(ODP)主题划分研究
3.3 词频位置的加权网页排序方法(TF-IDF)方法介绍
3.3.1 词频位置的加权网页排序方法(TF-IDF)方法原理
3.3.2 词频位置的加权网页排序方法(TF-IDF)方法的操作步骤
3.4 文本相似度算法研究
3.5 BUHP算法原理
3.6 BUHP算法用户习惯信息的提取
3.7 BUHP算法用户信息的数据化
3.8 BUHP算法公式
本章小结
第四章 实验验证BUHP算法
4.1 实验平台介绍
4.1.1 开源项目介绍
4.1.2 Lucene介绍
4.1.3 Nutch介绍
4.2 实验平台的搭建
4.3 实验数据验证BUHP算法
4.3.1 样本网页数据处理
4.3.2 用户习惯信息处理
4.3.3 BUHP算法计算结果
4.4 实验结果分析及实验结论
本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]改进的非平均传递权值PageRank算法[J]. 王春花,朱俊平. 计算机工程与设计. 2010(10)
[2]PageRank算法中主题漂移的研究[J]. 高琪,张永平. 微计算机信息. 2010(09)
[3]语义相似的PageRank改进算法[J]. 何明,周军,李树友. 计算机工程与应用. 2009(27)
[4]基于主题相似度模型的TS-PageRank算法[J]. 黄德才,戚华春,钱能. 小型微型计算机系统. 2007(03)
[5]基于改进的互信息特征选择的文本分类[J]. 伍建军,康耀红. 计算机应用. 2006(S2)
[6]具有时间反馈的PageRank改进算法[J]. 戚华春,黄德才,郑月锋. 浙江工业大学学报. 2005(03)
[7]加速评估算法:一种提高Web结构挖掘质量的新方法[J]. 张岭,马范援. 计算机研究与发展. 2004(01)
[8]搜索引擎的几种常用排序算法[J]. 常璐,夏祖奇. 图书情报工作. 2003(06)
[9]有序概念格与WWW用户访问模式的增量挖掘[J]. 金阳,左万利. 计算机研究与发展. 2003(05)
[10]对网页PageRank算法的改进[J]. 宋聚平,王永成,尹中航,滕伟. 上海交通大学学报. 2003(03)
博士论文
[1]网页排序中的随机模型及算法[D]. 刘玉婷.北京交通大学 2009
硕士论文
[1]基于Nutch的Web结构挖掘算法研究[D]. 文军舰.天津财经大学 2011
[2]基于Lucene的全文检索系统的研究与应用[D]. 岳莉.西安电子科技大学 2010
[3]中文聚类搜索引擎中主要技术的研究[D]. 陈平.吉林大学 2009
[4]基于Lucene的企业搜索引擎[D]. 王波.北京邮电大学 2009
[5]LUCENE实现的基于RSS的博客搜索引擎[D]. 刘双林.哈尔滨工程大学 2009
[6]专业搜索引擎的排序算法研究[D]. 徐金雷.南京师范大学 2007
[7]基于Nutch的主题爬虫研究与实现[D]. 苏晓珂.昆明理工大学 2007
本文编号:3605107
【文章来源】:大连交通大学辽宁省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 课题研究背景和意义
1.2 国内外研究现状
1.3 论文的研究意义和主要内容
第二章 经典网页排序算法分析
2.1 PageRank算法
2.1.1 PageRank算法的基本原理
2.1.2 PageRank算法的优点及缺陷
2.2 超链接分析主题搜索算法(HITS)
2.2.1 算法原理
2.2.2 算法计算公式
2.2.3 算法的优点及缺陷
2.3 对超链接分析主题搜索算法的改进工作
2.3.1 自动资源整合算法(ARC算法)
2.3.2 改进的HITS算法
本章小结
第三章 基于用户习惯算法(BUHP算法)的提出
3.1 BUHP算法提出的背景
3.2 开放目录项目(ODP)主题划分研究
3.3 词频位置的加权网页排序方法(TF-IDF)方法介绍
3.3.1 词频位置的加权网页排序方法(TF-IDF)方法原理
3.3.2 词频位置的加权网页排序方法(TF-IDF)方法的操作步骤
3.4 文本相似度算法研究
3.5 BUHP算法原理
3.6 BUHP算法用户习惯信息的提取
3.7 BUHP算法用户信息的数据化
3.8 BUHP算法公式
本章小结
第四章 实验验证BUHP算法
4.1 实验平台介绍
4.1.1 开源项目介绍
4.1.2 Lucene介绍
4.1.3 Nutch介绍
4.2 实验平台的搭建
4.3 实验数据验证BUHP算法
4.3.1 样本网页数据处理
4.3.2 用户习惯信息处理
4.3.3 BUHP算法计算结果
4.4 实验结果分析及实验结论
本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文
致谢
【参考文献】:
期刊论文
[1]改进的非平均传递权值PageRank算法[J]. 王春花,朱俊平. 计算机工程与设计. 2010(10)
[2]PageRank算法中主题漂移的研究[J]. 高琪,张永平. 微计算机信息. 2010(09)
[3]语义相似的PageRank改进算法[J]. 何明,周军,李树友. 计算机工程与应用. 2009(27)
[4]基于主题相似度模型的TS-PageRank算法[J]. 黄德才,戚华春,钱能. 小型微型计算机系统. 2007(03)
[5]基于改进的互信息特征选择的文本分类[J]. 伍建军,康耀红. 计算机应用. 2006(S2)
[6]具有时间反馈的PageRank改进算法[J]. 戚华春,黄德才,郑月锋. 浙江工业大学学报. 2005(03)
[7]加速评估算法:一种提高Web结构挖掘质量的新方法[J]. 张岭,马范援. 计算机研究与发展. 2004(01)
[8]搜索引擎的几种常用排序算法[J]. 常璐,夏祖奇. 图书情报工作. 2003(06)
[9]有序概念格与WWW用户访问模式的增量挖掘[J]. 金阳,左万利. 计算机研究与发展. 2003(05)
[10]对网页PageRank算法的改进[J]. 宋聚平,王永成,尹中航,滕伟. 上海交通大学学报. 2003(03)
博士论文
[1]网页排序中的随机模型及算法[D]. 刘玉婷.北京交通大学 2009
硕士论文
[1]基于Nutch的Web结构挖掘算法研究[D]. 文军舰.天津财经大学 2011
[2]基于Lucene的全文检索系统的研究与应用[D]. 岳莉.西安电子科技大学 2010
[3]中文聚类搜索引擎中主要技术的研究[D]. 陈平.吉林大学 2009
[4]基于Lucene的企业搜索引擎[D]. 王波.北京邮电大学 2009
[5]LUCENE实现的基于RSS的博客搜索引擎[D]. 刘双林.哈尔滨工程大学 2009
[6]专业搜索引擎的排序算法研究[D]. 徐金雷.南京师范大学 2007
[7]基于Nutch的主题爬虫研究与实现[D]. 苏晓珂.昆明理工大学 2007
本文编号:3605107
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3605107.html