当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于改进PageRank算法和用户兴趣的个性化搜索研究

发布时间:2017-05-29 13:02

  本文关键词:基于改进PageRank算法和用户兴趣的个性化搜索研究,由笔耕文化传播整理发布。


【摘要】:随着互联网技术的迅速发展、互联网上信息量急剧增加,网络已成为人们获取信息的重要途径。用户渴望在膨胀的资源中快速检索出自己想要的信息的愿望,迫使传统搜索引擎向智能化、个性化的方向进行改革。能够感知用户意愿、满足用户个性化需求的个性化搜索引擎将成为未来发展的趋势。因此,本文设计了基于PageRank算法和用户兴趣模型的个性化搜索系统。 首先,针对PageRank排序算法存在的四个问题,从网页相似度、点击量、权威性、时间因子入手对PageRank进行改进。首先,在网页分块的基础上,分析位置标签、锚文本、向量空间模型,综合估计网页间相似度,改善主题漂移;其次,分析点击量和点击量增长速度,评估网页重要性发展趋势;再次,利用站内评价和站内外链接计算网页权威性,影响PR值的传递,并防止网页作弊;最后,借助时间补偿因子,消除对新网页的歧视,使新旧网页获得与其实际价值相符的权值。 其次,基于改进的向量空间模型和显隐式结合的建模方式,分析用户的注册信息、用户收藏夹、历史浏览记录,,构建用户兴趣模型。模型更新采用不定时更新和定时更新两种机制,不定时更新模型是当用户向收藏夹中添加网页时采用的方法,定时更新模型是基于艾宾浩斯遗忘曲线,每隔一段时间就对用户模型内的特征项进行一次更新操作。 最后,分析开源搜索引擎nutch的工作流程,以nutch为基础进行二次开发,在nutch中添加用户兴趣模块,并用改进的PageRank算法替换nutch中原有的排序算法,实现个性化搜索。并利用nutch抓取大量网页,以此作为实验数据,进行相关对比试验。实验结果证明,相较于传统的PageRank,改进后算法的排序结果准确率更高。基于改进PageRank算法和兴趣模型的个性化搜索系统,能更好的满足用户的个性化需求。
【关键词】:PageRank 个性化搜索 相似度 点击量趋势 权威性 时间维 用户兴趣
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-16
  • 1.1 课题研究背景及意义10-11
  • 1.2 国内外研究现状11-13
  • 1.2.1 个性化搜索技术的国内外研究现状11-12
  • 1.2.2 排序算法的国内外研究现状12-13
  • 1.3 研究内容及组织结构13-16
  • 1.3.1 论文研究内容13
  • 1.3.2 论文创新点13-14
  • 1.3.3 论文组织结构14-16
  • 第二章 相关理论与技术研究16-28
  • 2.1 搜索引擎16-18
  • 2.1.1 搜索引擎工作原理16
  • 2.1.2 搜索引擎技术框架16-18
  • 2.1.3 个性化搜索18
  • 2.2 链接分析算法18-21
  • 2.2.1 PAGERANK 算法18-20
  • 2.2.2 HITS 算法20-21
  • 2.2.3 PAGERANK 算法和 HITS 算法的比较21
  • 2.3 检索模型21-24
  • 2.3.1 布尔模型22-23
  • 2.3.2 向量空间模型 VSM23-24
  • 2.3.3 概率检索模型24
  • 2.4 分词技术24-25
  • 2.5 网页分块技术25-26
  • 2.6 本章小结26-28
  • 第三章 改进的 PAGERANK 算法28-40
  • 3.1 引言28-30
  • 3.2 网页分块预处理30-32
  • 3.3 相似度32-35
  • 3.3.1 相关研究32
  • 3.3.2 相似度计算32-35
  • 3.4 点击量35-36
  • 3.5 权威性36-37
  • 3.5.1 站内评价36-37
  • 3.5.2 站内外链接37
  • 3.6 时间维37-38
  • 3.7 整体改进 PAGERANK 算法38
  • 3.8 本章小结38-40
  • 第四章 用户兴趣模型40-52
  • 4.1 引言40
  • 4.2 用户兴趣信息的获取40-42
  • 4.2.1 显式获取40-41
  • 4.2.2 隐式获取41-42
  • 4.3 用户建模的方法42
  • 4.3.1 显式建模方法42
  • 4.3.2 隐式建模方法42
  • 4.4 用户兴趣模型框架42-43
  • 4.5 用户兴趣模型的建立43-46
  • 4.5.1 信息收集43-44
  • 4.5.2 网页信息预处理44-45
  • 4.5.3 特征词权重计算45
  • 4.5.4 生成用户兴趣模型45-46
  • 4.6 用户兴趣模型的更新46-49
  • 4.6.1 不定时更新模型46-47
  • 4.6.2 定时更新模型47-49
  • 4.7 用户兴趣模型的使用49-50
  • 4.8 本章小结50-52
  • 第五章 个性化搜索的设计与实现52-68
  • 5.1 实验准备52-55
  • 5.1.1 软硬件实验环境52
  • 5.1.2 环境部署52-55
  • 5.2 系统设计与实现55-63
  • 5.2.1 个性化搜索引擎功能需求分析55-57
  • 5.2.2 个性化搜索引擎整体设计57-58
  • 5.2.3 服务器端设计与实现58-61
  • 5.2.4 客户端前端的实现61-63
  • 5.3 实验结果及分析63-66
  • 5.3.1 测试过程63
  • 5.3.2 实验评测标准及搜索效果分析63-66
  • 5.4 本章小结66-68
  • 第六章 结论68-70
  • 6.1 论文总结68-69
  • 6.2 论文展望69-70
  • 参考文献70-74
  • 攻读硕士期间发表的学术论文情况74-76
  • 致谢76-77

【相似文献】

中国期刊全文数据库 前10条

1 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期

2 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期

3 杨彬;康慕宁;;基于概念的权重PageRank改进算法[J];情报杂志;2006年11期

4 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期

5 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期

6 姜鑫维;赵岳松;;Topic PageRank——一种基于主题的搜索引擎[J];计算机技术与发展;2007年05期

7 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[J];中文信息学报;2007年05期

8 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期

9 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期

10 李吉平;吴陈;曾庆军;;基于转移概率的PageRank算法研究[J];科学技术与工程;2008年08期

中国重要会议论文全文数据库 前10条

1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年

2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年

4 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

6 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年

7 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全国复杂系统研究论坛论文集(一)[C];2005年

中国硕士学位论文全文数据库 前10条

1 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年

2 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年

3 王磊;PageRank的算法改进[D];上海交通大学;2009年

4 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年

5 姜sバ

本文编号:404901


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/404901.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e774e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com