基于改进PageRank算法和用户兴趣的个性化搜索研究
本文关键词:基于改进PageRank算法和用户兴趣的个性化搜索研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的迅速发展、互联网上信息量急剧增加,网络已成为人们获取信息的重要途径。用户渴望在膨胀的资源中快速检索出自己想要的信息的愿望,迫使传统搜索引擎向智能化、个性化的方向进行改革。能够感知用户意愿、满足用户个性化需求的个性化搜索引擎将成为未来发展的趋势。因此,本文设计了基于PageRank算法和用户兴趣模型的个性化搜索系统。 首先,针对PageRank排序算法存在的四个问题,从网页相似度、点击量、权威性、时间因子入手对PageRank进行改进。首先,在网页分块的基础上,分析位置标签、锚文本、向量空间模型,综合估计网页间相似度,改善主题漂移;其次,分析点击量和点击量增长速度,评估网页重要性发展趋势;再次,利用站内评价和站内外链接计算网页权威性,影响PR值的传递,并防止网页作弊;最后,借助时间补偿因子,消除对新网页的歧视,使新旧网页获得与其实际价值相符的权值。 其次,基于改进的向量空间模型和显隐式结合的建模方式,分析用户的注册信息、用户收藏夹、历史浏览记录,,构建用户兴趣模型。模型更新采用不定时更新和定时更新两种机制,不定时更新模型是当用户向收藏夹中添加网页时采用的方法,定时更新模型是基于艾宾浩斯遗忘曲线,每隔一段时间就对用户模型内的特征项进行一次更新操作。 最后,分析开源搜索引擎nutch的工作流程,以nutch为基础进行二次开发,在nutch中添加用户兴趣模块,并用改进的PageRank算法替换nutch中原有的排序算法,实现个性化搜索。并利用nutch抓取大量网页,以此作为实验数据,进行相关对比试验。实验结果证明,相较于传统的PageRank,改进后算法的排序结果准确率更高。基于改进PageRank算法和兴趣模型的个性化搜索系统,能更好的满足用户的个性化需求。
【关键词】:PageRank 个性化搜索 相似度 点击量趋势 权威性 时间维 用户兴趣
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 课题研究背景及意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 个性化搜索技术的国内外研究现状11-12
- 1.2.2 排序算法的国内外研究现状12-13
- 1.3 研究内容及组织结构13-16
- 1.3.1 论文研究内容13
- 1.3.2 论文创新点13-14
- 1.3.3 论文组织结构14-16
- 第二章 相关理论与技术研究16-28
- 2.1 搜索引擎16-18
- 2.1.1 搜索引擎工作原理16
- 2.1.2 搜索引擎技术框架16-18
- 2.1.3 个性化搜索18
- 2.2 链接分析算法18-21
- 2.2.1 PAGERANK 算法18-20
- 2.2.2 HITS 算法20-21
- 2.2.3 PAGERANK 算法和 HITS 算法的比较21
- 2.3 检索模型21-24
- 2.3.1 布尔模型22-23
- 2.3.2 向量空间模型 VSM23-24
- 2.3.3 概率检索模型24
- 2.4 分词技术24-25
- 2.5 网页分块技术25-26
- 2.6 本章小结26-28
- 第三章 改进的 PAGERANK 算法28-40
- 3.1 引言28-30
- 3.2 网页分块预处理30-32
- 3.3 相似度32-35
- 3.3.1 相关研究32
- 3.3.2 相似度计算32-35
- 3.4 点击量35-36
- 3.5 权威性36-37
- 3.5.1 站内评价36-37
- 3.5.2 站内外链接37
- 3.6 时间维37-38
- 3.7 整体改进 PAGERANK 算法38
- 3.8 本章小结38-40
- 第四章 用户兴趣模型40-52
- 4.1 引言40
- 4.2 用户兴趣信息的获取40-42
- 4.2.1 显式获取40-41
- 4.2.2 隐式获取41-42
- 4.3 用户建模的方法42
- 4.3.1 显式建模方法42
- 4.3.2 隐式建模方法42
- 4.4 用户兴趣模型框架42-43
- 4.5 用户兴趣模型的建立43-46
- 4.5.1 信息收集43-44
- 4.5.2 网页信息预处理44-45
- 4.5.3 特征词权重计算45
- 4.5.4 生成用户兴趣模型45-46
- 4.6 用户兴趣模型的更新46-49
- 4.6.1 不定时更新模型46-47
- 4.6.2 定时更新模型47-49
- 4.7 用户兴趣模型的使用49-50
- 4.8 本章小结50-52
- 第五章 个性化搜索的设计与实现52-68
- 5.1 实验准备52-55
- 5.1.1 软硬件实验环境52
- 5.1.2 环境部署52-55
- 5.2 系统设计与实现55-63
- 5.2.1 个性化搜索引擎功能需求分析55-57
- 5.2.2 个性化搜索引擎整体设计57-58
- 5.2.3 服务器端设计与实现58-61
- 5.2.4 客户端前端的实现61-63
- 5.3 实验结果及分析63-66
- 5.3.1 测试过程63
- 5.3.2 实验评测标准及搜索效果分析63-66
- 5.4 本章小结66-68
- 第六章 结论68-70
- 6.1 论文总结68-69
- 6.2 论文展望69-70
- 参考文献70-74
- 攻读硕士期间发表的学术论文情况74-76
- 致谢76-77
【相似文献】
中国期刊全文数据库 前10条
1 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
2 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
3 杨彬;康慕宁;;基于概念的权重PageRank改进算法[J];情报杂志;2006年11期
4 张丽;;PageRank算法的改进[J];科学技术与工程;2007年05期
5 孔娟;马亨冰;;PageRank算法的原理与解析[J];福建电脑;2007年01期
6 姜鑫维;赵岳松;;Topic PageRank——一种基于主题的搜索引擎[J];计算机技术与发展;2007年05期
7 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[J];中文信息学报;2007年05期
8 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
9 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
10 李吉平;吴陈;曾庆军;;基于转移概率的PageRank算法研究[J];科学技术与工程;2008年08期
中国重要会议论文全文数据库 前10条
1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中国控制与决策会议论文集(3)[C];2009年
2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 李洋涛;李川;许超;雷晓;徐洪宇;唐常杰;杨宁;;空间评分:基于PageRank的信息网络可视化中节点重要性度量[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全国复杂系统研究论坛论文集(一)[C];2005年
中国硕士学位论文全文数据库 前10条
1 蔡建超;基于PageRank算法的搜索引擎优化研究[D];江南大学;2008年
2 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年
3 王磊;PageRank的算法改进[D];上海交通大学;2009年
4 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
5 姜sバ
本文编号:404901
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/404901.html