基于网页相似度的搜索算法改进的研究
本文关键词:基于XML的异构产品信息网上交换、检索技术研究与应用,,由笔耕文化传播整理发布。
《上海师范大学》 2015年
基于网页相似度的搜索算法改进的研究
敖志敏
【摘要】:伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索引擎应运而生。通常评价搜索引擎的性能的标准是用户对搜索引擎的满意度,而用户在使用搜索引擎进行搜索时,一般会优先选择点击排名相对靠前的网页,因此对搜索引擎的搜索结果进行合理的排序会显著提升搜索引擎的用户体验。知名度最高的搜索引擎Google采用的网页排序算法就是Page Rank排序算法。Page Rank算法被广泛应用于度量网页的重要性,但是传统的Page Rank算法在计算过程中忽略了一些可能影响网页重要性的因素,存在多方面的缺陷。本文基于网页相似度对Google著名的Page Rank排序算法进行研究。首先阐述了Page Rank算法的研究背景及意义和国内外关于Page Rank算法的研究现状,介绍了搜索引擎的发展历程、工作方式和评判标准,然后着重剖析了Page Rank算法原理。经典的网页链接分析算法Page Rank将“每个链接代表一个网页作者对所指向的网页的一种独立的认可”作为算法的前提条件,但是传统的Page Rank算法的一个主要缺陷是将一个网页的Page Rank权值平均分配到所有的出链上,并没有考虑网页的语义信息,以此为基础提出一种基于网页相似度的Page Rank算法的改进,通过相似度权重来分配Page Rank权值,相似度包含网页文本相似度和网页链接相似度两部分。由于考虑了出链页面与目标网页的相似度信息,从而不仅提高网页的重要性的准确度,而且使得检索到的排序结果的查准率更高。最后,为了验证改进算法的性能和效率,本文实验部分借助开源搜索引擎Iveely在互联网真实环境中请一些用户进行实验测试。小范围的用户测试结果表明:融入了网页文本相似度和网页链接相似度的改进算法之后,提高了搜索结果的查准率和用户满意度。
【关键词】:
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.092
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前9条
1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
2 庞红美;刘宏志;;基于PageRank算法的信息工程安全监理风险评估研究[J];计算机安全;2014年08期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
5 何明;周军;李树友;;语义相似的PageRank改进算法[J];计算机工程与应用;2009年27期
6 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
7 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
8 黄德才;戚华春;钱能;;基于主题相似度模型的TS-PageRank算法[J];小型微型计算机系统;2007年03期
9 刘双君;金小峰;崔荣一;;基于帧符号化的语音相似性度量方法[J];延边大学学报(自然科学版);2014年01期
中国硕士学位论文全文数据库 前8条
1 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
2 王飞;Web挖掘中超文本分类的研究与实现[D];西北工业大学;2006年
3 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
4 唐剑波;Web文本挖掘中的文本分类研究[D];湖南大学;2007年
5 方旭;基于链接相似度的网页排序算法研究[D];南京理工大学;2008年
6 袁瑞红;基于语义相似度的WEB结构挖掘研究及实现[D];南京理工大学;2009年
7 李稚楹;基于网页内容和时间反馈的网页排序PageRank算法研究[D];重庆理工大学;2012年
8 邓珺;隐藏页面检测系统的研究与实现[D];湖南大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
5 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
6 谢秋华;;Web文本挖掘的相关技术问题探讨[J];长春理工大学学报;2010年07期
7 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
8 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
9 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
10 李淑领;;网络社区中的虚拟身份挖掘[J];沧州师范专科学校学报;2008年03期
中国重要会议论文全文数据库 前5条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 付延强;韩慧健;;HHME:基于形式概念分析的中文FAQ问答系统[A];第八届和谐人机环境联合学术会议(HHME2012)论文集NCMT[C];2012年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
6 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
7 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
8 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
9 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
10 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
4 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
5 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
6 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
7 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
8 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
9 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
10 姜晓伟;粒子群算法在查询优化中的应用[D];哈尔滨理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
2 张雷;顾文红;王晓雪;郑常辉;;高等级公路边坡工程风险因子识别及评估[J];地下空间与工程学报;2007年S1期
3 李超;熊璋;朱成军;;基于距离相关图的音频相似性度量方法[J];北京航空航天大学学报;2006年02期
4 郭力军;朱群雄;;基于RSS数据源的用户兴趣模型改进及应用[J];北京化工大学学报(自然科学版);2011年01期
5 赵全东;王芳;任力生;;农业智能问答系统中的用户偏好研究[J];河北农业大学学报;2011年01期
6 伊雯雯;何福男;;基于用户浏览行为的用户兴趣模型的表示及更新[J];常州信息职业技术学院学报;2010年04期
7 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
8 荆济学;张伟;;浅谈如何利用Google高效搜索[J];电脑知识与技术;2010年19期
9 刘宏志;邓小云;刘宣旭;张斌;毛典辉;;基于可拓集的软件工程安全监理的研究[J];计算机安全;2011年12期
10 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
中国重要会议论文全文数据库 前1条
1 徐志明;宋毅;冯子威;李生;;一种基于分类的用户兴趣模型[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
2 胡毅;搜索引擎优化及其应用研究[D];云南大学;2011年
3 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
4 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
5 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
6 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
7 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
8 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
9 李佳;基于知网的中文本体映射研究[D];北京邮电大学;2007年
10 张真;基于语义相似度的中文文本分类系统的研究与实现[D];大连海事大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;[N];中国气象报;2012年
2 壮壮;[N];电脑报;2004年
3 罗震宇 严小斌;[N];中国冶金报;2011年
4 钱鹏;[N];电脑报;2004年
5 星之海洋;[N];电脑报;2004年
6 河南 张金贵;[N];电脑报;2001年
7 枫尔;[N];中国证券报;2004年
8 飘零剑客;[N];中国电脑教育报;2004年
9 八戒;[N];电脑报;2013年
10 ;[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年
2 吉向文;标签树模板在网页关键信息抽取及话题识别中的应用[D];复旦大学;2009年
3 杨旭兰;色彩在网页设计中的应用研究[D];南京林业大学;2009年
4 贾晓建;基于统计的网页质量评价技术研究与实现[D];哈尔滨工业大学;2008年
5 王璟琦;基于内容单元的网页解析与内容提取[D];哈尔滨工业大学;2008年
6 刘中华;网页设计中信息的视觉传达研究[D];湖北工业大学;2009年
7 文胜;基于网页结构的查询结果聚类[D];华南理工大学;2010年
8 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
9 卫捷;“留白”理念在现代网页设计中的映射[D];河南大学;2011年
10 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
本文关键词:基于XML的异构产品信息网上交换、检索技术研究与应用,由笔耕文化传播整理发布。
本文编号:174477
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/174477.html