基于链接关系的Web页面相似度搜索
本文关键词:基于链接关系的Web页面相似度搜索
【摘要】:Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。
【作者单位】: 太原理工大学计算机科学与技术学院;复旦大学计算机科学技术学院;
【关键词】: Web页面网络 相似度搜索 SimRank
【基金】:山西省自然科学基金项目(2012011014-2)
【分类号】:TP393.09;TP391.3
【正文快照】: 0引言Web页面相似度搜索要解决的问题是:根据用户给定Web页面,返回若干最相似的按相似度排序的页面。Web页面相似度搜索对于很多应用研究具有重要价值。比如,在产品推荐系统中,后台根据用户浏览的当前产品页面推荐若干其它相似的页面;在好友推荐系统中,系统根据用户当前比较
【参考文献】
中国期刊全文数据库 前1条
1 杨益凡;朱明;李华虎;;基于链接相似度Web挖掘算法的研究与改进[J];计算机应用与软件;2011年01期
【共引文献】
中国期刊全文数据库 前2条
1 陈永当;王钰鑫;鲍志强;任慧娟;;基于用户访问信息的数据挖掘方法及其算法[J];计算机工程与应用;2012年15期
2 陆海丹;曹春萍;臧劲松;;移动垂直搜索引擎在移动医疗中的应用研究[J];计算机应用与软件;2013年05期
中国硕士学位论文全文数据库 前1条
1 靳黛露;Web页面相似度搜索问题研究[D];太原理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前4条
1 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
3 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
4 战学刚,林鸿飞,姚天顺;Infolite中文检索系统[J];小型微型计算机系统;2000年09期
【相似文献】
中国期刊全文数据库 前10条
1 彭宏,谢嘉孟;联机分析中数据预计算的一种实现方法[J];华南理工大学学报(自然科学版);2000年04期
2 陈圣煜,张有仁,尉欣;数据立方体的预计算方法[J];计算机工程与科学;2005年05期
3 武红江;赵军平;彭勤科;黄永宣;;基于波动特征的时间序列数据挖掘[J];控制与决策;2007年02期
4 张应龙;李翠平;陈红;杜凌霞;;不确定图上的kNN查询处理[J];计算机研究与发展;2011年10期
5 马云龙;林原;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[J];中文信息学报;2011年01期
6 吴晶;赵锐;梅林;;基于SIFT特征的Mean Shift目标标定算法[J];计算机与现代化;2010年12期
7 郝培锋,张玉森,崔建江,吴文彬;冷连轧计算机控制系统设定值计算仿真研究[J];计算机工程与应用;2001年20期
8 李昕;吴福理;陈伟锋;华炜;陈为;;基于快速自适应多路排序的四面体可视化[J];计算机辅助设计与图形学学报;2011年12期
9 刘志;游进国;段培娟;;基于数据仓库的库存分析应用架构[J];江西科学;2011年03期
10 朱雷钧;郭炜;祝永新;;一种基于FPGA的哈希函数加密算法的高速实现[J];信息技术;2008年04期
中国重要会议论文全文数据库 前10条
1 马云龙;林鸿飞;;基于权重标准化SimRank方法的查询扩展技术研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 徐斌;顾宏斌;;一种基于模糊分类的多分类文档查找方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶建锋;秦勇;段富;;一种基于分区路由优化的并行路由计算方法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
4 侯士江;刘国华;余靖;褚兵义;;空间网络数据库中的k个最近邻查询算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
5 张欣;;基于ObjectARX的结构构件设计系统开发[A];第十三届全国工程建设计算机应用学术会议论文集[C];2006年
6 曹雪峰;万刚;李锋;李科;;三维地形仿真场景中实时阴影反走样技术[A];第十届中国科协年会论文集(一)[C];2008年
7 张龙;张钰勃;陈为;何戬;丁子昂;王章野;彭群生;;湿地场景的实时动态模拟[A];中国计算机图形学进展2008--第七届中国计算机图形学大会论文集[C];2008年
8 曹玮;费广正;石民勇;龚健;王阳;;基于辅助骨骼的2D变形算法[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
9 张书娟;董喜双;关毅;;基于电子商务用户行为的同义词识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 李翠平;王珊;;有效的近似数据方体维护算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前8条
1 俞唯仁;普适的结构相似度在大规模网络中的计算优化技术研究[D];东华大学;2012年
2 梅春晖;基于预计算及采样的实时高真实感图像绘制技术研究[D];浙江大学;2004年
3 宋成芳;动态植物场景的建模与仿真研究[D];浙江大学;2007年
4 陈皓;基于光子映射的虚拟现实真实感渲染算法研究[D];合肥工业大学;2008年
5 王薇;分组密码CLEFIA与基于四圈AES的消息认证码的安全性分析[D];山东大学;2009年
6 赵磊;面向复杂对象的实时虚拟展示关键技术研究[D];浙江大学;2009年
7 王锐;复杂场景建模与绘制中的逼近问题研究[D];浙江大学;2007年
8 李胜;大规模室外地形场景加速绘制技术研究[D];中国科学院研究生院(软件研究所);2005年
中国硕士学位论文全文数据库 前10条
1 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
2 孟红梅;基于数据挖掘的中医方剂分析技术研究[D];南京理工大学;2009年
3 靳黛露;Web页面相似度搜索问题研究[D];太原理工大学;2013年
4 宋宇轩;基于搜索日志和点击日志的同义词挖掘的研究和实现[D];北京交通大学;2011年
5 宁鹏飞;基于隐式协同的社会化搜索排序研究[D];哈尔滨工程大学;2013年
6 顾松庠;树相关运动的模拟[D];浙江大学;2003年
7 胡维和;3D游戏引擎中场景绘制及光照渲染技术的研究与实现[D];中南大学;2008年
8 毕宗军;基于功能仿真的RTL功耗分析及优化[D];东南大学;2006年
9 罗迪嘉;面向复杂三维场景实时绘制的高效纹理压缩技术[D];浙江大学;2007年
10 侯士江;空间网络数据库中最近邻查询技术的研究[D];燕山大学;2006年
,本文编号:733820
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/733820.html