《计算机研究与发展》2014年10期
本文关键词:搜索引擎索引网页集合选取方法研究,由笔耕文化传播整理发布。
《计算机研究与发展》 2014年10期
投稿
搜索引擎索引网页集合选取方法研究
【摘要】:随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.
【作者单位】:
智能技术与系统国家重点实验室(清华大学);清华信息科学与技术国家实验室(筹);清华大学计算机科学与技术系;北京搜狗科技发展有限公司;
【关键词】:
【基金】:
国家自然科学基金项目(60903107,61073071)
【分类号】:TP391.3
【正文快照】:
随着互联网的快速发展,网页数量爆炸式增长.然而作为提供网页搜索服务的搜索引擎则面临着巨大的挑战.一方面,搜索引擎的索引能力有限,很难应对每天快速增长的新网页;另一方面,网页中存在大量的内容相同或相似的网页,同时索引这些网页对于检索结果并没有太大的意义,而且大量存
下载全文 更多同类文献
PDF全文下载
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式,,AdobeReader仅支持PDF格式
【相似文献】
中国期刊全文数据库 前10条
1 郭庆琳,樊孝忠;[J];现代电力;2004年04期
2 马玉春,宋瀚涛;[J];计算机工程与应用;2004年30期
3 郭庆琳,樊孝忠,柳长安;[J];北京理工大学学报;2005年08期
4 郭庆琳;樊孝忠;柳长安;;[J];计算机工程;2006年04期
5 马辉民;李卫华;吴良元;;[J];武汉理工大学学报(信息与管理工程版);2006年04期
6 张刚;周昭涛;王斌;;[J];计算机工程;2006年12期
7 曲皎;李白桦;;[J];辽宁师范大学学报(自然科学版);2008年01期
8 巩知乐;张德贤;;[J];福建电脑;2008年09期
9 姚清耘;刘功申;李翔;;[J];计算机工程;2008年18期
10 李华云;;[J];科技情报开发与经济;2008年27期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张刚;周昭涛;王斌;;[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 罗娜;左万利;袁福宇;张靖波;张慧杰;;[A];全国语域web与本体能研讨会论文集[C];2006年
6 颜端武;李晓鹏;王磊;成晓;;[A];全国语域web与本体能研讨会论文集[C];2006年
7 白刚;张铮;丁宗尧;朱毅;;[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 邱立坤;程葳;龙志祎;孙娇华;;[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 彭怡;;[A];现代工业工程与管理研讨会会议论文集[C];2006年
10 朱强生;田英;周延泉;何华灿;;[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 王培森;[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;[D];哈尔滨工程大学;2010年
2 孟宪军;[D];哈尔滨工业大学;2009年
3 郝立丽;[D];吉林大学;2009年
4 倪兴良;[D];中国科学技术大学;2011年
5 刘向威;[D];天津大学;2005年
6 胡佳妮;[D];北京邮电大学;2008年
7 高茂庭;[D];天津大学;2007年
8 王乐;[D];国防科学技术大学;2008年
9 戈鹏;[D];四川大学;2003年
10 熊云波;[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 何晏成;[D];哈尔滨工业大学;2010年
2 张金;[D];东北师范大学;2010年
3 李梅;[D];安徽大学;2010年
4 王飞;[D];河南工业大学;2010年
5 赵颖;[D];西华大学;2011年
6 谷波;[D];山西大学;2004年
7 刘延亮;[D];大连理工大学;2006年
8 胡海龙;[D];吉林大学;2008年
9 张猛;[D];东北大学;2005年
10 朱红灿;[D];湘潭大学;2005年
本文关键词:搜索引擎索引网页集合选取方法研究,由笔耕文化传播整理发布。
本文编号:62966
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/62966.html