基于特征串的网页文本并行去重算法
本文关键词:基于特征串的网页文本并行去重算法
更多相关文章: 搜索引擎 特征串 网页去重 Simhash Map/Reduce
【摘要】:针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.
【作者单位】: 同济大学电子与信息工程学院;
【关键词】: 搜索引擎 特征串 网页去重 Simhash Map/Reduce
【基金】:国家自然科学基金项目(71170148) 国家科技计划课题(2012BAD35B01)
【分类号】:TP391.1;TP393.092
【正文快照】: 1引言搜索引擎在爬取网页阶段,会爬取到大量的冗余网页.冗余网页的产生主要是由于互联网本身存在的一些类似转载的现象,导致爬取的网页存在很多的重复内容,这对数据存储、索引效率以及用户体验都有很大的影响.传统的搜索引擎对于这种现象的处理一般是采用MD5算法,通过对网页正
【共引文献】
中国期刊全文数据库 前10条
1 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
2 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期
3 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
4 程們森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
5 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期
6 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
7 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[J];中国索引;2009年01期
8 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
9 张小娣;宋余庆;;基于网页正文逻辑段落和长句提取的网页去重算法[J];图书情报研究;2012年02期
10 周杨;;基于关键长句及正文长度预分类的网页去重算法研究[J];软件导刊;2012年10期
中国重要会议论文全文数据库 前2条
1 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
2 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
2 李卫;领域知识的获取[D];北京邮电大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 杨品;;一种基于http协议的网络应用特征串提取方法改进[J];信息与电脑(理论版);2014年03期
2 吴昊;程光;;HTTP网络应用特征串的自动提取[J];广西大学学报(自然科学版);2011年S1期
3 于泠,李国建;基于特征串树的病毒特征码匹配算法[J];南京师范大学学报(工程技术版);2003年04期
4 郑晋平,李荣陆;广谱抗病毒技术[J];山西电子技术;1997年03期
5 姚新波;马治坤;;基于特征串的网页去重算法[J];科技信息;2008年28期
6 龙爱兵;请注意 国庆节期间将有病毒发作![J];软件世界;1995年06期
7 熊忠阳;牙漫;张玉芳;;基于网页正文结构和特征串的相似网页去重算法[J];计算机应用;2013年02期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要报纸全文数据库 前1条
1 水手;为IM软件上把锁[N];电脑报;2004年
中国硕士学位论文全文数据库 前2条
1 李雪;大规模特征串匹配技术的研究[D];北京邮电大学;2008年
2 祁琛;网页消重技术的研究与实现[D];电子科技大学;2012年
,本文编号:1108760
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1108760.html