基于网页正文结构和特征串的相似网页去重算法
[Abstract]:In order to reduce the interference of repeated pages to users and improve the efficiency of de-reduplication, a new large-scale de-duplication algorithm is proposed. Firstly, the text structure tree is established by predefined page label value, and the similarity of hierarchical fingerprint is realized. Secondly, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted as the signature; finally, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted. Bloom filter algorithm is used to identify the similarity of the obtained feature fingerprint. Experiments show that the recall rate is increased to more than 90% and the time complexity is reduced to O (n).
【作者单位】: 重庆大学计算机学院;
【分类号】:TP393.092
【参考文献】
相关期刊论文 前4条
1 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
2 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期
3 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期
4 毛晓燕;;搜索引擎用户满意度研究的实证分析——以百度和Google中国为例[J];图书馆杂志;2008年03期
相关硕士学位论文 前2条
1 白广慧;网页排重技术研究及应用[D];中国科学院研究生院(计算技术研究所);2006年
2 李建超;《信息交换用汉字编码字符集·基本集》(GB2312-80)二级汉字理据性研究[D];山东师范大学;2010年
【共引文献】
相关期刊论文 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 樊勇;郑家恒;;基于主题的网页去重[J];电脑开发与应用;2008年04期
3 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
4 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期
5 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
6 梁叶;梁京章;阳红;叶云;;近似镜像检测算法在文本消重中的应用研究[J];广西大学学报(自然科学版);2010年02期
7 程們森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
8 葛晓玢;刘杰;崔健;;基于版权信息的新闻网页去重策略研究[J];电脑知识与技术;2012年26期
9 高殊丽;;基于MapReduce框架的网页并行去重算法研究[J];黑龙江科学;2010年05期
10 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期
相关会议论文 前4条
1 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 俞昊e,
本文编号:2126963
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2126963.html