当前位置:主页 > 管理论文 > 移动网络论文 >

基于网页正文结构和特征串的相似网页去重算法

发布时间:2018-07-16 16:30
【摘要】:为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
[Abstract]:In order to reduce the interference of repeated pages to users and improve the efficiency of de-reduplication, a new large-scale de-duplication algorithm is proposed. Firstly, the text structure tree is established by predefined page label value, and the similarity of hierarchical fingerprint is realized. Secondly, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted as the signature; finally, the first and last Chinese characters in the sentence of the high-frequency punctuation character in the web page are extracted. Bloom filter algorithm is used to identify the similarity of the obtained feature fingerprint. Experiments show that the recall rate is increased to more than 90% and the time complexity is reduced to O (n).
【作者单位】: 重庆大学计算机学院;
【分类号】:TP393.092

【参考文献】

相关期刊论文 前4条

1 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期

2 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期

3 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期

4 毛晓燕;;搜索引擎用户满意度研究的实证分析——以百度和Google中国为例[J];图书馆杂志;2008年03期

相关硕士学位论文 前2条

1 白广慧;网页排重技术研究及应用[D];中国科学院研究生院(计算技术研究所);2006年

2 李建超;《信息交换用汉字编码字符集·基本集》(GB2312-80)二级汉字理据性研究[D];山东师范大学;2010年

【共引文献】

相关期刊论文 前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 樊勇;郑家恒;;基于主题的网页去重[J];电脑开发与应用;2008年04期

3 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期

4 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期

5 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期

6 梁叶;梁京章;阳红;叶云;;近似镜像检测算法在文本消重中的应用研究[J];广西大学学报(自然科学版);2010年02期

7 程們森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期

8 葛晓玢;刘杰;崔健;;基于版权信息的新闻网页去重策略研究[J];电脑知识与技术;2012年26期

9 高殊丽;;基于MapReduce框架的网页并行去重算法研究[J];黑龙江科学;2010年05期

10 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期

相关会议论文 前4条

1 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

3 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 俞昊e,

本文编号:2126963


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2126963.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d540***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com