基于网页正文结构树的近似网页去重算法研究
本文选题:网页去重 切入点:正文结构树 出处:《重庆大学》2013年硕士论文 论文类型:学位论文
【摘要】:据美国计算机协会统计,重复网页数量约占网页总量的30%-45%。伴随搜索引擎数量不断增加,用户对搜索引擎体验要求的提高,,搜素质量成为各搜索引擎赢取用户的砝码。搜索引擎若能够及时去除这些重复网页,系统不仅能节省大量存储空间,间接降低设备采购成本,也能提高网络的检索质量和访问效率,提高用户体验满意率。 网页正文内容的特征提取以及大规模相似性比较是网页去重的关键问题。按照传统算法的各自突出特点将其分为三类:基于URL去重算法,仅能根据URL地址去除完全重复网页;基于特征串匹配去重算法,具有较高的准确率,但去重时间消耗高;基于聚类去重算法,具有较高的召回率,对于一些新闻题材或模板类文章准确率较低。 分析转载网页发现,重复网页在内容上可能有变化,但文档格式较少发生改变,即网页正文结构几乎不变。针对此特点,本文提出基于正文结构树的两个去重算法。 通过分析重复网页发现,长句不具有主题代表性。面对网页采集器更改规则,越长的句子表现越脆弱。本文对基于正文结构及长句去重算法进行改进,提出基于正文结构树及关键句的算法。算法中提取包含关键词的句子作为特征句,且特征句的数目由段落长度决定,使得提取的特征句的数目更全面的概括文章内容。实验表明,改进算法去重准确率、召回率都有所提高。 特征项的粒度越小,散列后的特征指纹越不易被干扰。依据此特性,本文提出了基于正文结构树及特征串的去重算法。首先,此算法中提取网页中高频标点所在句子中的首尾汉字作为特征码。其次,利用Bloom Filter算法获取特征指纹。最后,按层次指纹进行相似度判别。实验表明,此算法在召回率方面有大幅度提高,在对小文档去重上表现的尤其明显,且大大降低了去重时间。
[Abstract]:According to the American computer Association, the number of duplicate pages accounts for about 30-45% of the total web pages. With the constant increase in the number of search engines, users' requirements for search engine experience have increased. Search quality becomes a weight for search engines to win users. If search engines can remove these duplicate pages in time, the system can not only save a lot of storage space, but also indirectly reduce the cost of purchasing equipment. It can also improve the retrieval quality and access efficiency of the network, and improve the satisfaction rate of the user experience. The feature extraction and large-scale similarity comparison of the text of the page are the key problems of the webpage removal. According to the outstanding characteristics of the traditional algorithms, they can be divided into three categories: based on the URL algorithm, only the complete duplicate pages can be removed according to the URL address; The algorithm based on feature string matching has higher accuracy rate, but high time consumption; based on clustering de-duplication algorithm, it has a higher recall rate, and low accuracy for some news or template articles. After analyzing the reprinted pages, it is found that there may be changes in the content of the reprinted pages, but the format of the document is seldom changed, that is, the structure of the text is almost unchanged. In view of this feature, this paper proposes two de-reduplication algorithms based on the text structure tree. Through the analysis of repeated web pages, it is found that long sentences are not representative of the subject. The longer the sentence is, the more vulnerable it is to change the rules of the page collector. In this paper, we improve the algorithm based on the text structure and the long sentence de-duplication algorithm. This paper proposes an algorithm based on text structure tree and key sentences, in which sentences containing keywords are extracted as feature sentences, and the number of feature sentences is determined by paragraph length. The experimental results show that the improved algorithm improves the accuracy rate and the recall rate. The smaller the granularity of the feature item, the less easily the feature fingerprint will be disturbed. According to this characteristic, a new algorithm based on text structure tree and feature string is proposed. In this algorithm, the first and last Chinese characters in the sentences with high frequency punctuation are extracted as the signature. Secondly, the Bloom Filter algorithm is used to obtain the feature fingerprint. Finally, the similarity is judged according to the hierarchical fingerprint. The experiment shows that, The algorithm has a significant increase in recall rate, especially for small documents, and greatly reduces the time of de-reduplication.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期
2 郭牧怡;刘萍;谭建龙;郭莉;;基于文件标题特征的网络视频去重研究[J];计算机工程;2010年09期
3 张玉连;王莎莎;宋桂江;;基于元搜索的网页去重算法[J];燕山大学学报;2011年02期
4 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期
5 王鹏;张永奎;张彦;刘睿;;基于新闻网页主题要素的网页去重方法研究[J];计算机工程与应用;2007年28期
6 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
7 夏明伟;施荣华;;电信话单去重技术的研究[J];电脑知识与技术(学术交流);2007年07期
8 张素智;樊得强;;网页去重方法研究及算法设计[J];郑州轻工业学院学报(自然科学版);2010年02期
9 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
10 贺晟;程家兴;王为为;蔡欣宝;;结构化Web数据的自动去重方法[J];计算机应用与软件;2010年12期
相关会议论文 前7条
1 杨喜权;张一鸣;王大勇;;基于特征码的大规模XML文档去重算法研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 王鹏;张永奎;;基于新闻网页主题要素的网页去重方法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 汪启思;;打造学生工作新平台,架设师生互动新时空——基于辅导员个人工作网页建设的新探索[A];福建省高校思想政治教育研究会2008年年会优秀论文专辑(二)[C];2008年
4 徐仙君;王红英;;浙江本科院校体育网页建设现状研究与分析[A];第八届全国体育科学大会论文摘要汇编(二)[C];2007年
5 ;学会信息化建设现状与发展对策调研报告[A];第三届海南省科技论坛论文选编[C];2005年
6 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 周佳庆;李晓燕;陈珂;胡天磊;陈刚;;一种自学习的中文地址判重算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
相关重要报纸文章 前10条
1 通讯员 张广臣;威宁全面推进“万村千乡”网页工程[N];毕节日报;2011年
2 通讯员 张应旭 刘月;纳雍全面启动“万村千乡”网页工程建设[N];毕节日报;2011年
3 尹雄 本报记者 李凯;全省“万村千乡”网页工程建设启动所有乡镇行政村将有自己网页[N];贵州日报;2011年
4 刘一南 特约记者 孙振彪;网页建设要富有特色[N];人民武警;2008年
5 柯林 侯亚君;广元切实推进信息化建设[N];人民公安报·交通安全周刊;2009年
6 陈红娟;市城乡建设规划局全面推行政务公开[N];铜川日报;2007年
7 王洪涛 翟晓敏;永年县电力公司加快信息化建设[N];中国电力报;2006年
8 本报记者 栗中 本报通讯员 俞立进;牢记生命的嘱托[N];忻州日报;2007年
9 暨南大学深圳中旅学院99旅游管理 苏黎;为旅游景区网站把脉[N];中国旅游报;2003年
10 张华;清流实现农村药品“网上监管”[N];医药经济报;2007年
相关硕士学位论文 前10条
1 牙漫;基于网页正文结构树的近似网页去重算法研究[D];重庆大学;2013年
2 李家琪;一种基于信息分布的元搜索结果后处理方法研究[D];北京邮电大学;2008年
3 李明;巴蜀重点中学校园网页文化建设研究[D];西南大学;2010年
4 李贺;移动智能公交系统中违章车辆抓拍算法研究[D];中国海洋大学;2013年
5 丁益斌;相似网页去重算法的并行化研究与实现[D];华中科技大学;2009年
6 刘四维;不同类型数据间的聚类算法[D];复旦大学;2010年
7 覃冰梅;联机汉语拼音书写教学关键技术研究[D];湘潭大学;2012年
8 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
9 张灿;基于多本体的智能搜索引擎模型研究与实现[D];首都师范大学;2013年
10 王莎莎;元搜索引擎结果合成技术的研究[D];燕山大学;2011年
本文编号:1569796
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1569796.html