近似镜像网页去重方法研究
本文选题:近似镜像网页 + Simhash ; 参考:《东华大学》2017年硕士论文
【摘要】:随着信息技术的飞速发展,互联网上的网页数据呈现出爆炸式的增长态势,大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大阻碍。为了解决搜索中网络上存在大量重复网页的问题,研究人员提出了多种近似镜像网页去重算法,在普通的信息检索过程中取得了较好的去重效果,但是在网页噪声抵抗方面的表现并不令人满意。对于一些实时性高的新闻类网页,这些算法常出现误判,算法的稳定性不高。针对上述问题,尝试了两种基于Simhash的网页去重算法改善网页搜索去重问题。算法一是基于Simhash的长句提取近似镜像网页去重算法,解决算法的噪声敏感问题。目前常用的网页去重算法均包含特征提取环节,存在噪声词汇,影响了网页去重算法的准确率与召回率。对网页噪声分析后发现,噪声文本长度一般都较短,通过把提取的网页文本长句作为特征词的分割范围能够有效规避网页中存在的噪声信息,减弱噪声对于算法的不利影响。算法二是基于Simhash的特殊权重比近似镜像网页去重算法,解决网页去重算法对实时性高的新闻类网页进行去重时常出现误判的问题。由于Simhash算法给予特征词的权重是依据简单的词频统计来操作的,对于同一类别的新闻网页,网页文本常常相似,只在时间与地点上有所不同,这导致Simhash算法提取的特征词与其对应的权重都是相似的,最终造成了结果的误判。基于Simhash的特殊权重考虑了核心词汇因素,对于新闻中的核心词汇赋予其额外的权重比,增强其对于文本指纹值的影响力,使得两个核心词汇相差较大的网页能够被区分出来。最后,结合实际需求,将本文提出的两种算法运用到了自贸区企业动态信息系统中的网页去重模块中,通过实践证明了算法的科学性与有效性。
[Abstract]:With the rapid development of information technology, the data of web pages on the Internet show an explosive growth trend. The existence of a large number of approximate mirror pages has become the biggest obstacle for people to obtain effective information quickly. In order to solve the problem that there are a large number of duplicate web pages in the search network, researchers have proposed a variety of approximate image page de-duplication algorithms, which have achieved better results in the common information retrieval process. However, the performance of the web noise resistance is not satisfactory. For some real-time news pages, these algorithms often appear misjudgment, and the stability of these algorithms is not high. In order to solve the above problems, two kinds of Simhash based web page de-reduplication algorithms are tried to improve the web search de-reduplication problem. The first algorithm is an approximate mirror page de-duplication algorithm based on Simhash to solve the noise-sensitive problem of the algorithm. At present, the commonly used algorithms include feature extraction and noise vocabulary, which affect the accuracy and recall rate of the algorithm. It is found that the length of the noisy text is generally short. By using the extracted long sentence of the web page as the segmentation range of the feature words, the noise information in the web page can be effectively avoided and the adverse effect of the noise on the algorithm can be reduced. The second algorithm is based on the special weight ratio of Simhash, which solves the problem that the reversion of real-time news pages is often caused by misjudgment. Because the weight given by Simhash algorithm to feature words is based on simple word frequency statistics, for the same type of news pages, the text of web pages is often similar, only in time and place. As a result, the feature words extracted by Simhash algorithm are similar to their corresponding weights, and the result is misjudged. The special weight based on Simhash takes into account the factors of core vocabulary, gives it extra weight ratio to the core words in news, enhances its influence on the fingerprint value of text, and makes the web pages with big differences between the two core words can be distinguished. Finally, combined with the actual demand, the two algorithms proposed in this paper are applied to the web page de-reduplication module in the enterprise dynamic information system of the free trade area, and the scientific and effective algorithm is proved by practice.
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
相关会议论文 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
相关重要报纸文章 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
2 毛凯;基于Jsoup的通用网页采集系统的设计与实现[D];电子科技大学;2015年
3 王延江;企业搜索引擎排序技术的研究[D];大连海事大学;2016年
4 石雁;基于查询偏好的个性化搜索引擎的研究与实现[D];江南大学;2016年
5 王一兵;病友系统关键技术应用研究与实现[D];浙江大学;2016年
6 肖悦;基于文本密度和页面结构的网页信息抽取技术研究与实现[D];中国海洋大学;2015年
7 聂英;网页设计中信息传达的人性化探究[D];西北师范大学;2015年
8 陈屹;基于多特征的网页信息抽取技术的研究与应用[D];中国海洋大学;2015年
9 韦永壮;中文新闻重复网页检测研究[D];南京大学;2014年
10 李明冬;基于内存计算的文本聚类算法的研究与实现[D];东南大学;2015年
,本文编号:1956877
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1956877.html