网页消重技术的研究与实现
本文关键词: 网页消重 字频 分段 编辑距离 特征串 出处:《电子科技大学》2012年硕士论文 论文类型:学位论文
【摘要】:随着Internet的发展及其广泛应用,网络信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了能帮助人们快速找到所需要的信息,于是便有了搜索引擎技术。方便了人们查找信息,节省了时间,已经成为了人们经常使用的一项网络服务。 但是据中国互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,Internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。 本文研究了网页消重的起源、及其发展现状,进行了以下几方面的研究工作: (1)高质量的网页消重都是基于网页正文文本的,本文首先研究了网页的内部结构,提出了基于DOM的网页正文抽取算法,通过将网页分块,聚合,过滤,得到网页的正文文本,将其作为消重的对象。实验证明该算法具有较高的准确率。 (2)设计了一个在线网页消重系统,实现了两种消重算法:摘要消重和全文消重。该系统通过对搜索引擎的检索结果进行消重处理,提高了检索质量。 (3)提出了两种网页消重算法:基于字频特征的消重算法和基于分段特征的消重算法。 (4)基于字频的消重算法抽取网页正文文字的字频作为网页主特征串,同时将字频的附加信息作为网页的辅特征串。算法使用编辑距离树对特征串进行比较,减少了两两比较的次数,与传统算法相比提高了算法效率。 (5)基于分段的消重算法将网页正文分段,提取每段中最长的句子作为其特征串,运用HASH算法进行消重。该算法的准确率较高且效率非常理想。 (6)最后将上述两种算法与基于标点的消重算法从算法效率,准确率,召回率三方面进行了严格的比较,并分析了三种算法的缺陷和优点。
[Abstract]:With the development of Internet and its wide application, the Internet has become an important source for people to obtain information. So there is search engine technology, which makes it convenient for people to find information, saves time, and has become a network service that people often use. However, according to the statistics report of the China Internet Information Center, too many duplicate results are the main problems that users encounter when using search engines. According to statistics, there are about 30% duplicate web pages on the Internet. Most of it is caused by reprinting. The problem of web page duplication has a certain impact on search engine, duplicate pages not only waste storage space, It also increases the processing time of the search engine. Meanwhile, the search results of the search engine contain a lot of duplicate pages, which reduce the search quality, so the web page weightlessness has become an essential work in the search engine. In this paper, the origin and development of web page weightlessness are studied, and the following research work is carried out:. First of all, this paper studies the internal structure of the web page, and puts forward a text extraction algorithm based on DOM. By dividing, aggregating and filtering the web page, the text of the page can be obtained. The experimental results show that the algorithm has high accuracy. 2) an online webpage weight-elimination system is designed, which realizes two weight-elimination algorithms: summary weight-elimination and full-text weight-elimination. The system improves the retrieval quality by eliminating the search results. 3) two algorithms are proposed: one is based on word frequency feature and the other is based on segment feature. 4) the word frequency of the text text is extracted as the main feature string of the web page, and the additional information of the word frequency is taken as the auxiliary feature string of the web page. The algorithm uses the edit distance tree to compare the feature string. The frequency of pairwise comparison is reduced, and the efficiency of the algorithm is improved compared with the traditional algorithm. 5) based on the segmentation algorithm, the text of the web page is segmented, the longest sentence in each segment is extracted as its feature string, and the HASH algorithm is used to eliminate the weight. The algorithm has high accuracy and high efficiency. Finally, the efficiency, accuracy and recall rate of these two algorithms are compared strictly with those based on punctuation. The defects and advantages of the three algorithms are analyzed.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 卢峰;Frontpage 98的网页编辑[J];电脑技术;1999年03期
2 ;Web Painter 3.0功能完整的网页绘图及动画处理软件[J];电子出版;1999年01期
3 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期
4 ;网上先生——教您上网(四) 上网第四站[J];市场与电脑;1999年07期
5 ;站点扫描[J];计算机周刊;1999年17期
6 云起;信息人——你有网页吗[J];计算机周刊;1999年22期
7 李新 ,杨章远 ,许志宏;在网页中实现自定义滚动条[J];电脑编程技巧与维护;1999年10期
8 范建平;;给你的网页安一个门铃[J];软件;2000年06期
9 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期
10 蔡丽萍;大学图书馆网页设计述评[J];山东图书馆季刊;2001年04期
相关会议论文 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
10 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年
相关重要报纸文章 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
9 鸣涧;网页的编辑[N];中国电脑教育报;2002年
10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年
相关博士学位论文 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
3 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 黄小广;港美经济关系研究[D];暨南大学;2008年
6 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
7 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
8 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
相关硕士学位论文 前10条
1 祁琛;网页消重技术的研究与实现[D];电子科技大学;2012年
2 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
3 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
4 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
5 杨硕;社交网页游戏现象研究[D];山东艺术学院;2012年
6 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年
7 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年
8 罗剑;数据挖掘在恶意网页动态检测中的应用研究[D];上海交通大学;2012年
9 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年
10 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
本文编号:1540438
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1540438.html