当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网页文本结构的网页去重

发布时间:2018-05-30 13:46

  本文选题:层次指纹 + 文本结构 ; 参考:《计算机应用》2007年11期


【摘要】:搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
[Abstract]:Duplicate pages returned by search engines not only waste storage resources, but also increase the burden of browsing. According to the characteristics of web page repetition and the characteristics of web page text, a dynamic web page de-reduplication method is proposed. In this method, a dynamic feature extraction algorithm and a similarity calculation algorithm for hierarchical fingerprints are implemented by representing the text of a web page as a directory structure tree. Experimental results show that this method can detect both full text and partial duplicate web pages accurately.
【作者单位】: 山西大学计算机与信息技术学院 山西大学计算机与信息技术学院
【基金】:国家自然科学基金资助项目(60473139;60775041) 山西省自然科学基金资助项目(20051034)
【分类号】:TP393.092;TP391.1

【共引文献】

相关期刊论文 前4条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期

3 刘华;;网页信息抽取及建库系统C#实现[J];计算机工程;2006年16期

4 刘华;;超大规模分类语料库构建[J];现代图书情报技术;2006年01期

相关博士学位论文 前3条

1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年

3 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

相关硕士学位论文 前10条

1 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年

2 邱功凯;基于移动主体的网格服务资源搜索引擎关键技术研究[D];华中科技大学;2004年

3 胡蓉;一种基于相关反馈和用户建模的网络搜索个性化服务[D];湘潭大学;2005年

4 郭琛;数字图书馆的中文网页文本分类器研究[D];武汉理工大学;2005年

5 姚永祥;基于XTM的政务知识导航系统的研究与实现[D];大连理工大学;2006年

6 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年

7 李军辉;中文邮件语料库建设[D];苏州大学;2006年

8 朱斐;一种富文本分类方法的研究与实现[D];苏州大学;2006年

9 刘斌;数字图书馆中基于统计的自动文本分类方法研究[D];中国科学院研究生院(计算技术研究所);2002年

10 于歌;搜索引擎中自动分类关键技术研究[D];燕山大学;2006年

【相似文献】

相关会议论文 前8条

1 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年

3 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

6 刘德喜;吴世汉;吴通;;基于随机冲浪模型的XML文摘句子重排[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

7 邓小妮;老松杨;胡晓峰;;超文本系统的功能结构模型[A];第十一届全国数据库学术会议论文集[C];1993年

8 匡海波;陈小荷;;唐诗文本自动分类的算法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

相关博士学位论文 前8条

1 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

2 蒋斌;文本载体信息隐藏及相关技术研究[D];解放军信息工程大学;2008年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

4 龙华;定义问答检索关键技术研究[D];重庆大学;2010年

5 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年

6 翟延冬;基于WordNet的短文本语义网挖掘算法研究[D];吉林大学;2012年

7 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年

8 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

相关硕士学位论文 前10条

1 华秀丽;文本抄袭检测方法研究[D];苏州大学;2012年

2 张文明;文本案例知识库构建的关键技术研究[D];西北大学;2010年

3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年

4 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年

5 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年

6 孙昌年;基于主题模型的文本相似度计算研究与实现[D];安徽大学;2012年

7 姜琪;从文本图解到非文本图解的动画视觉叙事研究[D];华中师范大学;2012年

8 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年

9 曹菲菲;基于内容分析的专利挖掘技术研究[D];东北大学;2008年

10 张大虎;基于主题的文本数据采集系统的研究与实现[D];东北大学;2010年



本文编号:1955512

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1955512.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82acb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com