当前位置:主页 > 管理论文 > 移动网络论文 >

基于MD5的网页去重算法的设计与研究

发布时间:2018-03-10 01:27

  本文选题:结构化网页 切入点:MD 出处:《实验室研究与探索》2013年12期  论文类型:期刊论文


【摘要】:随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。
[Abstract]:With the development of the Internet and the exponential growth of network information, a large number of repeated web pages appear on the network, which reduces the recall and precision of retrieval, and affects the efficiency of retrieval. The accuracy of web page de-reduplication directly affects the quality of search engine. This paper presents an improved web page de-duplication algorithm based on MD5 by describing the structured text, and describes the algorithm content, algorithm features and algorithm design. Experiments show that this method has a good effect on improving recall and precision.
【作者单位】: 山西大学商务学院;
【基金】:山西省科学技术厅软科学研究项目(2013041049-03) 山西省教育科学规划课题(GH-11178)
【分类号】:TP393.092

【参考文献】

相关期刊论文 前10条

1 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期

2 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期

3 梁叶;梁京章;阳红;叶云;;近似镜像检测算法在文本消重中的应用研究[J];广西大学学报(自然科学版);2010年02期

4 王祖析;;基于网页内容的网页消重高效检测算法研究[J];佳木斯大学学报(自然科学版);2010年01期

5 樊勇;郑家恒;;网页去重方法研究[J];计算机工程与应用;2009年12期

6 魏丽霞;郑家恒;;基于网页文本结构的网页去重[J];计算机应用;2007年11期

7 黄仁;冯胜;杨吉云;刘宇;敖民;;基于正文结构和长句提取的网页去重算法[J];计算机应用研究;2010年07期

8 姚新波;马治坤;;基于特征串的网页去重算法[J];科技信息;2008年28期

9 曹传东;郭理;;一种基于文本抽取的网页正文去重算法[J];科技信息;2009年01期

10 王哲;;基于特征码的网页去重算法研究[J];山东广播电视大学学报;2009年01期

【共引文献】

相关期刊论文 前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 张玉连;王莎莎;宋桂江;;基于元搜索的网页去重算法[J];燕山大学学报;2011年02期

3 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期

4 樊勇;郑家恒;;基于主题的网页去重[J];电脑开发与应用;2008年04期

5 林萍;;提高档案信息利用效率研究[J];福建电脑;2009年05期

6 余海萍;梁征;;B/S结构网络设备运行管理系统的设计与实现[J];广西科学院学报;2007年01期

7 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期

8 梁叶;梁京章;阳红;叶云;;近似镜像检测算法在文本消重中的应用研究[J];广西大学学报(自然科学版);2010年02期

9 沙芸;张国英;孟凡亮;;基于关键词提取的娱乐新闻文档去重算法[J];广西师范大学学报(自然科学版);2007年02期

10 程們森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期

相关博士学位论文 前5条

1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

3 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

4 李卫;领域知识的获取[D];北京邮电大学;2008年

5 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年

相关硕士学位论文 前10条

1 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年

2 贾志凯;海量数据消冗系统的研究与实现[D];西安电子科技大学;2011年

3 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年

4 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年

5 段飞;相似网页识别算法的研究与实现[D];北京邮电大学;2011年

6 聂洋;改进算法的文本去重研究[D];北京邮电大学;2011年

7 田鹤楠;质检总局舆情监控系统中信息抽取的研究[D];北京邮电大学;2011年

8 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年

9 金川明;垂直搜索引擎研究与实现[D];云南大学;2011年

10 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年

【二级参考文献】

相关期刊论文 前10条

1 樊勇;郑家恒;;基于主题的网页去重[J];电脑开发与应用;2008年04期

2 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期

3 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期

4 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期

5 梁京章;李幼红;潘莹;叶云;;P2P资料搜索引擎的研究和设计[J];广西大学学报(自然科学版);2006年04期

6 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期

7 王建会,胡运发,李荣陆;自适应确定摘要长度[J];计算机研究与发展;2004年03期

8 冯是聪,单松巍,龚笔宏,张志刚,李晓明;“天网”目录导航服务研究[J];计算机研究与发展;2004年04期

9 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期

10 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期

相关硕士学位论文 前2条

1 李立燕;中文科技文献自动摘要系统[D];电子科技大学;2006年

2 徐晓哲;基于多Agent的Internet上构件获取技术研究[D];哈尔滨工程大学;2007年

【相似文献】

相关期刊论文 前10条

1 陈志贤,王绍棣;SIP协议中认证注册机制的研究[J];南京邮电学院学报;2003年03期

2 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期

3 付强,帅青红;PGP软件系统[J];西南民族学院学报(自然科学版);2001年04期

4 易红军;佘名高;;MD5算法与数字签名[J];计算机与数字工程;2006年05期

5 陈善利;姚滢;;网页防篡改系统的研究与设计方案[J];科技信息;2010年09期

6 徐静波;陈陶伟;;数字指纹对Web网页的双重保护[J];东华大学学报(自然科学版);2006年01期

7 林永旺,张大江,钱华林;一个基于集中管理的协作式Web缓存系统[J];计算机研究与发展;2001年01期

8 陈琳,李之棠;Web主页的监控与恢复[J];计算机工程与科学;2001年02期

9 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期

10 窦立莉;;MD5技术解析及改进措施[J];科技传播;2010年16期

相关会议论文 前6条

1 胡景浩;;在网站安全性应用中对MD5码的改进[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年

2 樊勇;郑家恒;张虎;;网页去重系统的设计与实现[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

3 袁玉斌;郑利平;;质量保证系统及其安全性设计[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

4 李鹏超;辛阳;钮心忻;;在线抽奖系统的安全保障体系[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

5 宋晔;于秋;张元;潘海军;马文良;;基于Web平台的数据安全传输系统的研究[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

6 崔寅;郑康锋;;OSPF协议安全性分析及改进[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

相关硕士学位论文 前10条

1 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年

2 肖阳;基于角色访问控制的身份认证研究[D];吉林大学;2009年

3 冷静;Intranet信息安全中关键技术的研究与实现[D];武汉理工大学;2005年

4 杨威;基于PKI技术的形象安全电子印章系统的研究[D];南昌大学;2006年

5 陈建辉;认证协议抵御DoS攻击研究及协议改进安全方案的实现[D];南京航空航天大学;2007年

6 曹晓静;基于RSA的一次性口令身份认证系统[D];暨南大学;2006年

7 魏丽霞;基于文本结构的近似镜像网页去重[D];山西大学;2008年

8 叶倩;基于.NET的精品课程动态网站设计与实现[D];西北大学;2009年

9 袁顺;容忍入侵的J2EE应用服务器平台及其关键技术研究[D];解放军信息工程大学;2008年

10 万春艳;DHCP安全系统构架的研究[D];浙江大学;2007年



本文编号:1591175

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1591175.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户722db***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com