当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网页分块的搜索引擎排序算法改进

发布时间:2018-08-09 09:12
【摘要】:目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.
[Abstract]:At present, the search engine uses the whole web page as the minimum processing unit to sort, which is easily disturbed by noise information. Aiming at the existing problems, this paper proposes to purify the web pages by dividing the pages into blocks, and then improves the traditional sorting algorithm by using the purification results. Firstly, VIPS is used to divide the web page into several semantic blocks, and then the semantic blocks with high relevance to the topic in the web pages are preserved by setting rules. Finally, these semantic blocks are used to represent the whole web page to participate in the retrieval. To reduce the influence of web noise on the correctness of search engine sorting algorithm, the retrieval quality is improved. Finally, the superiority of the improved algorithm is proved by experiments.
【作者单位】: 浙江工业大学信息工程学院;浙江工业大学软件学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前2条

1 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期

2 常璐,夏祖奇;搜索引擎的几种常用排序算法[J];图书情报工作;2003年06期

【共引文献】

相关期刊论文 前3条

1 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期

2 文炯;;搜索引擎之竞价排名研究[J];江西图书馆学刊;2006年01期

3 徐金雷;杨晓江;;专业搜索引擎的排序算法研究[J];现代图书情报技术;2006年07期

相关硕士学位论文 前2条

1 雷赫;互联网搜索引擎的传播学解读[D];天津师范大学;2007年

2 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年

【二级参考文献】

相关期刊论文 前1条

1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

【相似文献】

相关期刊论文 前10条

1 袁明轩;张选平;蒋宇;赵仲孟;;一种基于同层网页相似性去除网页噪音的方法[J];计算机工程;2006年23期

2 徐薇;;Web信息采集中页面分块技术的研究[J];武汉科技学院学报;2007年05期

3 李军杰;刘克胜;赵有才;;基于改进kNN算法的网页分类系统设计[J];网络安全技术与应用;2007年11期

4 庞秋奔;顾平;杨小梅;;基于分块重要性模型与Xpath的Web信息抽取的研究[J];计算机与现代化;2009年08期

5 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期

6 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期

7 章勤;余洋;陶文兵;;图像搜索中基于网页分块的图像分类研究[J];计算机工程与科学;2007年06期

8 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期

9 李烯;徐朝军;;基于分块和统计相结合的新闻正文抽取[J];情报理论与实践;2010年01期

10 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期

相关会议论文 前2条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 陈竹敏;马军;韩晓晖;雷景生;;面向主题爬取的多粒度URLs优先级计算方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关硕士学位论文 前8条

1 郭坤银;基于页面分块和链接分析的Web图片检索研究[D];重庆大学;2009年

2 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年

3 高乐;基于网页分块的主题搜索引擎的研究与实现[D];浙江工业大学;2009年

4 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年

5 马晋;基于分块特征抽取的大规模网页分类研究[D];吉林大学;2007年

6 李猛;基于网页块划分的Web文本分类算法研究与实现[D];华中科技大学;2007年

7 葛永兴;基于贝叶斯算法和后向链接的中文网页组合分类研究[D];东北师范大学;2009年

8 吕学良;基于视觉信息的上下文广告关键词提取算法研究[D];浙江大学;2007年



本文编号:2173623

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2173623.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4abad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com