一种提高中文搜索引擎检索质量的HTML解析方法
发布时间:2018-07-03 02:25
本文选题:计算机应用 + 中文信息处理 ; 参考:《中文信息学报》2003年04期
【摘要】:中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
[Abstract]:Chinese search engines often return a large number of irrelevant items or indirect items without specific information. One of the reasons for this problem is the existence of a large number of topic-independent text in web pages. For search engines using keyword retrieval methods, it is not only necessary to solve these problems in the retrieval or post-processing stage, but also impossible in most cases. In this paper, we put forward the concept of web page noise, and according to the characteristics of Chinese web pages, we implement an HTML parsing method, which can automatically divide and de-noise the web pages. In order to eliminate the potential irrelevant term and indirect term in the preprocessing stage. The experimental results show that the proposed method can eliminate 100% hidden indirect items and about 11% irrelevant items or indirect items which can not be filtered or hidden by Chinese search engine without taking up query time. In order to greatly improve the accuracy of retrieval results.
【作者单位】: 清华大学计算机科学与技术系 清华大学计算机科学与技术系 清华大学计算机科学与技术系 清华大学计算机科学与技术系
【基金】:国家重点基础研究资助项目 (973) (G19980 30 5 0 9) 自然科学基金资助项目 (6 0 2 2 30 0 4 ) 86 3高科技资助项目 (2 0 0 1AA114 0 82 )
【分类号】:TP391.3
【相似文献】
相关期刊论文 前5条
1 刘超,许志宏,杨章远;利用Java 2实现综合Web站点管理系统[J];计算机应用;2001年12期
2 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
3 陈艳梅,张斌;HTML到XML转换技术的研究与实现[J];现代图书情报技术;2003年05期
4 孙先虎,张曦煌;基于LINUX的嵌入式浏览器的特点和实现[J];计算机应用与软件;2004年07期
5 包宇宁;使用Java编程解析HTML文档[J];福建电脑;2004年09期
,本文编号:2091971
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2091971.html