基于视觉语义块的网页正文提取算法研究
本文选题:网页正文提取 + DOM树 ; 参考:《浙江大学》2013年硕士论文
【摘要】:随着互联网技术的迅猛发展,以及网络信息的爆炸性增长,网页的数量也开始了急剧增加,人们也越来越习惯于借助搜索引擎这一工具来从浩如烟海的互联网上获取自己所需要的信息。然而,通常情况下一张网页并不仅仅包含了用户所需的正文信息,它还通常还有其他各种非正文信息,如导航栏,广告链接,推荐链接等,这类噪音信息的存在,给搜索引擎的效率和准确率带来了极大地干扰,因此,网页正文提取技术也就成为了搜索引擎领域的一个重大课题。 本文提出了一种基于视觉语义块的网页正文提取算法,该算法摆脱了现有主流正文提取算法对于网页文本的依赖性,而是从用户视觉角度出发,将网页根据语义特征分割为一个个语义块,然后寻找其中面积最大的语义块,再进而寻找与之结构类似的语义块,通过不断循环查找,最后提取出网页的正文信息。一方面,由于该算法并不依赖于网页文本分布密度,在一些噪音信息同样含有大量文本的网页中也能取得很好的效果,而且还能将正文信息中包含的图片、视频等也一并提取出来,因而提高了算法的健壮性;另一方面,该算法在处理DOM树的过程中,并不需要遍历整棵DOM树来查找目标信息,而只需要对DOM树的叶子结点进行处理,从而节省了查找时间,大大提高了正文提取的效率。 本文通过对15个门户网站的300个网页进行了实验分析,其中包含了新闻、博客、论坛、BBS等各类主题性网页。实验结果表明,本文的基于视觉语义块的网页正文提取算法基本可以达到94%以上的提取准确率和召回率。而且由于算法角度的不同,该算法还可以与其他传统基于网页文本的算法相结合,得到更好的效果。
[Abstract]:With the rapid development of Internet technology and the explosive growth of network information, the number of web pages has also increased dramatically. More and more people are used to the search engine to get the information they need from the vast Internet. Usually, however, a web page contains not only the text information that the user needs, but also other non-text information, such as navigation bar, advertising link, recommendation link, etc. It brings great interference to the efficiency and accuracy of search engine. Therefore, the technology of web page text extraction has become an important subject in the field of search engine. In this paper, a text extraction algorithm based on visual semantic block is proposed. This algorithm breaks away from the dependence of existing mainstream text extraction algorithms on web page text, but starts from the perspective of user vision. The web pages are divided into semantic blocks according to their semantic features, and then the semantic blocks with the largest area are found, and then the semantic blocks similar to the semantic blocks are found. Finally, the text information of the web pages is extracted by continuous loop searching. On the one hand, because the algorithm does not depend on the distribution density of the page text, it can also achieve good results in the web pages where some noise information also contains a lot of text, and can also include images in the text information. Video and so on are extracted at the same time, which improves the robustness of the algorithm. On the other hand, the algorithm does not need to traverse the whole DOM tree to find the target information, but only need to deal with the leaf nodes of the DOM tree, in the process of processing the DOM tree, the algorithm does not need to traverse the whole DOM tree to find the target information. Thus, the searching time is saved and the efficiency of text extraction is greatly improved. This paper makes an experimental analysis of 300 web pages of 15 portals, including news, blogs, forums and BBS. The experimental results show that the algorithm based on visual semantic block can achieve more than 94% extraction accuracy and recall rate. Because of the different angles of the algorithm, the algorithm can be combined with other traditional algorithms based on web page text to get better results.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
2 吴麒;陈兴蜀;谭骏;;基于权值优化的网页正文内容提取算法[J];华南理工大学学报(自然科学版);2011年04期
3 李永平,张茂元;基于并行模糊归类的网页信息提取方法研究[J];计算机工程与应用;2003年21期
4 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
5 孟军;刘秋水;王秀坤;;节点频度和语义距离相结合的网页正文信息抽取[J];计算机工程与应用;2009年01期
6 王少康;董科军;阎保平;;使用特征文本密度的网页正文提取[J];计算机工程与应用;2010年20期
7 张瑞雪;宋明秋;公衍磊;;逆序解析DOM树及网页正文信息提取[J];计算机科学;2011年04期
8 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
9 欧阳佳;林丕源;;基于DBSCAN算法的网页正文提取[J];计算机工程;2011年03期
10 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
相关硕士学位论文 前4条
1 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
2 刘斌;基于Web的HTML网页清洗技术的研究与实现[D];华北电力大学(北京);2007年
3 褚锋;基于个性化搜索的网页特征提取相关技术的研究[D];山东科技大学;2009年
4 万晶;Web网页正文抽取方法研究[D];南昌大学;2010年
,本文编号:1963743
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1963743.html