基于Hadoop的Web页面正文抽取技术的研究
[Abstract]:With the rapid development of Internet technology and the increasing of network users, Web information extraction has become one of the research hotspots. At present, Web information is an important source for web users to obtain information. Because of the dynamic variation of Web information, users often can not capture the text information in web pages quickly in a large number of network information databases. How to filter the noise quickly and accurately from the huge Internet resource bank and extract the useful information from the web page is a difficult problem in the field of extraction. The method of Web page text extraction based on Hadoop proposed in this paper is one of the methods to solve the above problems. This paper studies how to ensure the efficiency and accuracy of Web page text extraction in the face of massive data. In the first part, this paper analyzes the existing block methods based on visual information, and improves the separated iterative process of the original algorithm. A web page information block with complete semantics is generated and a web page visual block tree is formed. In the second part, we make full use of the style, content, word frequency and other features of the web page block, and analyze it, and identify the text page block according to the importance degree. On the basis of synthesizing the contents of this paper, this paper analyzes the characteristics of typical system structure, and designs and implements a Web page text extraction system based on Hadoop. The experimental results show that the proposed information extraction algorithm has good accuracy and high performance. The system can solve the problem of massive web page extraction. The proposed extraction method based on Hadoop provides a new solution for the massive data model, and the distributed computing model can solve the performance problem better.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.09
【参考文献】
相关期刊论文 前10条
1 王海艳;曹攀;;基于节点属性与正文内容的海量Web信息抽取方法[J];通信学报;2016年10期
2 张义;李治江;;基于高斯词长特征的中文分词方法[J];中文信息学报;2016年05期
3 欧石燕;唐振贵;苏翡斐;;面向信息检索的术语服务构建与应用研究[J];中国图书馆学报;2016年02期
4 孙学波;张大伟;;一种基于分隔条的网页分块算法[J];计算机应用与软件;2014年07期
5 吴秦;胡丽娟;梁久祯;;基于分块重要度和二维条件随机场的Web信息抽取[J];南京大学学报(自然科学);2014年01期
6 汪洋;帅建梅;陈志刚;;基于海量信息过滤的微博热词抽取方法[J];计算机系统应用;2012年11期
7 张云雷;;一种基于信息熵的web信息提取的方法研究[J];科技资讯;2012年22期
8 刘华星;杨庚;;HTML5——下一代Web开发标准研究[J];计算机技术与发展;2011年08期
9 李文立;王乐超;宋春雷;;基于HTML树和模板的文献信息提取方法研究[J];计算机应用研究;2010年12期
10 朱红灿;陈能华;周永红;;计算Web页面信息熵的方法[J];计算机工程与设计;2010年01期
相关硕士学位论文 前7条
1 双哲;基于隐马尔科夫模型在网页信息抽取中的研究与应用[D];华东师范大学;2016年
2 王慧娟;基于Hadoop的Deep Web查询结果自动抽取研究[D];重庆大学;2014年
3 穆琼;基于视觉特征的网页清洗研究与实现[D];北京邮电大学;2014年
4 张奇;基于信息熵的Web信息抽取技术研究[D];广东工业大学;2013年
5 万文宏;基于Nutch的分布式搜索引擎的研究与优化[D];武汉理工大学;2013年
6 胡波;基于视觉语义块的网页正文提取算法研究[D];浙江大学;2013年
7 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
,本文编号:2129673
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2129673.html