当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的Web页面正文抽取技术的研究

发布时间:2018-07-17 07:51
【摘要】:随着互联网技术的快速发展和网络用户不断增多,网页信息量呈井喷式增长。Web信息抽取现已经成为当前的研究热点之一。当前Web信息是网络用户获取信息的重要来源,由于Web信息的动态变化性,在数量巨大的网络信息库中用户往往无法快速的捕捉网页中的正文信息。如何从巨大的互联网资源库中快速并且准确的对页面中的噪音进行过滤,抽取出网页中对用户有用的信息是当前抽取领域的难题。本文提出的基于Hadoop的Web页面正文抽取方法正是解决上述问题的方法之一。论文研究如何在面对海量规模数据的Web页面的情况下,确保Web页面正文抽取的高效性和准确性。研究内容主要包含两部分:在第一部分中,本文分析现有的基于视觉信息的分块方法,并对原算法的分隔迭代过程进行改进,生成语义较为完整的网页信息块且形成网页视觉块树。在第二部分中,本文充分利用网页块的样式、内容、词频等特征并进行分析,根据重要度进行正文网页块识别。在综合本文研究内容的基础上,分析典型的系统结构特点,设计实现基于Hadoop的Web页面正文抽取系统。对系统进行数据源的测试,实验结果表明本文提出的信息抽取算法有较好地准确率以及较高的性能。该系统良好的解决海量网页的抽取问题。本文提出的基于Hadoop的抽取方法为海量数据模型提供了新的解决思路,分布式计算模型能够较好的解决性能问题。
[Abstract]:With the rapid development of Internet technology and the increasing of network users, Web information extraction has become one of the research hotspots. At present, Web information is an important source for web users to obtain information. Because of the dynamic variation of Web information, users often can not capture the text information in web pages quickly in a large number of network information databases. How to filter the noise quickly and accurately from the huge Internet resource bank and extract the useful information from the web page is a difficult problem in the field of extraction. The method of Web page text extraction based on Hadoop proposed in this paper is one of the methods to solve the above problems. This paper studies how to ensure the efficiency and accuracy of Web page text extraction in the face of massive data. In the first part, this paper analyzes the existing block methods based on visual information, and improves the separated iterative process of the original algorithm. A web page information block with complete semantics is generated and a web page visual block tree is formed. In the second part, we make full use of the style, content, word frequency and other features of the web page block, and analyze it, and identify the text page block according to the importance degree. On the basis of synthesizing the contents of this paper, this paper analyzes the characteristics of typical system structure, and designs and implements a Web page text extraction system based on Hadoop. The experimental results show that the proposed information extraction algorithm has good accuracy and high performance. The system can solve the problem of massive web page extraction. The proposed extraction method based on Hadoop provides a new solution for the massive data model, and the distributed computing model can solve the performance problem better.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.09

【参考文献】

相关期刊论文 前10条

1 王海艳;曹攀;;基于节点属性与正文内容的海量Web信息抽取方法[J];通信学报;2016年10期

2 张义;李治江;;基于高斯词长特征的中文分词方法[J];中文信息学报;2016年05期

3 欧石燕;唐振贵;苏翡斐;;面向信息检索的术语服务构建与应用研究[J];中国图书馆学报;2016年02期

4 孙学波;张大伟;;一种基于分隔条的网页分块算法[J];计算机应用与软件;2014年07期

5 吴秦;胡丽娟;梁久祯;;基于分块重要度和二维条件随机场的Web信息抽取[J];南京大学学报(自然科学);2014年01期

6 汪洋;帅建梅;陈志刚;;基于海量信息过滤的微博热词抽取方法[J];计算机系统应用;2012年11期

7 张云雷;;一种基于信息熵的web信息提取的方法研究[J];科技资讯;2012年22期

8 刘华星;杨庚;;HTML5——下一代Web开发标准研究[J];计算机技术与发展;2011年08期

9 李文立;王乐超;宋春雷;;基于HTML树和模板的文献信息提取方法研究[J];计算机应用研究;2010年12期

10 朱红灿;陈能华;周永红;;计算Web页面信息熵的方法[J];计算机工程与设计;2010年01期

相关硕士学位论文 前7条

1 双哲;基于隐马尔科夫模型在网页信息抽取中的研究与应用[D];华东师范大学;2016年

2 王慧娟;基于Hadoop的Deep Web查询结果自动抽取研究[D];重庆大学;2014年

3 穆琼;基于视觉特征的网页清洗研究与实现[D];北京邮电大学;2014年

4 张奇;基于信息熵的Web信息抽取技术研究[D];广东工业大学;2013年

5 万文宏;基于Nutch的分布式搜索引擎的研究与优化[D];武汉理工大学;2013年

6 胡波;基于视觉语义块的网页正文提取算法研究[D];浙江大学;2013年

7 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年



本文编号:2129673

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2129673.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61303***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com