网页中实体表格信息抽取方法的研究
本文选题:本体生成 切入点:信息提取 出处:《北京工业大学》2016年硕士论文 论文类型:学位论文
【摘要】:随着互联网的迅猛发展,网页的信息量呈指数型增长,逐页浏览信息已经不能满足人们的要求,信息抽取技术应运而生。信息抽取技术使人们不用进一步人工筛选符合自己需求的内容而是直接帮助人们从海量网络数据中获取有价值的信息。网页信息提取技术主要围绕两个方向展开,包装器和结构识别。前者的缺点在于对网页的结构依赖性强,可重用性差,通用性差。本文则是结构识别的一种,该方法对网页中半结构化信息能良好的定位和识别,并且对大多数网页具有通用性,生成的结果能直接应用于本体生成,实用价值高。本文所研究的抽取系统中实现的爬虫是一个增量型的、深度优先爬取的定向爬虫。它通过配置文件来生成爬取任务,一个配置文件对应一个爬取任务。配置文件有特定的格式和配置字段,由人工编辑生成,只需配置大约十多个字段,就可以完成对于特定网站、特定领域、特定主题的内容的定向爬取配置。对网页进行清洗之后,本文针对有TABLE标签的表格提出了基于启发式规则的实体定位算法和基于网页URL归类的实体定位算法。基于标签特征、表格结构特征、表格内容特征本文总结了六条规则,依次通过对六条规则生成字符串,然后采用有穷自动机来识别字符串,最后根据停留在不同的状态判断是否是真表格。为提高定位的准确度,本文提出了URL归类实体定位法,通过对URL的类别分类,能将不含有表格的网页去除。这两种方法的结合使得表格定位具有较高的准确度。同时,本文针对有特殊符号的无TABLE标签的表格制定了启发式规则,针对用标签组织的无TABLE标签的表格提出了基于DOM树和启发式规则相结合的定位方法。在表格结构识别中,本文通过对表格属性名和属性值类型的不同构建了类型树,通过计算单元格之间的类型差异判断出表格的展开方式。同时,本文提出了将表格数字化,通过计算单元格之间长度差异判断出表格的展开方式,将两者判断的结果赋予不同的权值,最终判别出表格为横向展开还是纵向展开。并且本文根据类型差异和结构差异判断出表头所跨越的行数或列数。
[Abstract]:With the rapid development of the Internet, the amount of information on web pages is increasing exponentially. Browsing information page by page can no longer meet the requirements of people. Information extraction technology arises as the times require. Information extraction technology enables people to obtain valuable information directly from massive network data without further manual screening of content that meets their own needs. The technique mainly revolves around two directions. Wrapper and structure recognition. The former has the disadvantages of strong structural dependence, poor reusability and poor versatility. This paper is a kind of structure recognition method, which can locate and recognize the semi-structured information in web pages. The result can be directly applied to ontology generation, which is of high practical value. The crawler implemented in the extraction system studied in this paper is an incremental one. Deep-first crawling oriented crawler. It generates crawling tasks through configuration files, and a configuration file corresponds to a crawling task. The profile has a specific format and configuration field, which is generated by manual editing. With only about a dozen fields configured, you can complete the directed crawling configuration for the content of a particular site, domain, or topic. In this paper, an entity location algorithm based on heuristic rules and an entity location algorithm based on web page URL categorization are proposed for tables with TABLE tags. This paper summarizes six rules based on label features, table structure features and table content features. In order to improve the accuracy of localization, the URL classifying entity localization method is proposed in this paper. The string is generated by six rules in turn, then the finite automata are used to identify the strings. Finally, according to the different states, the paper determines whether the string is true or not. By classifying the URL categories, the web pages without tables can be removed. The combination of these two methods makes the table positioning more accurate. At the same time, this paper formulates heuristic rules for tables without TABLE tags with special symbols. Based on the combination of DOM tree and heuristic rules, this paper proposes a new method to locate tables without TABLE tags organized by tags. In the recognition of table structure, a type tree is constructed by different attribute names and attribute value types. At the same time, this paper proposes to digitize the table and calculate the length difference between cells to determine the expansion mode of the table. The results of the two judgments are given different weights, and finally the table is determined to be horizontal or vertical, and the number of rows or columns crossed by the header is determined according to the type difference and the structure difference.
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 金颖云;怎样把表格里的行数据转成列数据[J];电脑知识与技术;2002年07期
2 ;善用表格让办公更轻松[J];电脑爱好者;2009年18期
3 金颖云;;怎样把表格里的行数据转成列数据[J];软件;2003年11期
4 陈桂鑫;表格数据 页页心中有数[J];电脑爱好者;2004年24期
5 毛毛虫;;Word表格行数据移动有快招[J];电脑迷;2008年12期
6 阮慧宁;;表格中数据的编辑加工技巧[J];科技与出版;2011年07期
7 徐群;;通用表格生成系统的实现[J];计算机光盘软件与应用;2012年18期
8 张平,黄尚康,潘保昌;一种复杂表格识别和处理方法[J];电子科学学刊;1994年03期
9 梁虹,李天牧;一种通用的表格自动处理系统[J];云南大学学报(自然科学版);1995年01期
10 长耳朵;;轻松制表[J];电脑界.应用文萃;2001年02期
相关会议论文 前6条
1 靳忠;李横;李萌;;ASP.NET中动态表格的实现[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年
2 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 王辉;杨凯;郎士宁;冯少华;王月蓉;;.Net控制Excel自动生成表格的应用研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
4 高景;;“Word计算和排序表格数据”教学设计[A];2012年河北省教师教育学会教学设计主题论坛论文集[C];2012年
5 白慧敏;;基于Moodle平台的《表格数据的图形化》网络教学案例[A];河北省教师教育学会第二届中小学教师教学案例展论文集[C];2013年
6 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
相关重要报纸文章 前4条
1 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年
2 江苏 罗松林;Word 2000表格中的计算方法[N];中国电脑教育报;2001年
3 本报记者 张智江;中外管理软件大比拼[N];通信信息报;2003年
4 河北 刘勇;Help Me[N];电脑报;2004年
相关博士学位论文 前1条
1 史广顺;文档图像中表格结构的自动定位与分析[D];南开大学;2003年
相关硕士学位论文 前10条
1 刘华西;基于众包的网络表格语义恢复[D];北京交通大学;2016年
2 曹贞兴;Web表格数据提取与分析系统的设计与实现[D];哈尔滨工业大学;2016年
3 刘岩;网页中实体表格信息抽取方法的研究[D];北京工业大学;2016年
4 王小凤;表格数据的采集和处理[D];苏州大学;2002年
5 罗静;互联网表格数据的语义恢复[D];北京交通大学;2014年
6 任向冉;网络表格的实体列发现与标识[D];北京交通大学;2015年
7 任红伟;网络表格间的关联关系发现[D];北京交通大学;2015年
8 潘小燕;半结构化文本中的表格信息抽取技术的研究[D];哈尔滨工业大学;2007年
9 司明;表格识别的研究[D];西安科技大学;2009年
10 唐皓瑾;一种面向PDF文件的表格数据抽取方法的研究与实现[D];北京邮电大学;2015年
,本文编号:1628573
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1628573.html