Web表格数据提取与分析系统的设计与实现
本文关键词:Web表格数据提取与分析系统的设计与实现
更多相关文章: Web挖掘 表格数据 属性名标注 数据特征 假设检验
【摘要】:数据表格作为网页数据展示的一种形式,开始越来越多的出现在各种领域的web页面中,因其具有简洁的展示方式以及显而易见地描述数据关系的优势而被越来越多的人应用到网页中并成为Web信息抽取中的热点。然而人们往往忽略表格数据自有的不足,通常表头(下文称属性名)决定一切,而现实中,Web上的表格经常出现无属性名或属性名难以理解的情况。因此,在自动分析修复表格的表头信息方面的研究将在Web挖掘、数据理解及决策支持方面提供极大的帮助,同时也将会被越来越多的研究者重视。论文开始讲述了本课题的研究背景、目的、意义及相关领域的研究现状,并对本文的主要研究内容进行了阐述。之后详细描述了本课题的需求分析、系统的总体设计、系统各功能模块的详细设计与实现及系统的功能测试与非功能性测试,最后对本文进行了总结及展望。本文的主要研究内容主要有以下三个方面:Web表格数据提取与存储、表格数据分析和属性名自动标注。Web表格数据提取主要实现了对HTML网页的解析、数据表格的识别和表格内数据的提取存储等功能。表格数据分析主要实现对数据的深度分析,由于不同类型的数据具有不同的特征,因此首先对表格数据进行简单分类,不同类型的数据运用不同的处理方法提取特定的特征。本文以数据的结构特征与统计特征作为研究对象,分别利用正则表达式表示数据的结构特征,利用统计分布均值和方差两个参数表示数据的统计特征,并利用大量训练数据建立“属性名-特征值”特征库。在属性名自动标注的研究中,主要完成对特定数据列匹配属性名。本文针对不同数据特征提出了不同的特征匹配策略并建立匹配模型,对于正则表达式表示的结构特征,运用编辑距离算法进行表达式串相似性比较,同时结合简单字符串匹配提高准确性;对于统计分布参数表示的统计特征则利用假设检验知识中的样本均值的检验方法比较两样本间的差异性。最后对于匹配出的候选属性名进行优化,得到最佳属性名。本文实验环节通过利用实验室现有的大量表格数据建立特征库,利用交叉验证的方式优化匹配模型参数(阀值和检验水平),通过多次迭代试验,证明了综合运用正则表达式、统计分布的策略能够很好的解决数据表格属性名修复问题。
【关键词】:Web挖掘 表格数据 属性名标注 数据特征 假设检验
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-17
- 1.1 课题背景及研究的目的和意义9-10
- 1.2 与本课题有关的国内外研究现状10-14
- 1.2.1 Web信息提取技术的研究10-11
- 1.2.2 表格信息提取方面的研究11-13
- 1.2.3 数据表格分析及标注方面的研究13-14
- 1.2.4 国内外研究现状分析14
- 1.3 本文的主要研究内容14-15
- 1.4 本文组织结构15-17
- 第2章 WEB表格数据提取与分析系统的需求分析与总体设计17-33
- 2.1 WEB表格数据提取与分析系统的业务流程分析17-19
- 2.2 WEB表格数据提取与分析系统的功能需求分析19-24
- 2.2.1 Web表格数据提取的需求分析19-20
- 2.2.2 表格数据分析的需求分析20-21
- 2.2.3 属性名自动标注的需求分析21-24
- 2.3 WEB表格数据提取与分析系统的非功能性需求分析24
- 2.4 WEB表格数据提取与分析系统的环境需求分析24-25
- 2.5 WEB表格数据提取与分析系统的总体设计25-27
- 2.5.1 系统的层次结构设计25-26
- 2.5.2 系统的功能结构设计26-27
- 2.6 关键技术27-32
- 2.7 本章小结32-33
- 第3章 WEB表格数据提取与分析系统的详细设计与实现33-54
- 3.1 WEB表格数据提取模块的设计与实现33-38
- 3.1.1 web表格数据提取模块的结构设计33-34
- 3.1.2 Web表格数据提取模块类图设计34-35
- 3.1.3 Web表格数据提取模块实现过程35-38
- 3.2 数据分析模块的详细设计与实现38-46
- 3.2.1 数据分析模块的结构设计38-39
- 3.2.2 数据分析模块的类图设计39-40
- 3.2.3 数据分析模块的实现过程40-46
- 3.3 属性名自动标注模块的详细设计与实现46-52
- 3.3.1 属性名自动标注模块的结构设计46-47
- 3.3.2 属性名自动标注模块的类图设计47-48
- 3.3.3 属性名自动标注模块的实现过程48-52
- 3.4 本章小结52-54
- 第4章 WEB表格数据提取与分析系统的测试54-65
- 4.1 测试方案54-55
- 4.1.1 测试目标54
- 4.1.2 测试范围54
- 4.1.3 测试环境54-55
- 4.2 功能性测试55-60
- 4.2.1 Web表格数据提取模块测试55-56
- 4.2.2 表格数据分析模块测试56-58
- 4.2.3 属性名自动标注模块测试58-60
- 4.3 非功能性测试60-64
- 4.4 本章小结64-65
- 结论65-66
- 参考文献66-71
- 致谢71-72
- 个人简历72
【相似文献】
中国期刊全文数据库 前10条
1 金颖云;怎样把表格里的行数据转成列数据[J];电脑知识与技术;2002年07期
2 ;善用表格让办公更轻松[J];电脑爱好者;2009年18期
3 金颖云;;怎样把表格里的行数据转成列数据[J];软件;2003年11期
4 陈桂鑫;表格数据 页页心中有数[J];电脑爱好者;2004年24期
5 毛毛虫;;Word表格行数据移动有快招[J];电脑迷;2008年12期
6 阮慧宁;;表格中数据的编辑加工技巧[J];科技与出版;2011年07期
7 徐群;;通用表格生成系统的实现[J];计算机光盘软件与应用;2012年18期
8 张平,黄尚康,潘保昌;一种复杂表格识别和处理方法[J];电子科学学刊;1994年03期
9 梁虹,,李天牧;一种通用的表格自动处理系统[J];云南大学学报(自然科学版);1995年01期
10 长耳朵;;轻松制表[J];电脑界.应用文萃;2001年02期
中国重要会议论文全文数据库 前6条
1 靳忠;李横;李萌;;ASP.NET中动态表格的实现[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年
2 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 王辉;杨凯;郎士宁;冯少华;王月蓉;;.Net控制Excel自动生成表格的应用研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
4 高景;;“Word计算和排序表格数据”教学设计[A];2012年河北省教师教育学会教学设计主题论坛论文集[C];2012年
5 白慧敏;;基于Moodle平台的《表格数据的图形化》网络教学案例[A];河北省教师教育学会第二届中小学教师教学案例展论文集[C];2013年
6 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前4条
1 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年
2 江苏 罗松林;Word 2000表格中的计算方法[N];中国电脑教育报;2001年
3 本报记者 张智江;中外管理软件大比拼[N];通信信息报;2003年
4 河北 刘勇;Help Me[N];电脑报;2004年
中国博士学位论文全文数据库 前1条
1 史广顺;文档图像中表格结构的自动定位与分析[D];南开大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘华西;基于众包的网络表格语义恢复[D];北京交通大学;2016年
2 曹贞兴;Web表格数据提取与分析系统的设计与实现[D];哈尔滨工业大学;2016年
3 王小凤;表格数据的采集和处理[D];苏州大学;2002年
4 罗静;互联网表格数据的语义恢复[D];北京交通大学;2014年
5 任向冉;网络表格的实体列发现与标识[D];北京交通大学;2015年
6 任红伟;网络表格间的关联关系发现[D];北京交通大学;2015年
7 潘小燕;半结构化文本中的表格信息抽取技术的研究[D];哈尔滨工业大学;2007年
8 司明;表格识别的研究[D];西安科技大学;2009年
9 唐皓瑾;一种面向PDF文件的表格数据抽取方法的研究与实现[D];北京邮电大学;2015年
10 张伯;基于PDF文字流的表格识别技术的研究[D];北京工业大学;2010年
本文编号:661017
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/661017.html