网络表格扩展技术研究

发布时间:2017-12-08 10:04

  本文关键词:网络表格扩展技术研究


  更多相关文章: 网络表格 列重合 列映射 一致性支持度 Top-k扩展


【摘要】:互联网的快速发展使得网络上的数据量急速增加,几乎每一个被浏览的网页中都包含了信息丰富的HTML表格,称之为网络表格。用户通过搜索引擎查询并获取有用信息时,网络表格相对于文本等数据形式具有更好的结构化特性,可以使人们非常清晰直观地看到自己感兴趣的信息。网络表格扩展是根据已知信息去扩展与主列相关的其他属性列信息,满足用户整合结构化信息的需要。已有的表格扩展查询系统存在一定的局限性:一方面,这些系统主要针对由主列和待扩展列组成的实体-属性二元表进行单列扩展,将该算法用于多个待扩展列的表格时,多个二元表合并而成的结果容易出现实体不一致现象;另一方面,这些系统提供给用户的结果表多数是唯一的,当用户想要根据机器提供的多列扩展结果来检查数据源,辨别或手动修正一些错误信息时,唯一的结果表无法满足用户的筛选需求。针对以上问题,本文对网络表格扩展做了深入研究,具体工作如下:(1)为了避免不一致现象的发生,本文根据列重合度设计列映射算法,实现了基于列重合度的网络表格一致性扩展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法对查询表进行预处理,综合考虑各个属性列间以及各元组行之间的关系,首次提出一致性支持度的概念,并将一致性支持度应用于填值算法。相关实验表明,CCA方法在多列扩展问题上与现有方法相比有更高的精确度、覆盖率和一致性,以及更低的查询时间代价。CCA既能保证候选表的高支持度,又能使结果表中填值所使用的数据源数目最少,有效地避免了实体不一致问题。(2)为了满足用户的筛选需求,本文在CCA方法的基础上改进填值算法,设计并实现了网络表格的Top-k扩展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,实现互斥型和迭代型Top-k扩展算法,根据用户需求迭代给出Top-k个多样化结果供用户筛选和修正。实验表明,TAT很好地实现了 Top-k结果表的展现,各个结果表的可靠性和结果集的多样性均呈现出理想水平。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

中国期刊全文数据库 前10条

1 杨林青;插图与表格的规范化[J];华东电力;2001年04期

2 金颖云;怎样把表格里的行数据转成列数据[J];电脑知识与技术;2002年07期

3 ;善用表格让办公更轻松[J];电脑爱好者;2009年18期

4 金颖云;;怎样把表格里的行数据转成列数据[J];软件;2003年11期

5 陈桂鑫;表格数据 页页心中有数[J];电脑爱好者;2004年24期

6 毛毛虫;;Word表格行数据移动有快招[J];电脑迷;2008年12期

7 阮慧宁;;表格中数据的编辑加工技巧[J];科技与出版;2011年07期

8 徐群;;通用表格生成系统的实现[J];计算机光盘软件与应用;2012年18期

9 张平,黄尚康,潘保昌;一种复杂表格识别和处理方法[J];电子科学学刊;1994年03期

10 梁虹,李天牧;一种通用的表格自动处理系统[J];云南大学学报(自然科学版);1995年01期

中国重要会议论文全文数据库 前6条

1 靳忠;李横;李萌;;ASP.NET中动态表格的实现[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年

2 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

3 王辉;杨凯;郎士宁;冯少华;王月蓉;;.Net控制Excel自动生成表格的应用研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年

4 高景;;“Word计算和排序表格数据”教学设计[A];2012年河北省教师教育学会教学设计主题论坛论文集[C];2012年

5 白慧敏;;基于Moodle平台的《表格数据的图形化》网络教学案例[A];河北省教师教育学会第二届中小学教师教学案例展论文集[C];2013年

6 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

中国重要报纸全文数据库 前4条

1 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年

2 江苏 罗松林;Word 2000表格中的计算方法[N];中国电脑教育报;2001年

3 本报记者 张智江;中外管理软件大比拼[N];通信信息报;2003年

4 河北 刘勇;Help Me[N];电脑报;2004年

中国博士学位论文全文数据库 前1条

1 史广顺;文档图像中表格结构的自动定位与分析[D];南开大学;2003年

中国硕士学位论文全文数据库 前10条

1 刘华西;基于众包的网络表格语义恢复[D];北京交通大学;2016年

2 曹贞兴;Web表格数据提取与分析系统的设计与实现[D];哈尔滨工业大学;2016年

3 刘岩;网页中实体表格信息抽取方法的研究[D];北京工业大学;2016年

4 张丽方;网络表格的实体列发现方法研究[D];北京交通大学;2017年

5 齐飞;网络表格扩展技术研究[D];北京交通大学;2017年

6 王小凤;表格数据的采集和处理[D];苏州大学;2002年

7 罗静;互联网表格数据的语义恢复[D];北京交通大学;2014年

8 任向冉;网络表格的实体列发现与标识[D];北京交通大学;2015年

9 任红伟;网络表格间的关联关系发现[D];北京交通大学;2015年

10 潘小燕;半结构化文本中的表格信息抽取技术的研究[D];哈尔滨工业大学;2007年



本文编号:1265947

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1265947.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60998***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com