网络表格扩展技术研究
本文关键词:网络表格扩展技术研究
更多相关文章: 网络表格 列重合 列映射 一致性支持度 Top-k扩展
【摘要】:互联网的快速发展使得网络上的数据量急速增加,几乎每一个被浏览的网页中都包含了信息丰富的HTML表格,称之为网络表格。用户通过搜索引擎查询并获取有用信息时,网络表格相对于文本等数据形式具有更好的结构化特性,可以使人们非常清晰直观地看到自己感兴趣的信息。网络表格扩展是根据已知信息去扩展与主列相关的其他属性列信息,满足用户整合结构化信息的需要。已有的表格扩展查询系统存在一定的局限性:一方面,这些系统主要针对由主列和待扩展列组成的实体-属性二元表进行单列扩展,将该算法用于多个待扩展列的表格时,多个二元表合并而成的结果容易出现实体不一致现象;另一方面,这些系统提供给用户的结果表多数是唯一的,当用户想要根据机器提供的多列扩展结果来检查数据源,辨别或手动修正一些错误信息时,唯一的结果表无法满足用户的筛选需求。针对以上问题,本文对网络表格扩展做了深入研究,具体工作如下:(1)为了避免不一致现象的发生,本文根据列重合度设计列映射算法,实现了基于列重合度的网络表格一致性扩展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法对查询表进行预处理,综合考虑各个属性列间以及各元组行之间的关系,首次提出一致性支持度的概念,并将一致性支持度应用于填值算法。相关实验表明,CCA方法在多列扩展问题上与现有方法相比有更高的精确度、覆盖率和一致性,以及更低的查询时间代价。CCA既能保证候选表的高支持度,又能使结果表中填值所使用的数据源数目最少,有效地避免了实体不一致问题。(2)为了满足用户的筛选需求,本文在CCA方法的基础上改进填值算法,设计并实现了网络表格的Top-k扩展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,实现互斥型和迭代型Top-k扩展算法,根据用户需求迭代给出Top-k个多样化结果供用户筛选和修正。实验表明,TAT很好地实现了 Top-k结果表的展现,各个结果表的可靠性和结果集的多样性均呈现出理想水平。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
中国期刊全文数据库 前10条
1 杨林青;插图与表格的规范化[J];华东电力;2001年04期
2 金颖云;怎样把表格里的行数据转成列数据[J];电脑知识与技术;2002年07期
3 ;善用表格让办公更轻松[J];电脑爱好者;2009年18期
4 金颖云;;怎样把表格里的行数据转成列数据[J];软件;2003年11期
5 陈桂鑫;表格数据 页页心中有数[J];电脑爱好者;2004年24期
6 毛毛虫;;Word表格行数据移动有快招[J];电脑迷;2008年12期
7 阮慧宁;;表格中数据的编辑加工技巧[J];科技与出版;2011年07期
8 徐群;;通用表格生成系统的实现[J];计算机光盘软件与应用;2012年18期
9 张平,黄尚康,潘保昌;一种复杂表格识别和处理方法[J];电子科学学刊;1994年03期
10 梁虹,李天牧;一种通用的表格自动处理系统[J];云南大学学报(自然科学版);1995年01期
中国重要会议论文全文数据库 前6条
1 靳忠;李横;李萌;;ASP.NET中动态表格的实现[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年
2 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 王辉;杨凯;郎士宁;冯少华;王月蓉;;.Net控制Excel自动生成表格的应用研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
4 高景;;“Word计算和排序表格数据”教学设计[A];2012年河北省教师教育学会教学设计主题论坛论文集[C];2012年
5 白慧敏;;基于Moodle平台的《表格数据的图形化》网络教学案例[A];河北省教师教育学会第二届中小学教师教学案例展论文集[C];2013年
6 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前4条
1 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年
2 江苏 罗松林;Word 2000表格中的计算方法[N];中国电脑教育报;2001年
3 本报记者 张智江;中外管理软件大比拼[N];通信信息报;2003年
4 河北 刘勇;Help Me[N];电脑报;2004年
中国博士学位论文全文数据库 前1条
1 史广顺;文档图像中表格结构的自动定位与分析[D];南开大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘华西;基于众包的网络表格语义恢复[D];北京交通大学;2016年
2 曹贞兴;Web表格数据提取与分析系统的设计与实现[D];哈尔滨工业大学;2016年
3 刘岩;网页中实体表格信息抽取方法的研究[D];北京工业大学;2016年
4 张丽方;网络表格的实体列发现方法研究[D];北京交通大学;2017年
5 齐飞;网络表格扩展技术研究[D];北京交通大学;2017年
6 王小凤;表格数据的采集和处理[D];苏州大学;2002年
7 罗静;互联网表格数据的语义恢复[D];北京交通大学;2014年
8 任向冉;网络表格的实体列发现与标识[D];北京交通大学;2015年
9 任红伟;网络表格间的关联关系发现[D];北京交通大学;2015年
10 潘小燕;半结构化文本中的表格信息抽取技术的研究[D];哈尔滨工业大学;2007年
,本文编号:1265947
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1265947.html