实体一致性扩展技术研究
发布时间:2021-08-23 12:27
近年来,网络表格的研究逐渐得到人们的关注,相对于文本型数据,网络表格可以帮助人们直观地了解自己感兴趣的信息。人们感兴趣的信息往往分散在多个网络表格中,对于给定的实体与待扩展的属性名,实体扩展以网络表格作为数据源,返回每一实体相对应的属性值,该项技术广泛应用于数据集成和搜索引擎中。现有方法假定网络表格为实体-属性二元关系。对于需要扩展多列属性的表格,解决的方法是将这些表格拆分为若干个实体-属性二元关系。在拆分的过程中,表格的语义被割裂,导致单独扩展的二元关系拼接而成的结果表具有实体不一致的问题。同时,现有方法大多返回单一的实体扩展结果,通常不能完全满足用户的需求。对于给定的实体与属性名,本文的研究目标是返回与之相对应top-k个一致的结果表。为了确保结果表的高一致性和精确度,我们提出一致性匹配关系的概念,通过构建覆盖率为γ的一致性团来实现实体一致性扩展。基于构建结果表的答案表之间应该具有一致性匹配关系的事实,我们将网络表格作为结点,一致性匹配关系作为边去构建一致性团。通过扩展查询使得一致性团的覆盖率到达特定的阈值γ。论文证明,将一致性团中的结点作为答案表可以得到一致性的结果表。我们在四组...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1-2网络表格的分类??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的标签。实体扩展是以网络表格为数据源实现数??据集成的一种技术,为了更好的实现实体扩展,我们应当全面的理解网络表格的??特征,包括其自身的特征和HTML中的特征。图2-1是从维基百科[23]中得到的网??络表格的截图,其对应的HTML代码如图2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??图2-2.网络表格的HTML代码??Figure?2-2.?HTML?code?of?web?table??我们不仅仅对网络表格的HTML特征进行了总结
【参考文献】:
期刊论文
[1]数据库领域中的模式及模式匹配[J]. 邢文端. 中国校外教育. 2013(07)
[2]图数据中Top-k属性差异q-clique查询[J]. 孙焕良,卢智,刘俊岭,于戈. 计算机学报. 2012(11)
[3]PageRank算法研究综述[J]. 李稚楹,杨武,谢治军. 计算机科学. 2011(S1)
[4]一种半自动化的复杂语义匹配系统[J]. 符双,周燕川,干露,魏忠,曹奇英. 计算机与数字工程. 2009(03)
硕士论文
[1]网络表格的实体列发现方法研究[D]. 张丽方.北京交通大学 2017
[2]基于众包的网络表格语义恢复[D]. 刘华西.北京交通大学 2016
[3]网络表格的实体列发现与标识[D]. 任向冉.北京交通大学 2015
[4]网络表格间的关联关系发现[D]. 任红伟.北京交通大学 2015
[5]数据库模式发现与匹配方法的研究[D]. 李风举.电子科技大学 2012
[6]数据库模式匹配方法的研究[D]. 孙瑾.山东大学 2009
本文编号:3357865
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1-2网络表格的分类??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的标签。实体扩展是以网络表格为数据源实现数??据集成的一种技术,为了更好的实现实体扩展,我们应当全面的理解网络表格的??特征,包括其自身的特征和HTML中的特征。图2-1是从维基百科[23]中得到的网??络表格的截图,其对应的HTML代码如图2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??图2-2.网络表格的HTML代码??Figure?2-2.?HTML?code?of?web?table??我们不仅仅对网络表格的HTML特征进行了总结
【参考文献】:
期刊论文
[1]数据库领域中的模式及模式匹配[J]. 邢文端. 中国校外教育. 2013(07)
[2]图数据中Top-k属性差异q-clique查询[J]. 孙焕良,卢智,刘俊岭,于戈. 计算机学报. 2012(11)
[3]PageRank算法研究综述[J]. 李稚楹,杨武,谢治军. 计算机科学. 2011(S1)
[4]一种半自动化的复杂语义匹配系统[J]. 符双,周燕川,干露,魏忠,曹奇英. 计算机与数字工程. 2009(03)
硕士论文
[1]网络表格的实体列发现方法研究[D]. 张丽方.北京交通大学 2017
[2]基于众包的网络表格语义恢复[D]. 刘华西.北京交通大学 2016
[3]网络表格的实体列发现与标识[D]. 任向冉.北京交通大学 2015
[4]网络表格间的关联关系发现[D]. 任红伟.北京交通大学 2015
[5]数据库模式发现与匹配方法的研究[D]. 李风举.电子科技大学 2012
[6]数据库模式匹配方法的研究[D]. 孙瑾.山东大学 2009
本文编号:3357865
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3357865.html