Web实体间关系发现
本文关键词:Web实体间关系发现
【摘要】:随着互联网技术飞跃性的发展,Web上的网站数量和网页数量正以指数级的速度快速增长。Web已经成为一个拥有海量数据,数据类型多样,数据结构各异巨大的数据源。Web数据集成系统通过有效整合来自不同Web数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析应用提供重要的高质量的数据支撑。现有的Web数据集成系统中,仅仅包含了Web实体的基本信息,而实体间的丰富的关联信息没有被充分的挖掘。实体之间丰富的关联信息,和准确的标记,能够更加完善的描述实体间的相互关系,对搜索引擎、智能问答、市场情报分析等系统提供数据支持,使搜索引擎返回的检索数据更加精准,丰富智能问答和市场情报分析等系统的知识库,帮助完善分析和推理的各种结果。然而,目前Web数据集成系统采集的数据主要来源于数据量大、质量相对较高的Deep Web站点,并将它们整合成具有统一模式的结构化数据。在海量的Web数据背景下,Web数据集成系统所提供的数据存在以下局限性:1.Web数据集成系统中的实体之间关联信息缺乏,Web数据集成系统的数据采集于有限的数据源,而且这些数据源大多数都是结构化数据源,使得仅仅通过数据集成系统很难挖掘出来Web实体间有意义的关联信息。2.对于已发现的实体间的关系,现有的关系标记方法往往利用复杂的方法,计算量大,对于一些实时系统而言是无法接受的,进行准确和高效的关系标记也成为Web数据集成系统中完善实体间信息的一个重要问题。本文以挖掘Web数据集成系统中实体关系信息、提供实体全面而丰富的信息为目标,针对Web数据集成系统中实体关系发现以及实体关系标注问题展开研究,主要贡献如下:1.本文提出一种基于聚类和向量属性消减的实体语义关系发现算法。该方法在保证语义关系发现准确率的前提下,发现实体间同时存在的多重关系。该方法使用搜索引擎获得到的外部文档以及Web数据集成系统中实体信息,为实体间关系构造特征向量,通过一次聚类过程以及一次向量属性消减过程,发现实体间的关系,在向量属性消减过程中,该方法发现实体间的多重语义关系。2.本文提出一种基于集成学习对实体关系进行标记的方法。该方法通过提高Web数据集成系统中两实体关系相似性判定的准确率,来对实体关系进行标注。同时,该方法减小了相似性计算的花费,对实体显式关系进行标注。该方法将四种实体关系相似性判定方法使用集成学习的方法进行集成,特别的对于SVM方法,该方法对其在计算方面进行优化,使得不用为每个实体对之间的关系训练一个特殊的SVM,而是选取Web数据集成系统中用户最为关注的多个关系作为候选,在这些关系中对实体关系进行匹配,进而计算实体关系间的相似性。通过实体关系之间的相似性,对实体关系进行标记。实验结果表明,该方法提高了实体关系间的相似性判定准确率,进而提高了关系标注的准确率,同时能够很好地降低相似性判定的计算花费。3.本文提出了一种基于两阶段聚类的实体隐式关系挖掘算法。该算法使用搜索引擎返回的结果文档,挖掘并标记Web数据集成系统中相关实体之间的语义关系。该方法使用大量的外部文档,从文档中抽取与目标实体的相关实体以及相关上下文,为实体关系构造关系向量,通过关系向量的一次聚类,该方法获得与目标实体有相同关系的实体簇。通过对实体簇的第二次聚类,该方法获得拥有相似关系的簇集合,进而对这些簇集合进行标记。实验结果表明,该方法在保证准确率的前提下,较大的提高了结果的召回率与F值。
【关键词】:实体关系 关系相似性 隐式关系
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.09;TP391.1
【目录】:
- 摘要8-10
- ABSTRACT10-12
- 第一章 绪论12-17
- 1.1 研究背景及意义12-13
- 1.2 面临的问题13-14
- 1.3 主要工作14-15
- 1.4 论文结构15-17
- 第二章 相关研究17-22
- 2.1 引言17
- 2.2 Web实体及实体关系17-18
- 2.3 实体关系发现18-20
- 2.4 小结20-22
- 第三章 Web实体间显式语义关系发现22-32
- 3.1 引言22-23
- 3.2 问题定义23-24
- 3.3 方法思路24
- 3.4 基于聚类和向量属性消减的实体间多语义关系发现24-28
- 3.4.1 关系向量聚类25-26
- 3.4.2 向量属性消减26-28
- 3.5 实验评价28-30
- 3.6 小结30-32
- 第四章 实体显式语义关系标注32-42
- 4.1 引言32-33
- 4.2 问题定义33-35
- 4.3 方法思路35-36
- 4.4 基于集成学习的显式关系标记36-39
- 4.4.1 欧氏距离与余弦距离36
- 4.4.2 马氏距离36-37
- 4.4.3 SVM37-38
- 4.4.4 FCombine38-39
- 4.5 实验评价39-41
- 4.6 小结41-42
- 第五章 Web实体间隐式关系的发现与标记42-52
- 5.1 引言42-43
- 5.2 问题定义43-44
- 5.3 基于两阶段聚类的实体间隐式关系发现与标记44-48
- 5.3.1 第一阶段聚类:关系发现45-46
- 5.3.2 第二阶段聚类:关系标记46-48
- 5.4 实验评价48-51
- 5.5 小结51-52
- 第六章 总结与展望52-54
- 6.1 总结52-53
- 6.2 展望53-54
- 参考文献54-60
- 致谢60-61
- 攻读学位期间发表的学术论文目录61-62
- 学位论文评阅及答辩情况表62
【相似文献】
中国期刊全文数据库 前10条
1 钟昕;伏玉琛;;书籍搜索领域Deep Web数据集成系统[J];计算机技术与发展;2008年09期
2 谢兴生;张一鸣;余银;庄镇泉;;一种支持智能匹配检索的数据集成系统设计[J];模式识别与人工智能;2009年01期
3 肖瑞;张威;;基于云计算的数字化校园数据集成系统研究[J];中国科技信息;2013年22期
4 刘敏超;刘卫东;;数据集成系统关键问题研究[J];计算机应用;2006年07期
5 时俊苓;叶丹;;面向业务的数据集成系统设计与实现[J];计算机系统应用;2010年02期
6 王坛;;出版社书目数据集成系统的设计与实现[J];南阳师范学院学报;2010年12期
7 郭忠文;尚传进;管恩花;;面向服务构架的海洋数据集成系统的设计与实现[J];计算机应用研究;2006年02期
8 张仕;赖会霞;;基于轻映射的数据集成系统[J];计算机与数字工程;2009年09期
9 谢委员;叶枫;;医院区域医疗数据集成系统研究[J];现代物业(中旬刊);2010年06期
10 王硕;靳熙芳;;北海区海洋环境监测多源数据集成系统研究[J];科技信息;2010年29期
中国重要会议论文全文数据库 前5条
1 ;生产调度数据集成系统[A];中国黄金协会科学技术奖表彰会暨新技术、新设备推广会议材料[C];2004年
2 谢丽聪;白清源;余建家;;数据集成系统的三层体系结构及查询改写算法的改进[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 张硕;李建中;熊蜀光;王春宇;;一种基于XML的Web数据集成系统查询分解和优化策略[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前3条
1 ;BI困则思变[N];网络世界;2007年
2 《网络世界》记者 于翔;大数据高调唱响[N];网络世界;2012年
3 哈尔滨工业大学 王宏志;借XML高效管理数据之道[N];中国计算机报;2007年
中国博士学位论文全文数据库 前3条
1 陈彤兵;LAV数据集成系统的查询处理[D];复旦大学;2005年
2 梅从立;过程工业数据显著误差检测技术研究[D];浙江大学;2007年
3 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年
中国硕士学位论文全文数据库 前10条
1 林建昌;电力行业分布式ETL数据集成系统研究与实现[D];电子科技大学;2015年
2 庞志强;基于相似连接的大数据集成系统的设计与实现[D];东北大学;2014年
3 赵珂;Web实体间关系发现[D];山东大学;2016年
4 姚源;地月日大系统研究中数据集成系统的构建和应用研究[D];中国航天第二研究院;2008年
5 郭军;Deep Web数据集成系统的设计与应用研究[D];西安电子科技大学;2011年
6 何岭嘉;数据集成系统中通信平台的研究与实现[D];暨南大学;2008年
7 李晶;基于产品生命周期的中小型企业数据集成系统的研究[D];合肥工业大学;2006年
8 张雷;社保数据集成系统的研究与应用[D];湖南大学;2006年
9 刘凯;远程教育评估系统中数据集成技术研究[D];西安电子科技大学;2006年
10 方成;托管银行数据集成系统的设计与实现[D];大连理工大学;2013年
,本文编号:654394
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/654394.html