基于异构开放数据源的实体匹配

发布时间:2017-12-14 21:37

  本文关键词:基于异构开放数据源的实体匹配


  更多相关文章: 异构数据 实体匹配 用户匹配 概率模型 指数族


【摘要】:随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行为、偏好和需求,从而缓解当前我国宏观经济中供需双方间的矛盾。然而,当前互联网平台上的数据呈现出碎片化特征,具体表现出零散、多重、低质、异构和相依等特征。因此,唯有匹配、关联和拼接碎片化的数据才能真正体现互联网平台作为"社会传感器"的作用,这正是本文开展实体匹配研究的动因。实体匹配作为数据管理、信息检索、机器学习等多个领域的关键问题,其早期的研究工作甚至可以追溯到上世纪40年代。经过大半个世纪的发展,实体匹配技术已被广泛应用于诸如数据集成、知识获取和用户画像等领域。由于Web2.0时代数据的碎片化特征,致使实体匹配成为一项非常具有挑战的任务,因此它依然是近年来学术界和工业界的研究热点。本文针对互联网开放数据呈现出的零散、多重、低质、异构和相依等特征,提出了:(1)基于社交网络结构的节点匹配算法;(2)面向多个异构数据源的实体匹配算法;(3)跨异构社交网络的半监督用户匹配算法。主要贡献包括以下几个方面:1.基于社交网络结构的节点匹配算法:出于人们对隐私安全的日益重视,本文研究了仅基于社交网络结构的节点匹配问题,综合考虑社交网络中节点所具备的海量、低质和相依等特征,设计并实现了 ANUM算法。本文利用少量标注的匹配用户实现用户分块,从而降低候选匹配用户集的大小;扩展Fellei-Sunter方法,使其能够处理连续分布的社交网络相似度,构建生成概率模型并运用EM算法学习参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了ANUM算法的有效性和高效性。2.面向多个异构数据源的实体匹配算法:大多数已有的研究成果仅关注两个不同数据源的匹配,针对多个数据源中的实体匹配还尚待进一步研究。针对互联网平台数据的海量、异构和低质等特征,本文研究了多个数据源中的实体匹配问题,提出了多数据源实体匹配EMAD算法。为了降低候选集数量,该算法采用局部敏感哈希对来自不同数据源的实体进行分块,大大降低候选集的数量;将多数据源中实体匹配问题转化为两个数据源中实体匹配的问题,同时利用指数族分布整合实体异构属性,利用EM算法学习生成概率模型中的参数,不仅保证了算法的收敛性,而且同时可以处理数据缺失等数据质量问题。最后,在三个真实数据集上验证了EMAD算法的有效性和高效性。3.跨异构社交网络的半监督用户匹配算法:已知的匹配用户有利于改进社交网络中用户匹配的精度,但由于隐私保护和数据不均衡的原因,可用于训练模型的匹配用户数量并不多。针对海量、异构、低质和相依的社交网络数据,本文基于少量匹配用户,研究了半监督的异构社交网络用户匹配问题。为了降低候选匹配用户集的规模,该算法采用两阶段分块策略,第一阶段采用局部敏感哈希对来自不同社交网络的用户进行分块,且在每次迭代中通过社交网络结构再次对用户进行分块(第二阶段分块),大大降低候选集的数量;基于部分匹配用户,研究了跨社交网络平台的用户相似度评价方法;利用指数族分布整合用户异构属性从而构建生成概率模型,运用EM算法学习生成概率模型中的参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了 CSUI算法的有效性和高效性。4.基于实体匹配方法的社交网络用户匹配和查询原型系统:在充分考虑互联网数据海量、异构、低质和相依等特征的基础上,本文设计了社交网络用户匹配的原型框架,并实现了SmnQ原型系统。依次详细介绍了SumQ的四层系统架构:数据获取、用户匹配、用户管理和用户界面以及所提供的三大服务:查询服务、可视化服务和匹配服务。以此证明我们的方法是一套完整、有效的解决方案。综上所述,本文充分考虑互联网数据海量、异构、低质和相依等特征,重点研究了基于社交网络结构的节点匹配问题、多个异构数据源间的实体匹配问题和半监督的社交网络用户匹配问题,并设计开发了SumQ原型系统。理论分析和实验结果都表明,我们提出的这些算法能够应对Web 2.0时代数据的海量性、异构性、低质性和相依性等特点,从而解决开放互联网上的实体匹配问题。
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13;TP393.09

【相似文献】

中国期刊全文数据库 前10条

1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期

2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期

3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期

4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期

5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期

6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期

7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期

8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期

9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期

10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期

中国重要会议论文全文数据库 前10条

1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年

2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年

3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年

5 杜p,

本文编号:1289472


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1289472.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61575***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com