当前位置:主页 > 科技论文 > 航空航天论文 >

多源异构民航旅客服务数据集成方法研究

发布时间:2020-11-08 08:32
   随着中国民航业的蓬勃发展,越来越多的旅客选择乘飞机出行,各大航空公司以及旅行网站每天都在产生海量的民航旅客服务数据。但是这些数据来源不同,存在模式异构和数据冗余等问题,严重影响了数据的有效利用。数据集成正是解决这类问题的关键方法,因此,研究数据集成方法来消除多源异构民航旅客服务数据的模式冲突和数据冗余从而提高数据质量意义重大。首先,针对模式异构问题,提出了一种基于SimHash和混合相似度的多模式匹配方法。该方法基于PMI-SimHash算法构造属性列的签名来表示属性特征以降低特征维度,然后在对属性聚类分析的基础上计算属性的混合相似度并构建属性映射图来展示属性间的匹配关系。其次,针对数据冗余问题,提出一种面向实体匹配的无监督自学习方法。该方法通过局部敏感性哈希算法对多源数据进行分块处理,将特征相似的记录划分到相同块中,减少了候选匹配对的生成数量。然后基于无监督种子挑选算法来选择训练集并提出基于RVM的自学习算法生成有标签的实体数据集,避免了人工标注数据的额外成本。最后,通过在真实的多源异构民航旅客服务数据上进行实验,证明了本文方法具有可行性,为解决多源异构民航旅客服务数据集成中的模式冲突和数据冗余问题提供高效、可扩展的解决方案。
【学位单位】:中国民航大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:V354
【部分图文】:

流程图,模式匹配,流程图


通过给定的模式匹配算法 match 得出的匹配结果。例如表 2.3 表示两个民航旅客购票记录表模式 PR 和 PassagerRecord 的部分信息。其中属性 PR.tk_no、PR.orgn_city、PR.desn_city 分 别 和 PassagerRecord.TICKET_NO 、 PassagerRecord.origin 、PassagerRecord.destination 存在映射关系。通过匹配算法 match 处理后,匹配结果 M 可以表示为 PR.tk_no=PassagerRecord.TICKET_NO,PR.orgn_city=PassagerRecord.origin,PR.desn_city=PassagerRecord.destination。2. 模式匹配流程多源异构数据的模式具有异构性,在对其进行模式匹配时根据处理的步骤可以得出一个完整的模式匹配流程,如图 2-1 所示。

流程图,实体,流程,匹配算法


图 2-2 实体匹配流程) 匹配处理阶段。该阶段主要通过实体匹配算法来判断候选匹配集中的,传统的实体匹配算法大多都基于机器学习算法。虽然已有的算法在匹达到一定的实用效果,但是实体匹配效率却随着数据量的增长而降低。匹配算法进行实体匹配时需要构造候选匹配集,该集合是通过对多源数积得出的结果集。例如,两个待匹配数据源 T 和 S,其中 T 中包含 M 条 N 条记录,那么由 T 和 S 中的记录通过笛卡尔积操作可以得到包含M ×选匹配集。然而面对海量的多源数据集时,通过笛卡尔积操作生成的结配时间开销是不可预估的。因此,需要对现有的实体匹配算法进行优化间复杂度。目前,主流的用于优化实体匹配的算法有实体分块算法[41-42],此类算法主要是通过减少候选匹配集中记录对的数量,以达到降低匹的目的。体分块算法的原理是将匹配概率较大数据记录分配到相同的实体块中,

多模式匹配,方法流程


最后输出属性映射图 G(R,E)(17-24 行)算法结束。最后相互匹配的属性以边的形式连接,而误匹配的属性以孤立点的形式存在。属性之间的关系以图的形式的准确的表示出来。综上所述,基于SimHash和混合相似度的多模式匹配方法的处理流程如图3-2所示。
【相似文献】

相关期刊论文 前10条

1 薛尧予;王建林;赵利强;;分布式过程实时数据集成方法及其实现[J];计算机工程;2010年03期

2 冯勇;王明玉;;基于语义的轻量级数据集成方法[J];计算机工程与设计;2012年01期

3 王磊;赵磊;郑宝玉;;结合朴素贝叶斯和欧氏距离的二类非均衡数据集成方法[J];信号处理;2017年04期

4 周剑;朱耀琴;唐卫清;;面向复杂产品协同开发的数据集成方法研究[J];计算机科学;2009年12期

5 池斌;李军生;邸凯;王海涛;;基于中间释义库的数据集成方法研究[J];价值工程;2014年34期

6 李兵,何克清,肖卫军,李瑞轩;CAX—一种有效的数据集成方法[J];小型微型计算机系统;2003年08期

7 张忠平;栾建锋;王昆波;;网格环境下基于P2P的数据集成方法[J];计算机工程;2009年12期

8 周海鹏;张璟;李军怀;;信息系统中的数据集成方法研究与应用[J];微电子学与计算机;2008年05期

9 崔伟宁;陈颂;金传洋;毕明光;;基于实体资源的数据集成方法研究[J];计算机工程与设计;2013年08期

10 郎炯;刘宴兵;熊仕勇;;基于SOA软件架构的数据集成方法[J];计算机应用;2010年09期


相关博士学位论文 前1条

1 谢兴生;基于数据服务匹配的数据集成方法研究与实现[D];中国科学技术大学;2007年


相关硕士学位论文 前10条

1 胡炜;多源异构民航旅客服务数据集成方法研究[D];中国民航大学;2019年

2 何新;生产装置异构实时数据集成方法及应用研究[D];北京化工大学;2007年

3 韩松;基于本体的数据集成方法及应用[D];曲阜师范大学;2010年

4 宋春蕾;基于信息网格的数据集成方法的研究[D];大连海事大学;2006年

5 王明玉;基于语义的轻量级数据集成方法研究[D];辽宁大学;2011年

6 崔立成;基于Web服务的多PDM系统数据集成方法研究[D];大连海事大学;2008年

7 张凯选;基于地质灾害的异源空间数据集成方法研究[D];辽宁工程技术大学;2004年

8 张峰;基于本体的海洋数据集成方法研究[D];中国海洋大学;2008年

9 周伟;基于本体的电力系统中数据集成方法的研究[D];华北电力大学;2012年

10 张鑫;基于分类的数据集成方法[D];广东工业大学;2013年



本文编号:2874536

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/2874536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db067***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com