融合互联网数据的民航主数据识别方法研究
发布时间:2020-08-08 00:46
【摘要】:随着民航业务涉及的范围越来越广,不同系统、业务,甚至不同部门间存在系列公用数据。由于各业务部门及子系统间对数据的命名和存储规则不一致,各系统间信息不对称,致使数据大量冗余,航空公司丰富的运营数据无法得到充分利用。同时,旅客对信息的需求不单局限于相关航空数据,而更多的希望获取更加完善的酒店、旅游等非航互联网数据。因此,为了提高民航主数据的质量,帮助航空公司提高运营效率,急需研究融合互联网数据的民航主数据识别方法。首先,为了整合酒店、旅游等非航互联网数据,解决同一实体被多个数据源引用时数据不一致问题,提出了一种基于非主属性离群点检测的实体匹配方法。其思路是从不同数据源中提取公共非主属性,并根据其重要程度进行排序来选择合适的非主属性集,结合离群点检测模型对实体对进行筛选,再利用机器学习方法,选择合适的匹配器进行训练,获取匹配对。其次,为了克服传统主数据识别方法带来单一赋权值的缺点,提出一种基于组合权重-云模型的民航主数据识别方法。针对主数据的特点,考虑民航主数据的评分指标并建立其等级评价标准,在改进层次分析法的基础上引入信息熵,并计算其综合权重,再利用云模型计算样本的隶属度。最后,通过对非航及民航数据进行实验,结果表明本文方法可以有效整合非航互联网数据,同时识别出主数据,克服了传统实体匹配不能应用在大规模数据的弊端,为民航领域的主数据识别提供了一种新的解决方案。
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:V35-39
【图文】:
图 2-3 基于规则的实体匹配方法流程于规则的实体匹配方法,优势在于容易实现且扩展性好,得到的结果也易于困难在于分类属性的选取和阈值的设定,匹配规则需要通过专业知识来. 基于学习的实体匹配于学习的匹配方法与基于规则的方法相比,它可以通过不断的学习持续匹配的准确率大大提升,并将实体匹配的问题转化为二分类问题。其具体据集分成训练集和测试集,然后将训练集通过人工或机器的方式打上标签进行训练。取样并计算实体对在各属性上的相似度,通过分类器判断实体1 表示匹配,0 表示不匹配),将训练好的分类器使用测试集进行测试验的目的。该方法的流程如图 2-4 所示。
-1.5 -1 -0.5 0 0.5 1 1.500.10.20.30.40.5En图 2-5 云模型的三个特征示意图模型发生器是实现从定性到定量的映射,其依据期望xE 、熵nE 和超熵eH 及云滴。向云发生器的示意图如 2-6 所示:
1. 生成一个期望是xE ,标准差是eH 的正态随机数ix ;2. 生成一个期望是nE ,ix 的绝对值是标准差的正态随机数iy ;3. 计算:22( )exp[ ]2( )i yiiy Exμ = 4. 生成一个云滴( , )i ix μ;5. 重复步骤 1-4,直到产生N 个云滴。.2 逆向云模型逆向云发生器和正向云发生器正好相反,它将一定数目的准确数据映念的数字特征:期望、熵、超熵。是一种定量到定性的映射。其一维逆向云发生器如图 2-7 所示:
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:V35-39
【图文】:
图 2-3 基于规则的实体匹配方法流程于规则的实体匹配方法,优势在于容易实现且扩展性好,得到的结果也易于困难在于分类属性的选取和阈值的设定,匹配规则需要通过专业知识来. 基于学习的实体匹配于学习的匹配方法与基于规则的方法相比,它可以通过不断的学习持续匹配的准确率大大提升,并将实体匹配的问题转化为二分类问题。其具体据集分成训练集和测试集,然后将训练集通过人工或机器的方式打上标签进行训练。取样并计算实体对在各属性上的相似度,通过分类器判断实体1 表示匹配,0 表示不匹配),将训练好的分类器使用测试集进行测试验的目的。该方法的流程如图 2-4 所示。
-1.5 -1 -0.5 0 0.5 1 1.500.10.20.30.40.5En图 2-5 云模型的三个特征示意图模型发生器是实现从定性到定量的映射,其依据期望xE 、熵nE 和超熵eH 及云滴。向云发生器的示意图如 2-6 所示:
1. 生成一个期望是xE ,标准差是eH 的正态随机数ix ;2. 生成一个期望是nE ,ix 的绝对值是标准差的正态随机数iy ;3. 计算:22( )exp[ ]2( )i yiiy Exμ = 4. 生成一个云滴( , )i ix μ;5. 重复步骤 1-4,直到产生N 个云滴。.2 逆向云模型逆向云发生器和正向云发生器正好相反,它将一定数目的准确数据映念的数字特征:期望、熵、超熵。是一种定量到定性的映射。其一维逆向云发生器如图 2-7 所示:
【相似文献】
相关期刊论文 前10条
1 王晋川;赵金石;何彩红;;电网调度业务主数据应用研究[J];山西电力;2019年06期
2 张玉爽;;企业主数据管理方法研究及实践[J];现代信息科技;2019年05期
3 谈锦锋;王阳飞;梁蕊;王娟;邓慧;;浅谈“两化”融合背景下企业的主数据管理[J];信息技术与信息化;2019年05期
4 ;企业财务主数据管理[J];首席财务官;2018年04期
5 李智星;万磊;舒新义;马先俊;徐敏;;公司主数据管理研究与思考[J];中国集体经济;2018年10期
6 马进;陈罡毅;;浅谈药品监管主数据体系架构设计[J];中国药师;2018年11期
7 高亮;;上海财经大学 实施主数据管理 高效发掘数据价值[J];中国教育网络;2017年04期
8 宋成光;赵建业;;设备主数据管理的研究[J];铁路计算机应用;2013年10期
9 聂坤富;郭樟荣;;论创新财务主数据集约管理——以中国电信广东公司为例[J];财政监督;2013年35期
10 赵斌;;企业资产管理信息化的基石——资产主数据管理[J];中国设备工程;2010年06期
相关会议论文 前10条
1 阎峻;衣传宝;李t熝
本文编号:2784773
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/2784773.html