面向船舶状态数据的数据清洗与修复方法研究
发布时间:2020-03-25 23:11
【摘要】:船舶状态数据中包含了大量有重要价值的信息,针对船舶状态数据的数据挖掘工作可以为智慧水运的发展做出有力支持。然而这些数据中存在大量的问题数据,在挖掘之前对这些问题数据进行清洗和修复是必不可少的步骤。现有的数据清洗和修复方法如果直接应用到船舶状态数据中,效果并不理想。为保证数据清洗和修复工作的精确性,每一种问题数据都需要制定特定的方法来进行清洗或修复。基于此,本文将重点研究目前船舶状态数据中对数据挖掘工作影响最为严重的两类问题,即重复问题以及轨迹数据的缺失问题。本文的主要研究工作如下:(1)针对现有的相似重复数据检测算法-SNM算法(Sorted-Neighborhood Method,SNM)检测效率低的问题,提出一种改进的滑动窗口策略,然后结合基于Top-K的过滤策略来提高检测效率。改进的滑动窗口策略即滑动窗口大小动态可变策略,窗口大小可以根据检测的情况随时改变,既减少不必要的比较,又减少漏配现象;基于Top-K的过滤策略使不满足条件的数据提前结束比较,大大缩短检测时间。通过对比实验验证了本文的改进算法在检测效率上要优于其他算法。(2)针对由于字段权重设置主观性过强导致SNM算法检测精确度低的问题,提出一种改进的字段权重计算方法。改进方法综合主观经验较强的等级法和客观性的统计法来计算字段的权重,使字段权重的设置更加科学合理,进而有助于提高数据相似度计算的精确度。同时,改进的滑动窗口策略也有助于算法检测精确度的提升。通过对比实验验证了本文的改进算法在查全率,查准率等评价指标上均优于其他算法。(3)针对现有的船舶轨迹缺失数据修复算法修复精确度低的问题,首先解决了由轨迹数据中的错误数据引起的伪连续问题,然后提出一种针对船舶轨迹缺失数据的修复算法。首先构建船舶运动状态矢量模型,将船舶的空间位置与时间联系起来,然后基于多项式插值的思想,构建船舶空间位置的插值函数,充分结合已有的船舶信息来优化参数,以实现对轨迹缺失数据的精确修复。通过对比实验验证了本文的修复算法在修复精确度上要优于其他算法。
【图文】:
11数据库数据接收服务器图 2-1AIS 系统数据采集示意图船舶的监控主要采用的是 AIS 设备及系统。随着越多的船舶装上了 AIS 设备,海事局等监管单位通过互联网收集起来[49]。AIS 系统数据采集示意图以看出,AIS 数据采集有两种方式,一是通过分布收;二是通过低轨道卫星来接收,主要是接收海船
Maritime Organization, IMO)、船舶类型等信息;(3)船舶航次数据,这部分数据主要包含船舶吃水、危险货物(类型)、目的地等信息。船舶状态数据主要由动态数据和静态数据构成,其实,航次数据也属于静态数据的一种,这些数据具有维度高的特点,,而且在采集以及传输等过程中容易出现问题。2.1.2 数据质量问题船舶状态数据中存在的主要质量问题有:重复问题,缺失问题,还有错误问题。下面将以船舶动态数据为例详细分析说明船舶状态数据中的各种问题。(1)重复问题船舶状态数据中存在重复数据是一个常见问题,需要说明的是,船舶数据中存在的重复问题不仅仅是完全重复问题,也有代表着同一信息的相似重复问题,具体将在第 3 章进行研究说明。如图 2-2 所示,是船舶动态数据中的部分信息。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;U672
本文编号:2600577
【图文】:
11数据库数据接收服务器图 2-1AIS 系统数据采集示意图船舶的监控主要采用的是 AIS 设备及系统。随着越多的船舶装上了 AIS 设备,海事局等监管单位通过互联网收集起来[49]。AIS 系统数据采集示意图以看出,AIS 数据采集有两种方式,一是通过分布收;二是通过低轨道卫星来接收,主要是接收海船
Maritime Organization, IMO)、船舶类型等信息;(3)船舶航次数据,这部分数据主要包含船舶吃水、危险货物(类型)、目的地等信息。船舶状态数据主要由动态数据和静态数据构成,其实,航次数据也属于静态数据的一种,这些数据具有维度高的特点,,而且在采集以及传输等过程中容易出现问题。2.1.2 数据质量问题船舶状态数据中存在的主要质量问题有:重复问题,缺失问题,还有错误问题。下面将以船舶动态数据为例详细分析说明船舶状态数据中的各种问题。(1)重复问题船舶状态数据中存在重复数据是一个常见问题,需要说明的是,船舶数据中存在的重复问题不仅仅是完全重复问题,也有代表着同一信息的相似重复问题,具体将在第 3 章进行研究说明。如图 2-2 所示,是船舶动态数据中的部分信息。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;U672
【参考文献】
相关博士学位论文 前1条
1 傅贵;城市智能交通动态预测模型的研究及应用[D];华南理工大学;2014年
本文编号:2600577
本文链接:https://www.wllwen.com/kejilunwen/chuanbolw/2600577.html