海量异构传感器数据的自动解析方法研究与实现
发布时间:2020-04-29 10:54
【摘要】:物联网呈现异构节点海量化、汇聚协议多样化、数据解析差异化的特点,多样化汇聚协议的适配与数据解析是大规模物联网数据汇聚的核心与关键。针对数据格式已知的汇聚协议,如MQTT、HTTP、CoAP、STOMP、AMQP等,编写协议适配软件能够有效的实现数据解析。该方式对未知协议的扩展性差,无法实现未知类型数据的解析。本文聚焦的是未知类型传感器数据自动解析的问题,针对类型固定和动态变化两种场景设计对应的解析方法。具体工作如下:针对类型未知但固定的传感器数据解析的问题,基于确定有限自动机(DFA)的思想,提出一种适用于传感器数据的扫描和词法分析方法,实现对类型未知的传感器数据有效关键词的提取,屏蔽了异构数据的格式封装差异,保障了未知类型的异构传感器数据词法单元的精确分割;设计一种状态转换数据解析模型,提出基于状态转换矩阵的传感器数据语法解析方法和海量数据的配套栈处理机制,对所扫描出的Token流与其对应的属性做出关系推理。实验表明,该方法具有快速高效的优点,平均准确率达到99.5%,能够实现对格式固定的未知类型异构传感器数据的精准自动解析。针对类型未知且动态变化的传感器数据解析的问题,基于无监督学习的思想,采用K-Means聚类方法提出一种数据解析模板构造模型,设计基于K-Means聚类的数据分类方法、准确度检验机制和数据模板自修正方法,实现对海量传感器数据的模板构造,保障了物联网平台对数据多样化汇聚的兼容性;提出一种可用信息抽取解析模型,设计规则槽挖掘机制和信息抽取方法,通过多点修正分步回溯,实现对海量传感器数据的自动解析和脏数据清洗。实验表明,该方法结果类别群的平均数据相似度ADS达到0.93,能够实现解析过程与数据类型解耦,具有动态适配性。基于自主研发的微物联共享平台,实现模式化解析系统,并进行功能的测试,两种方法的平均解析结果准确度均可达到98%,验证了本文所提出方法的有效性;对方法的实时性能和系统的整体性能进行测试,在10k的数据量下,对固定类型的数据解析可以达到260ms的低耗时,且在数据类型动态变化的场景下,处理时间保持在750ms至800ms之间,实现了海量异构传感器数据准确高效的自动解析。
【图文】:
图 5.2 添加新节点将新加入节点的相关信息依据节点号插入数据库中,所需添加的信息如表 5表 5.3 新节点入库关联信息表 场景 ID 设备 ID 网关号 名称 展示类型 图片地址 描述 节 scene_id product_id sn_value name show_type pic_url description no通过 messageReceived 模块进行数据的接收,存入 strMessage 传递到提取解行传感器数据的自动解析。5.2.3 提取解析模块
第五章 系统的实现与验证由于网关处理一条数据的时间可以忽略不计,则可以直接获取系统当前时间作为时间信息,其余三组信息需要通过提取解析模块的信息提取,未提取到的信息有如下两种情况:(1)根据已经提取到的设备唯一标识 MAC 地址(作为节点号)从数据库中找到与之对应的设备网关号,再将提取到的数据信息组合,便可以进行标准化处理;(2)数据中未包含 MAC 地址等唯一标识,则查找 topic 信息之类的未列入数据序列的设备唯一标识来辅助获取,,以便将数据与具体的传感器设备一一对应绑定,从而将数据信息进行模式化解析,明确所属设备具体的数据属性以及属性值,最终通过物联网平台进行展示。最终解析结果示例展示如图 5.5,将其中的数据信息与确定的传感器对应绑定,赋予普通的数据“29”、“20”等具体的属性,比如对于温湿度传感器来说,属性需要解析为温、湿度。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.44;TN929.5
本文编号:2644499
【图文】:
图 5.2 添加新节点将新加入节点的相关信息依据节点号插入数据库中,所需添加的信息如表 5表 5.3 新节点入库关联信息表 场景 ID 设备 ID 网关号 名称 展示类型 图片地址 描述 节 scene_id product_id sn_value name show_type pic_url description no通过 messageReceived 模块进行数据的接收,存入 strMessage 传递到提取解行传感器数据的自动解析。5.2.3 提取解析模块
第五章 系统的实现与验证由于网关处理一条数据的时间可以忽略不计,则可以直接获取系统当前时间作为时间信息,其余三组信息需要通过提取解析模块的信息提取,未提取到的信息有如下两种情况:(1)根据已经提取到的设备唯一标识 MAC 地址(作为节点号)从数据库中找到与之对应的设备网关号,再将提取到的数据信息组合,便可以进行标准化处理;(2)数据中未包含 MAC 地址等唯一标识,则查找 topic 信息之类的未列入数据序列的设备唯一标识来辅助获取,,以便将数据与具体的传感器设备一一对应绑定,从而将数据信息进行模式化解析,明确所属设备具体的数据属性以及属性值,最终通过物联网平台进行展示。最终解析结果示例展示如图 5.5,将其中的数据信息与确定的传感器对应绑定,赋予普通的数据“29”、“20”等具体的属性,比如对于温湿度传感器来说,属性需要解析为温、湿度。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.44;TN929.5
【参考文献】
相关期刊论文 前4条
1 翁祖泉;张琪;;基于物联网海量数据处理的数据库技术分析与研究[J];物联网技术;2014年06期
2 王刚;;工信部发布《物联网“十二五”发展规划》[J];物联网技术;2012年03期
3 陈倩;;一种基于有限自动机的快速串匹配算法[J];计算机技术与发展;2009年01期
4 仇德成;贾存虎;王安;徐德启;;基于数据解析自动机的入侵检测技术[J];计算机应用;2008年S2期
相关博士学位论文 前1条
1 姚立红;基于有限状态自动机的混杂动态系统分析与控制研究[D];西安电子科技大学;2015年
相关硕士学位论文 前1条
1 陶昱;基于有限状态自动机的动态信息流监控研究与分析[D];江苏大学;2010年
本文编号:2644499
本文链接:https://www.wllwen.com/kejilunwen/wltx/2644499.html