基于文本信息抽取的高铁车载设备故障发现的理论与方法
本文关键词:基于文本信息抽取的高铁车载设备故障发现的理论与方法 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 车载设备 Log日志文件 交接班记录 故障发现 信息抽取 故障字典
【摘要】:列车运行控制系统(简称列控系统,Chinese Train Control System,CTCS),由地面设备系统和车载设备系统构成,车载设备系统对高铁的运行起着至关重要的作用。车载计算机运行中形成的Log日志文件和工作人员撰写的交接班记录中包含着大量的、反映车载设备运行状态的信息,是车载设备故障发现和诊断的重要依据。然而对这两类文本数据的利用目前仍局限于工作人员人工记录、查询和解读,存在效率低、主观性强、缺乏理论指导意义等一系列问题。本文针对以上问题,通过对上述两类文本进行信息抽取和整理,建立了较为完备的故障字典;基于正则表达式方法,结合Matlab仿真,实现了 Log日志文件语句的自动定位,开发了车载设备故障发现的自动化处理平台;从而提高了工作人员交接班故障发现、记录和分析流程的工作效率;避免了以往人工处理的主观性;所构建的故障字典对故障发现和进一步研究具有指导意义。本文的工作主要有以下几个方面。首先,本文介绍了高铁车载设备的基本结构及本文研究需要的两类数据源,即:车载计算机Log日志文本及工作人员交接班记录文本;分析了两类文本文件的数据特点,总结了信息抽取算法等研究成果;采用数据挖掘工具WEKA与SQL Server数据库相结合的方式进行处理探索,发现了常规故障文本数据挖掘的问题。结合两类文本数据特点,确定了故障发现与自动定位的研究框架。其次,确定了最大匹配分词算法和TFIDF算法对工作人员交接班记录和Log日志文件进行信息抽取,构建了标准化的故障字典,并且针对Log文件非结构化的特点利用正则表达式算法实现了故障语句的自动定位。最后,利用Matlab编程实现了基于两类文本文件的故障自动发现与定位,搭建了适用于Windows系统的故障发现人机交互平台,并基于已有的Log日志文件对平台进行了实用性展示。
[Abstract]:Train operation control system (short train control system, Chinese Train Control System, CTCS) is composed of ground equipment system and vehicle mounted equipment system. Vehicle mounted equipment system plays a vital role in high-speed rail operation. The Log log files formed by the on-board computer and the shift records written by the staff contain a lot of information that reflects the running state of the on-board equipment, which is an important basis for vehicle equipment fault detection and diagnosis. However, the utilization of these two kinds of text data is still limited to staff's manual record, query and interpretation, and there are a series of problems such as low efficiency, subjectivity and lack of theoretical guidance. In this paper, aiming at the above problems, through information extraction and the arrangement of the two types of text, a fault dictionary is complete; regular expression based on the method of combining Matlab simulation, realizes the automatic positioning of the Log log file statement, automated processing platform to develop the fault vehicle equipment found; to improve the staff shift fault detection recording and analysis of process efficiency; avoid the manual processing of subjectivity; fault dictionary constructed for fault detection and further research has significance. The main work of this article is the following aspects. Firstly, this paper introduces two types of data sources, this paper studies the basic structure and the high speed rail vehicle equipment needed: the on-board computer Log log text and staff log text; analyzed the characteristics of data file text two, summarizes the information extraction algorithm research; using data mining tool WEKA and SQL Server the combination of the database of exploration, discovery of conventional fault text data mining problem. Combining the characteristics of two types of text data, the research framework of fault discovery and automatic location is determined. Secondly, to determine the maximum matching word segmentation algorithm and TFIDF algorithm to extract information from staff log and Log log files, build a fault dictionary standard, and according to the characteristics of unstructured Log file using the regular expression algorithm can automatically locate the fault statement. Finally, we use Matlab programming to realize automatic fault location and location based on two kinds of text files. We build a fault detection human-machine interaction platform for Windows system, and display the platform based on the existing Log log files.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:U279.323;TP391.1
【参考文献】
相关期刊论文 前10条
1 赵阳;徐田华;;基于文本挖掘的高铁信号系统车载设备故障诊断[J];铁道学报;2015年08期
2 莫建文;郑阳;首照宇;张顺岚;;改进的基于词典的中文分词方法[J];计算机工程与设计;2013年05期
3 石先明;;探究列控系统对动车组制动系统故障后的安全防护作用[J];铁路通信信号工程技术;2013年01期
4 李红卫;杨东升;孙一兰;韩娟;;智能故障诊断技术研究综述与展望[J];计算机工程与设计;2013年02期
5 张友兵;马麟;张国振;崔俊锋;王天娇;;CTCS-3级列控车载记录下载器的软件设计[J];铁道通信信号;2012年12期
6 刘海峰;陈琦;张以皓;;一种基于互信息的改进文本特征选择[J];计算机工程与应用;2012年25期
7 郭亚维;刘晓霞;;文本分类中信息增益特征选择方法的研究[J];计算机工程与应用;2012年27期
8 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期
9 刘剑;陈一超;江虹;;基于规则的通用专家知识库故障诊断方法[J];计算机与数字工程;2010年06期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
相关博士学位论文 前2条
1 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
2 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
相关硕士学位论文 前7条
1 陈航宇;正则表达式匹配算法研究[D];燕山大学;2016年
2 王峰;基于文本挖掘的高铁车载设备故障诊断方法研究[D];北京交通大学;2016年
3 王振显;基于案例推理的高铁信号系统车载设备故障诊断[D];北京交通大学;2015年
4 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
5 边晓亚;模糊贝叶斯决策方法在城市交通系统中的应用[D];华中科技大学;2011年
6 杨威;基于正则表达式的Web信息抽取系统的研究与实现[D];西安电子科技大学;2011年
7 郑佩;基于案例推理的故障诊断技术研究[D];华中科技大学;2008年
,本文编号:1341591
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1341591.html