基于数据挖掘的某冷轧厂事故隐患预测预警研究
发布时间:2021-09-05 11:16
随着我国经济的发展,企业的安全问题越来越受到重视,而企业的安全管理水平也决定着企业能否健康高效的运营。钢铁行业作为我国的支柱产业,在经济发展中起着至关重要的作用,同样轧钢企业在冷轧过程中工艺复杂,生产过程中有着很多危险因素和不确定性,安全生产事故也时有发生。而传统的安全管理方法是“问题出发型”管理模式,往往只能进行定性的分析,缺少简单直观的定量分析手段,这样在企业安全管理中就显得很被动。但是随着信息技术的不断发展,以及近几年数据挖掘技术在各行各业的不断普及与应用,也为隐患排查治理和生产安全事故预防工作提供了新的技术手段和方法。本文以某冷轧企业为例,针对该厂2017年9月-2018年12月的事故隐患数据进行分析,研究建立该厂安全生产事故隐患预测预警模型,指导企业能够具体有效的进安全管理与隐患排查治理工作的开展,对提升企业的安全管理水平有着重要意义。首先利用R语言对企业的事故隐患数据进行文本挖掘分析,在中文分词后得到隐患词汇对应词频,将词频统计后绘制出可视化的词云图,之后为了得到隐患词汇在每个月的重要度,运用词频-逆文档频(TF-IDF)将每个月词频转换成权重。最后运用灰色预测理论,建立了...
【文章来源】:首都经济贸易大学北京市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
隐患信息历史数据
第3章文本挖掘163.2.2分词工具R是一个用于统计分析、绘图的语言和操作环境,由数学运算工具、统计分析工具以及制图工具构成[39]。作为一个用于统计的软件,囊括了多种常用的数据挖掘方法,其各类模型都已经封装完毕,加载包以及各类操作命令调用快捷方便,还有各类功能的安装包可供使用,同时在大量数据需要处理时,优化过的运行速度可以得到保证,因此R语言完全可以胜任各类一般性的统计分析工作,并保证高效快捷的完成。R还有一个很大的优势,是一款免费的开源软件,如果需要,可以随时在网站上下载使用。其支持在UNIX、Linux、Windows和MacOS等多种平台运行,在我们调用相应的函数进行计算时,还能够根据具体的情况来修改源代码,从而满足用户分支、循环、自定义等具体要求。因为R是开源的,所以其扩展包和插件也极其丰富,给数据的处理带来了多样化,可以对数据进行交互式分析,通过信息平台还能实现数据的实时动态显示,帮助用户更加快捷直观的了解所分析的数据。总的来说,R语言兼容性强、功能强大、操作方便,是一款优秀的数据分析和制图软件。而Rstudio是编辑、运行R语言的最为理想的工具之一,通常我们都在Rstudio上来处理数据,具体如图3.3所示。图3.3Rstudio界面在R语言环境下,我们选用jiebaR作为分词包[40],jicbaR(“结巴”)是一款高效的R语言分词包,是通过CRAN安装,非常简便。共有7种分词引擎,分别是混合模型、最大概率法、隐式马尔科夫模型、索引模型、标记模型、Simhash模型和关键词模型,其
首都经济贸易大学硕士学位论文17中混合模型是结合了隐式马尔科夫模型与最大概率法,是分词效果最好的模型。其通过函数worker()初始化分词引擎,使用segment()进行分词。3.2.3自定义词典由于本文采用基于词典的分词方法,所以必须有对应的词典作为基矗词典对分词结果的好坏起着决定性作用。虽然jiebaR有默认的标配词典,但是由于本文处理的数据是某冷轧厂的安全隐患数据,不同行业文字类型也不相同,如果不使用与之匹配的相关词典,这就会很大概率造成分词的不准确性。所以建立相关的隐患词典是必须要做的任务,也是此次中文分词的基石。从文本数据中筛选出各类冷轧厂相关的隐患词汇,将其统计汇总储存到.txt文件中形成冷轧厂事故隐患词典,共5211个词。如图3.4所示。图3.4自定义事故隐患词典3.2.4中文分词相关理论中文分词是将中文文本进行分词研究,其原理是根据一定的规律使连续的中文字序列切分成有意义的中文词序列。在英文文本中,每个单词之间都会有空格分隔,因此不存在分词,而中文文本则是由连续的词句构成,各个词语之间没有明显的分隔符,所以这就需要我们来通过中文分词的方法来达到研究的目的。中文分词的流程图如图3.5所示。
【参考文献】:
期刊论文
[1]船舶舱室的火灾实时安全预测[J]. 夏璐璐,李彦. 电子测量技术. 2018(15)
[2]基于微博文本数据分析的社会群体情感可视计算方法研究[J]. 刘翠娟,刘箴,柴艳杰,方昊,刘良平. 北京大学学报(自然科学版). 2016(01)
[3]基于灰色GM(1,1)模型的跨境电子商务发展前景预测分析[J]. 资道根. 数学的实践与认识. 2015(01)
[4]GM(1,1)模型的几种基本形式及其适用范围研究[J]. 刘思峰,曾波,刘解放,谢乃明. 系统工程与电子技术. 2014(03)
[5]生产作业场所事故隐患的内在属性及安全监管对策[J]. 保龙,韩海涛,蔡惠萍,陈艳伟. 产业与科技论坛. 2013(11)
[6]基于潜在语义分析的微博主题挖掘模型研究[J]. 唐晓波,王洪艳. 图书情报工作. 2012(24)
[7]我国煤矿安全评价现状分析[J]. 隋国民. 煤炭工程. 2012(02)
[8]基于改进灰色模型的能源消费预测研究[J]. 穆海林,王文超,宁亚东,李刚. 大连理工大学学报. 2011(04)
[9]基于灰色GM(1,1)模型的上海城镇养老保险人口分布预测[J]. 王宇熹,汪泓,肖峻. 系统工程理论与实践. 2010(12)
[10]预警理论方法及其应用研究[J]. 潘洁珠,朱强,郭玉堂. 合肥师范学院学报. 2010(03)
博士论文
[1]灰色建模技术及其在道路交通事故管理中的应用研究[D]. 钱吴永.南京航空航天大学 2012
[2]灰色预测技术及其应用研究[D]. 崔立志.南京航空航天大学 2010
硕士论文
[1]基于向量空间模型的文本分类及R语言实现[D]. 姜博闻.山东师范大学 2018
[2]基于隐患报告的事故预测模型及预警方法研究[D]. 李彤.中国地质大学(北京) 2017
[3]基于R语言的金融大数据审计应用研究[D]. 武茗馨.南京审计大学 2017
[4]基于数值分析理论的GM(1,1)模型优化研究及应用[D]. 张丽玲.哈尔滨工程大学 2017
[5]基于Web数据挖掘的鲜花市场研究与应用[D]. 邓远飞.昆明理工大学 2016
[6]光伏企业安全生产预警系统建设与应用研究[D]. 刘君敏.江苏大学 2016
[7]基于PSO-SVM模型的建筑施工项目安全预警方法研究[D]. 汪马成.上海工程技术大学 2016
[8]灰色预测模型的研究及其应用[D]. 宋玲.内蒙古农业大学 2015
[9]中文文本分类中的特征选择和权重计算方法研究[D]. 宋惟然.北京工业大学 2013
[10]事故致因理论在化工企业安全评价中的应用研究[D]. 程华瑞.太原理工大学 2013
本文编号:3385247
【文章来源】:首都经济贸易大学北京市
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
隐患信息历史数据
第3章文本挖掘163.2.2分词工具R是一个用于统计分析、绘图的语言和操作环境,由数学运算工具、统计分析工具以及制图工具构成[39]。作为一个用于统计的软件,囊括了多种常用的数据挖掘方法,其各类模型都已经封装完毕,加载包以及各类操作命令调用快捷方便,还有各类功能的安装包可供使用,同时在大量数据需要处理时,优化过的运行速度可以得到保证,因此R语言完全可以胜任各类一般性的统计分析工作,并保证高效快捷的完成。R还有一个很大的优势,是一款免费的开源软件,如果需要,可以随时在网站上下载使用。其支持在UNIX、Linux、Windows和MacOS等多种平台运行,在我们调用相应的函数进行计算时,还能够根据具体的情况来修改源代码,从而满足用户分支、循环、自定义等具体要求。因为R是开源的,所以其扩展包和插件也极其丰富,给数据的处理带来了多样化,可以对数据进行交互式分析,通过信息平台还能实现数据的实时动态显示,帮助用户更加快捷直观的了解所分析的数据。总的来说,R语言兼容性强、功能强大、操作方便,是一款优秀的数据分析和制图软件。而Rstudio是编辑、运行R语言的最为理想的工具之一,通常我们都在Rstudio上来处理数据,具体如图3.3所示。图3.3Rstudio界面在R语言环境下,我们选用jiebaR作为分词包[40],jicbaR(“结巴”)是一款高效的R语言分词包,是通过CRAN安装,非常简便。共有7种分词引擎,分别是混合模型、最大概率法、隐式马尔科夫模型、索引模型、标记模型、Simhash模型和关键词模型,其
首都经济贸易大学硕士学位论文17中混合模型是结合了隐式马尔科夫模型与最大概率法,是分词效果最好的模型。其通过函数worker()初始化分词引擎,使用segment()进行分词。3.2.3自定义词典由于本文采用基于词典的分词方法,所以必须有对应的词典作为基矗词典对分词结果的好坏起着决定性作用。虽然jiebaR有默认的标配词典,但是由于本文处理的数据是某冷轧厂的安全隐患数据,不同行业文字类型也不相同,如果不使用与之匹配的相关词典,这就会很大概率造成分词的不准确性。所以建立相关的隐患词典是必须要做的任务,也是此次中文分词的基石。从文本数据中筛选出各类冷轧厂相关的隐患词汇,将其统计汇总储存到.txt文件中形成冷轧厂事故隐患词典,共5211个词。如图3.4所示。图3.4自定义事故隐患词典3.2.4中文分词相关理论中文分词是将中文文本进行分词研究,其原理是根据一定的规律使连续的中文字序列切分成有意义的中文词序列。在英文文本中,每个单词之间都会有空格分隔,因此不存在分词,而中文文本则是由连续的词句构成,各个词语之间没有明显的分隔符,所以这就需要我们来通过中文分词的方法来达到研究的目的。中文分词的流程图如图3.5所示。
【参考文献】:
期刊论文
[1]船舶舱室的火灾实时安全预测[J]. 夏璐璐,李彦. 电子测量技术. 2018(15)
[2]基于微博文本数据分析的社会群体情感可视计算方法研究[J]. 刘翠娟,刘箴,柴艳杰,方昊,刘良平. 北京大学学报(自然科学版). 2016(01)
[3]基于灰色GM(1,1)模型的跨境电子商务发展前景预测分析[J]. 资道根. 数学的实践与认识. 2015(01)
[4]GM(1,1)模型的几种基本形式及其适用范围研究[J]. 刘思峰,曾波,刘解放,谢乃明. 系统工程与电子技术. 2014(03)
[5]生产作业场所事故隐患的内在属性及安全监管对策[J]. 保龙,韩海涛,蔡惠萍,陈艳伟. 产业与科技论坛. 2013(11)
[6]基于潜在语义分析的微博主题挖掘模型研究[J]. 唐晓波,王洪艳. 图书情报工作. 2012(24)
[7]我国煤矿安全评价现状分析[J]. 隋国民. 煤炭工程. 2012(02)
[8]基于改进灰色模型的能源消费预测研究[J]. 穆海林,王文超,宁亚东,李刚. 大连理工大学学报. 2011(04)
[9]基于灰色GM(1,1)模型的上海城镇养老保险人口分布预测[J]. 王宇熹,汪泓,肖峻. 系统工程理论与实践. 2010(12)
[10]预警理论方法及其应用研究[J]. 潘洁珠,朱强,郭玉堂. 合肥师范学院学报. 2010(03)
博士论文
[1]灰色建模技术及其在道路交通事故管理中的应用研究[D]. 钱吴永.南京航空航天大学 2012
[2]灰色预测技术及其应用研究[D]. 崔立志.南京航空航天大学 2010
硕士论文
[1]基于向量空间模型的文本分类及R语言实现[D]. 姜博闻.山东师范大学 2018
[2]基于隐患报告的事故预测模型及预警方法研究[D]. 李彤.中国地质大学(北京) 2017
[3]基于R语言的金融大数据审计应用研究[D]. 武茗馨.南京审计大学 2017
[4]基于数值分析理论的GM(1,1)模型优化研究及应用[D]. 张丽玲.哈尔滨工程大学 2017
[5]基于Web数据挖掘的鲜花市场研究与应用[D]. 邓远飞.昆明理工大学 2016
[6]光伏企业安全生产预警系统建设与应用研究[D]. 刘君敏.江苏大学 2016
[7]基于PSO-SVM模型的建筑施工项目安全预警方法研究[D]. 汪马成.上海工程技术大学 2016
[8]灰色预测模型的研究及其应用[D]. 宋玲.内蒙古农业大学 2015
[9]中文文本分类中的特征选择和权重计算方法研究[D]. 宋惟然.北京工业大学 2013
[10]事故致因理论在化工企业安全评价中的应用研究[D]. 程华瑞.太原理工大学 2013
本文编号:3385247
本文链接:https://www.wllwen.com/kejilunwen/jiagonggongyi/3385247.html