基于文本挖掘的在线煤矿事故案例分类方法研究
发布时间:2020-07-29 21:23
【摘要】:信息技术的快速发展,促使煤矿企业积累了大量煤矿数据资源。阅读煤矿数据挖掘相关文献可以发现:当前煤矿数据挖掘对象主要集中在隐患数据、监测数据,而对在线煤矿事故案例的研究较少,造成数据资源的浪费。在线煤矿事故案例作为对事故时间、原因等多个方面总结的非结构化数据,在处理的过程中具有一定的难度。但是,数据内部包含的信息对于煤矿安全生产、安全管理具有重要意义。因此,本论文选取在线煤矿事故案例作为研究对象,构建煤矿事故案例自动分类模型,挖掘煤矿事故案例中包含的信息。本论文为了研究在线煤矿事故案例自动分类方法,对相关理论技术进行研究。常见的文本表示模型为基于统计语言的词袋模型、Tf-idf模型表示方法。W-ord2-vec作为基于神经网络语言的文本表示方法,能够将中文文档中的词语转换成词语向量。为了构建自动分类模型,本论文对Word2vec进行改进,将输出的词语向量转换成文档向量,实现中文文本数据到计算机语言的转换。支持向量机分类器的分类效果受到参数的影响,为了选用最优模型参数构建分类模型,本论文将网格法与支持向量机结合构建cgSVM分类模型,运用cgSVM实现在线煤矿事故案例自动分类。为了研究在线煤矿事故案例自动分类方法,将3种文本表示方法与不同分类器进行结合共构建word-SVM,word-Mul-NB,word-DTC,Tf-idf-SVM,Tf-idf-MulNB,Tf-idf-DTC,Word2vec-SVM,Word2vec-cgSVM8 种文本自动分类模型。比较煤矿监测网以及煤矿安全网网站中与煤矿事故案例相关的内容,爬取煤矿安全网对应的煤矿事故案例作为实验数据验证自动分类模型的性能。从比较模型的预测值与实际值以及性能评价指标值两个方面评价8种模型的分类效果。得出Word2vec-cgSVM模型的预测结果与实际值更加接近的结论,对应的精确率、召回率、fl-score 分别为 0.977、0.976、0.976。通过研究,本论文构建了煤矿事故案例自动分类模型,经过模型性能分析得出构建的Word2vec-cgSVM对在线煤矿事故案例分类的精确率能够达到97.7%。将Word2vec-cgSVM自动分类模型运用到在线煤矿事故案例分类中,能够节约分类的人力、时间,对提高企业的分类效率具有实际意义。对Word2vec和支持向量机进行改进,提出了改进的Word2vec和cgSVM模型,丰富了文本表示和文本分类模型,对后续的中文文本分类研究具有理论意义。图14 表17 参67
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TD79
【图文】:
处理后应用到对已经构建的自动分类模型的性能验证、分析中。分析模型性能,逡逑选取性能较好的模型运用到煤矿事故案例自动分类中。具体实验和本文研宄的过逡逑程如图1-2的技术路线图所示。逡逑-6邋-逡逑
分类模型构建以及根据分类结果的评价指标对己经构建的模型性能进行逡逑评价等一系列过程。在了解了文本分类从数学角度的定义以及文本分类的运用领逡逑域之后,本研宄对文本数据分类的整个流程进行了梳理,具体的流程如图2-1所逡逑示。观察图2-1能够发现,文本分类由两个部分组成。分别为将文本数据进行一逡逑系列处理之后,通过训练特征,使用特定的算法进行模型构建以及使用测试集样逡逑本数据对模型的性能进行评价两个部分。因此,模型构建的成功与否需要根据性逡逑能分析结果进行评价。逡逑r逦1逡逑!邋,逦^逦丨分类算丨!逡逑|邋口训练标签逦1逦^法模型逦!逡逑!邋I逦y逦(S\TH,逦!逡逑i邋逦7逦rr^n逦支持向逡逑丨逦1U逦1逦量机,随逡逑i邋L训练文档逦f邋?逦|训练逦机森林逡逑I邋1逦(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1逦逦逦逡逑!邋逦7逦5邋表逦 ̄ ̄ ̄逡逑I邋—运^i]逦I逡逑!邋[邋逦逦邋j,邋丨邋i逡逑;L测试文a逦J邋1逦?涯性能评估.逦[1sE囩果邋^邋!逡逑图2-1文本分类模型构建流程图逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本数据处理逡逑数据分类效果的优劣主要取决于样本数据的质量
图2-2分类算法和回归算法模型结构逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑观察图2-2中绘制的分类、回归模型能够发现两者存在本质的区别。分类模逡逑型的主要思想为:寻找一条线或者平面区分样本中的不同的样本类别。逡逑Classification模型中实心圆和实心三角形分别代表样本数据中对应的两个类别。逡逑回归的主要思想:求取一条线或者二次曲线等对样本数据进行拟合,使得样本数逡逑据尽可能多的分布在求取的线上。Regression模型中表示数据集中的样本数据。逡逑为了展示回归分析和分类问题在数据类型、应用和对应算法之间的差异,将分类逡逑算法与回归算法进行汇总,详细结果如表2-4。逡逑表2>4回归与分类算法比较逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑数据类型逦应用逦对应算法逦—逡逑样本数据中给定的娜立圾邮件以及逻辑回归、决策树、逡逑回归分析逦输出变量的为离散朴素贝叶斯算法、支逡逑榐的~忓纬窒蛄炕儒义戏掷辔侍忮窝臼葜惺涑霰浞考邸⑺拔瘛⒉罚ゅ沃С窒蛄炕儒义希掊瘟课当淞垮我舛仍げ獾儒义希玻矗逼铀乇匆端狗掷嗥麇义媳匆端估砺凼怯⒐Ъ冶匆端褂冢保罚叮衬晏岢龅模员匆端雇臣评砺垡约板义贤臣仆贫系染鞒隽司薮蟮墓毕祝永砺凵侠唇玻匆端估砺壑傅氖窃谝桓鍪录义戏⑸那疤嵯拢硪桓鍪录餐狈⑸目赡苄杂卸啻螅杂Φ氖П泶锸饺缡藉义希玻乘尽e义厦麇问剑玻冲义鲜剑玻持
本文编号:2774510
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TD79
【图文】:
处理后应用到对已经构建的自动分类模型的性能验证、分析中。分析模型性能,逡逑选取性能较好的模型运用到煤矿事故案例自动分类中。具体实验和本文研宄的过逡逑程如图1-2的技术路线图所示。逡逑-6邋-逡逑
分类模型构建以及根据分类结果的评价指标对己经构建的模型性能进行逡逑评价等一系列过程。在了解了文本分类从数学角度的定义以及文本分类的运用领逡逑域之后,本研宄对文本数据分类的整个流程进行了梳理,具体的流程如图2-1所逡逑示。观察图2-1能够发现,文本分类由两个部分组成。分别为将文本数据进行一逡逑系列处理之后,通过训练特征,使用特定的算法进行模型构建以及使用测试集样逡逑本数据对模型的性能进行评价两个部分。因此,模型构建的成功与否需要根据性逡逑能分析结果进行评价。逡逑r逦1逡逑!邋,逦^逦丨分类算丨!逡逑|邋口训练标签逦1逦^法模型逦!逡逑!邋I逦y逦(S\TH,逦!逡逑i邋逦7逦rr^n逦支持向逡逑丨逦1U逦1逦量机,随逡逑i邋L训练文档逦f邋?逦|训练逦机森林逡逑I邋1逦(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1逦逦逦逡逑!邋逦7逦5邋表逦 ̄ ̄ ̄逡逑I邋—运^i]逦I逡逑!邋[邋逦逦邋j,邋丨邋i逡逑;L测试文a逦J邋1逦?涯性能评估.逦[1sE囩果邋^邋!逡逑图2-1文本分类模型构建流程图逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本数据处理逡逑数据分类效果的优劣主要取决于样本数据的质量
图2-2分类算法和回归算法模型结构逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑观察图2-2中绘制的分类、回归模型能够发现两者存在本质的区别。分类模逡逑型的主要思想为:寻找一条线或者平面区分样本中的不同的样本类别。逡逑Classification模型中实心圆和实心三角形分别代表样本数据中对应的两个类别。逡逑回归的主要思想:求取一条线或者二次曲线等对样本数据进行拟合,使得样本数逡逑据尽可能多的分布在求取的线上。Regression模型中表示数据集中的样本数据。逡逑为了展示回归分析和分类问题在数据类型、应用和对应算法之间的差异,将分类逡逑算法与回归算法进行汇总,详细结果如表2-4。逡逑表2>4回归与分类算法比较逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑数据类型逦应用逦对应算法逦—逡逑样本数据中给定的娜立圾邮件以及逻辑回归、决策树、逡逑回归分析逦输出变量的为离散朴素贝叶斯算法、支逡逑榐的~忓纬窒蛄炕儒义戏掷辔侍忮窝臼葜惺涑霰浞考邸⑺拔瘛⒉罚ゅ沃С窒蛄炕儒义希掊瘟课当淞垮我舛仍げ獾儒义希玻矗逼铀乇匆端狗掷嗥麇义媳匆端估砺凼怯⒐Ъ冶匆端褂冢保罚叮衬晏岢龅模员匆端雇臣评砺垡约板义贤臣仆贫系染鞒隽司薮蟮墓毕祝永砺凵侠唇玻匆端估砺壑傅氖窃谝桓鍪录义戏⑸那疤嵯拢硪桓鍪录餐狈⑸目赡苄杂卸啻螅杂Φ氖П泶锸饺缡藉义希玻乘尽e义厦麇问剑玻冲义鲜剑玻持
本文编号:2774510
本文链接:https://www.wllwen.com/kejilunwen/kuangye/2774510.html