当前位置:主页 > 科技论文 > 电力论文 >

基于文本识别技术的电气设备监测数据处理

发布时间:2020-07-22 08:44
【摘要】:随着社会经济的不断进步,对电气设备的工作要求越来越高。电力系统作为当今能源产业的重要组成部分,在生产过程中产生了海量的故障文本数据。如何有效处理电力系统中积累的大量中文文本故障数据,对电气设备监测数据领域的研究具有重要意义。目前,电力系统故障文本大多使用单一模型进行分类,且精确度有待进一步提高。针对这一情况,构建多种文本分类模型并比较分析,有利于提高电力设备故障文本分类的准确性。电力设备故障文本在分类之前需要专业人士进行人工筛选,传统的机器学习模型需要对筛选后的数据做特征提取、空间向量表示和模型训练等工作,深度学习模型进行人工标注处理文本序列,直接将筛选后的文本投放到分类器中训练。本文针对机器学习分类模型和深度学习分类模型对文本分类准确率高低为出发点,构建了多种分类模型比较分析,得出分类准确率较高的模型。针对电气设备故障文本分类研究,构建了五种传统的机器学习分类模型(支持向量机模型、K-最近邻模型、朴素贝叶斯模型、Logistic回归模型、Gradient Boosting模型),研究这些模型的故障数据分类准确率。研究过程包括对筛选后的故障数据通过隐马尔科夫模型的维特比算法进行文本分词和去除停用词处理,接着对预处理后的数据通过卡方统计量和互信息法以及融合卡方统计量和互信息法改进的M-CHI法对文本数据进行特征提取,并通过空间向量模型进行文本表示得到词向量矩阵,接下来将词向量矩阵分别投放到构建的五种机器学习训练模型中。实验结果表明,改进的M-CHI特征提取方法提高了故障数据的特征提取值,支持向量机模型在采用该方法的基础上是五种机器学习模型中分类准确率最高的。针对深度学习对文本分类研究,在LSTM模型基础上,为了加强故障文本上下文信息关联,改善信息不连续导致分类错误的情况,构建了双层双向LSTM模型,接着采用Word2vec词向量模型的Skip-Gram架构对词向量进行训练,并融合深层注意力机制关注文本数据中不同词向量的权重,构建了基于深层注意力机制的DA-BiLSTM模型,并与机器学习模型进行分类效果对比分析。实验结果表明,通过对该模型性能做综合训练测试,验证了该模型的分类准确率优于机器学习分类模型,为电气设备监测数据分类提供了有价值的参考。
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TM507;TP391.1
【图文】:

准确率,华北电力大学,硕士学位论文,预期效果


华北电力大学硕士学位论文0 个之后,3 种方法的准确率都较高,基本都在 0.8 以上,并且趋其是经过融合的 M-CHI 法的分类准确率高于其他 2 个方法,且预期效果。

准确率,准确性,特征项,平稳状态


29图 4-2 三种特征选择方法在 KNN 上的分类准确率4-2 刻画的是 CHI 法、MI 法和 M-CHI 法在 KNN 分类器上对变压准确性。从选取不同数量的特征项进行分类实验可以看出,当特时,CHI 法和 M-CHI 法的准确率基本处于增长的趋势,而 MI 法的相对于其他几个模型来说,稳定性较差。当数据集大于 1700 个确率都趋于平稳状态,M-CHI 方法的准确性要优于其他两种方法准确率均在 0.7 左右。

准确率,特征项,电气设备故障


图 4-3 三种特征选择方法在 NB 上的分类准确率-3 刻画的是 CHI 法、MI 法和 M-CHI 法在 NB 分类器上对变压器确性。从选取不同数量的特征项进行的分类实验可以看出,三种随着数据集的增加而增长,M-CHI 法的准确率一直高于其他两确率依旧是最低的。选取从 100 个到 1900 个特征项时三种特征类模型的分类准确率都处于不断增长的趋势,MI 法的准确率一直增长速率依旧保持最大,M-CHI 法和 CHI 法的增长幅度基本相相对于 CHI 法一直保持优势。当特征项大于 1900 个时,三种特率都趋于平稳的状态,M-CHI 法的准确率要高于其他两种方法确率都不足 0.75。M 算法在电气设备故障文本中的应用

【相似文献】

相关期刊论文 前10条

1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期

4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期

5 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期

6 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期

7 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期

8 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期

9 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期

10 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期

相关会议论文 前10条

1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 周纯洁;黎]

本文编号:2765583


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianlilw/2765583.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f4d5e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com