电力调度知识图谱中知识抽取系统的设计与实现
发布时间:2021-01-22 12:32
随着计算机技术的快速发展以及人工智能与多个领域的结合使用,人工智能相关技术在生产生活中所提供的便利也让人们认识到人工智能技术所拥有的各种潜力,其中知识图谱所涉及的各种技术随着近些年的发展也开始成为人们的研究热点。而在电力领域,电力调度是为了使各种类的电力生产工作有序进行,保证电网对内可以保证自身安全稳定运行、对外能够提供可靠供电所采用的一种有效的管理手段与管理方式。为了提高电力调度的工作效率,结合现在知识图谱技术的发展技术,设计并实现一个电力调度领域的知识抽取系统,让该系统作为后续电力调度领域知识图谱构建的前期工作之一,以保证后续知识图谱构建中的其余工作可以顺利进行。为了解决电力调度领域知识图谱中知识抽取的问题。目前电力调度领域没有相关的知识抽取技术可以直接使用,因此研究并参考知识抽取技术在其他领域的一些研究资料以及使用情况,然后结合本科题的实际情况,在电力调度领域中知识抽取系统设计和实现过程中使用到的一些技术。在数据预处理中,使用数据清洗方面的一些技术对数据中的重复值和噪声数据进行处理;在实体抽取部分,使用Transformer模型获取句子的positional embedding代...
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
2启动Redis数据库存储系统服务
第5章实验结果与分析49第5章实验结果与分析5.1引言继上一章节介绍了本文中系统的实现方式,接着在本章节展示对系统的功能的一些测试结果。其中的测试内容主要是对知识抽取系统中的几个主要模块功能进行测试,检验其中的主要功能的实现效果。在此基础上,在实体抽取部分比较了本文中的实体抽取模型与其他研究成果中实体抽取模型的结果对比。而在其他部分,展示本系统中主要模块的在实现上的结果。5.2数据结果分析通过把系统各个部分的运行得到各个部分的运行结果。数据预处理前的资料如图5.1所示,经过数据预处理模块后的结果数据如图5.2所示。图5.1数据预处理前Figure5.1DataPreprocessingBefore在图5.1和图5.2这两张图片中,图5.2为正常的文本数据,以一个句子或完整意思的短句为一个段落,为了将数据输入到模型中进行命名实体识别,对文本数据进行预处理。处理后的结果为5.3所示,在该文本文件中,段落中的原来句子已经被处理为以单句或是相应的词语为一个段落。在后续的模型中,直接将处理后文本中的句子以一个段落输入到模型进行处理。
电力调度知识图谱中知识抽取系统的设计与实现50图5.2数据预处理后Figure5.2DataPreprocessingLater在数据预处理模块的测试结果中,可达到预期的结果,接着讲输入导入到下一个模块使用。该模块的实现过程虽然分成了三个小的模型,但是其结果是为了实现知识抽取中的实体抽取,因此在训练和测试的过程中将其作为一个整体进行模型训练与结果测试。首先,用于本文的数据集来源于某电网公司内的电力调度方面的数据。该数据集包含训练集和测试集两个部分,其中训练集包含34.2k个句子,1547.8k个字;测试集包含2.9k个句子,109.3k个字。然后在标注策略和评价指标方面,命名实体识别的标注策略有BIO模式、BIOE模式、BIOES模式。本文采用BIOES标注策略,其中B(Begin)表示实体开始,I(Intemediate)表示中间部分,O(Other)表示其他与标记无关的字符,E(End)表示结束,S(Single)表示单个字符。命名实体识别的评价指标有准确率(P)、召回率(R)和F1值。公式中的参数定义如下:Tp为模型识别正确的实体个数,Fp为模型识别出的不相关的实体个数,Fn为相关的实体但是模型没有识别出的个数,其中公式表示为公式(5.1)~公式(5.3)
【参考文献】:
期刊论文
[1]基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 李妮,关焕梅,杨飘,董文永. 山东大学学报(理学版). 2020(01)
[2]电力调度的运行保障问题与措施分析[J]. 郭小龙,马丽亚,郭建峰,李湘华. 集成电路应用. 2020(01)
[3]电力调度监控一体化系统的告警信息优化研究[J]. 吴永琴. 通信电源技术. 2019(12)
[4]基于深度学习的关系抽取研究综述[J]. 庄传志,靳小龙,朱伟建,刘静伟,白龙,程学旗. 中文信息学报. 2019(12)
[5]实体抽取及关系发现关键技术研究[J]. 李福琳. 信息技术与信息化. 2019(10)
[6]知识图谱研究综述[J]. 黄恒琪,于娟,廖晓,席运江. 计算机系统应用. 2019(06)
[7]基于迁移学习和BiLSTM-CRF的中文命名实体识别[J]. 武惠,吕立,于碧辉. 小型微型计算机系统. 2019(06)
[8]基于BiLSTM-CRF的商情实体识别模型[J]. 张应成,杨洋,蒋瑞,全兵,张利君,任晓雷. 计算机工程. 2019(05)
[9]中文命名实体识别模型对比分析[J]. 祖木然提古丽·库尔班,艾山·吾买尔. 现代计算机. 2019(14)
[10]知识图谱数据管理研究综述[J]. 王鑫,邹磊,王朝坤,彭鹏,冯志勇. 软件学报. 2019(07)
本文编号:2993234
【文章来源】:中国科学院大学(中国科学院沈阳计算技术研究所)辽宁省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
2启动Redis数据库存储系统服务
第5章实验结果与分析49第5章实验结果与分析5.1引言继上一章节介绍了本文中系统的实现方式,接着在本章节展示对系统的功能的一些测试结果。其中的测试内容主要是对知识抽取系统中的几个主要模块功能进行测试,检验其中的主要功能的实现效果。在此基础上,在实体抽取部分比较了本文中的实体抽取模型与其他研究成果中实体抽取模型的结果对比。而在其他部分,展示本系统中主要模块的在实现上的结果。5.2数据结果分析通过把系统各个部分的运行得到各个部分的运行结果。数据预处理前的资料如图5.1所示,经过数据预处理模块后的结果数据如图5.2所示。图5.1数据预处理前Figure5.1DataPreprocessingBefore在图5.1和图5.2这两张图片中,图5.2为正常的文本数据,以一个句子或完整意思的短句为一个段落,为了将数据输入到模型中进行命名实体识别,对文本数据进行预处理。处理后的结果为5.3所示,在该文本文件中,段落中的原来句子已经被处理为以单句或是相应的词语为一个段落。在后续的模型中,直接将处理后文本中的句子以一个段落输入到模型进行处理。
电力调度知识图谱中知识抽取系统的设计与实现50图5.2数据预处理后Figure5.2DataPreprocessingLater在数据预处理模块的测试结果中,可达到预期的结果,接着讲输入导入到下一个模块使用。该模块的实现过程虽然分成了三个小的模型,但是其结果是为了实现知识抽取中的实体抽取,因此在训练和测试的过程中将其作为一个整体进行模型训练与结果测试。首先,用于本文的数据集来源于某电网公司内的电力调度方面的数据。该数据集包含训练集和测试集两个部分,其中训练集包含34.2k个句子,1547.8k个字;测试集包含2.9k个句子,109.3k个字。然后在标注策略和评价指标方面,命名实体识别的标注策略有BIO模式、BIOE模式、BIOES模式。本文采用BIOES标注策略,其中B(Begin)表示实体开始,I(Intemediate)表示中间部分,O(Other)表示其他与标记无关的字符,E(End)表示结束,S(Single)表示单个字符。命名实体识别的评价指标有准确率(P)、召回率(R)和F1值。公式中的参数定义如下:Tp为模型识别正确的实体个数,Fp为模型识别出的不相关的实体个数,Fn为相关的实体但是模型没有识别出的个数,其中公式表示为公式(5.1)~公式(5.3)
【参考文献】:
期刊论文
[1]基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 李妮,关焕梅,杨飘,董文永. 山东大学学报(理学版). 2020(01)
[2]电力调度的运行保障问题与措施分析[J]. 郭小龙,马丽亚,郭建峰,李湘华. 集成电路应用. 2020(01)
[3]电力调度监控一体化系统的告警信息优化研究[J]. 吴永琴. 通信电源技术. 2019(12)
[4]基于深度学习的关系抽取研究综述[J]. 庄传志,靳小龙,朱伟建,刘静伟,白龙,程学旗. 中文信息学报. 2019(12)
[5]实体抽取及关系发现关键技术研究[J]. 李福琳. 信息技术与信息化. 2019(10)
[6]知识图谱研究综述[J]. 黄恒琪,于娟,廖晓,席运江. 计算机系统应用. 2019(06)
[7]基于迁移学习和BiLSTM-CRF的中文命名实体识别[J]. 武惠,吕立,于碧辉. 小型微型计算机系统. 2019(06)
[8]基于BiLSTM-CRF的商情实体识别模型[J]. 张应成,杨洋,蒋瑞,全兵,张利君,任晓雷. 计算机工程. 2019(05)
[9]中文命名实体识别模型对比分析[J]. 祖木然提古丽·库尔班,艾山·吾买尔. 现代计算机. 2019(14)
[10]知识图谱数据管理研究综述[J]. 王鑫,邹磊,王朝坤,彭鹏,冯志勇. 软件学报. 2019(07)
本文编号:2993234
本文链接:https://www.wllwen.com/kejilunwen/dianlidianqilunwen/2993234.html