面向电力审计领域的两阶段短文本分类方法研究
发布时间:2021-06-21 23:01
为解决电力审计领域中将审计发现问题按标准问题定义进行归类的现实需求,提出了一种两阶段短文本分类方法.该方法包括粗分类和细分类两个阶段.粗分类阶段通过对审计报告文本中的主观问题定性,对国网电力审计问题库文本中的审计问题的一级类目等粗粒度特征进行模糊匹配,实现审计发现问题预分类.细分类阶段通过对审计报告文本中的问题进行描述,对国网电力审计问题库文本中的审计问题的二、三级类目等细粒度属性进行文本特征抽取、特征向量化,并将粗分类阶段的结果用于文本特征和向量化的权值调整和相似性度量的对象范围选择,实现基于非结构化文本的审计问题分类.国网重庆市电力公司2016年审计发现问题汇总数据的实验结果表明,该方法能够有效提升审计问题分类性能,能为电力审计行业规范审计报告、提高审计效率提供有力支持.
【文章来源】:西南大学学报(自然科学版). 2020,42(10)北大核心CSCD
【文章页数】:7 页
【部分图文】:
一级分类实验结果
对比实验结果
本文提出的两阶段电力审计短文本分类方法包含粗粒度分类、 细粒度分类两个阶段(如图1所示). 在第一个粗粒度分类阶段, 针对粗粒度属性进行处理, 采用不考虑语义信息的模糊匹配方法[11], 通过字符串近似查找将审计报告中的审计问题预归类到标准问题库中的一级类目. 在第二个细粒度分类阶段, 首先将粗粒度分类的结果用于词频—逆文档词频(Term Frequency–Inverse Document Frequency, TF-IDF)算法[12]的文本特征项权重计算, 然后将获得的关键词权重与Word2vec方法结合进行文本特征向量化, 最后采用余弦相似度计算审计报告中的审计问题和粗分类结果中所包含的二、 三级类目的对应细粒度属性的相似程度, 从而得到最终分类结果.1.1 阶段一: 基于模糊匹配的粗分类
【参考文献】:
期刊论文
[1]增强领域特征的电力审计文本分类方法[J]. 陈平,匡尧,胡景懿,王向阳,蔡静. 计算机应用. 2020(S1)
[2]短文本分类技术研究综述[J]. 邓丁朋,周亚建,池俊辉,李佳乐. 软件. 2020(02)
[3]基于Word2Vec的中文短文本分类问题研究[J]. 汪静,罗浪,王德强. 计算机系统应用. 2018(05)
[4]面向审计领域的短文本分类技术研究[J]. 伍洋,钟鸣,姜艳,李石君. 微电子学与计算机. 2015(01)
[5]基于两阶段学习的半监督支持向量机分类算法[J]. 陶新民,曹盼东,宋少宇,付丹丹. 信息与控制. 2012(01)
[6]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[7]基于领域词语本体的短文本分类[J]. 宁亚辉,樊兴华,吴渝. 计算机科学. 2009(03)
[8]基于本体的概念语义相似度计算及其应用[J]. 陈沈焰,吴军华. 微电子学与计算机. 2008(12)
[9]快速中文字符串模糊匹配算法[J]. 陈开渠,赵洁,彭志威. 中文信息学报. 2004(02)
[10]基于《〈知网〉》词汇语义相关度计算的消歧方法[J]. 李生琦,田巧燕,汤承. 情报学报. 2009 (05)
本文编号:3241592
【文章来源】:西南大学学报(自然科学版). 2020,42(10)北大核心CSCD
【文章页数】:7 页
【部分图文】:
一级分类实验结果
对比实验结果
本文提出的两阶段电力审计短文本分类方法包含粗粒度分类、 细粒度分类两个阶段(如图1所示). 在第一个粗粒度分类阶段, 针对粗粒度属性进行处理, 采用不考虑语义信息的模糊匹配方法[11], 通过字符串近似查找将审计报告中的审计问题预归类到标准问题库中的一级类目. 在第二个细粒度分类阶段, 首先将粗粒度分类的结果用于词频—逆文档词频(Term Frequency–Inverse Document Frequency, TF-IDF)算法[12]的文本特征项权重计算, 然后将获得的关键词权重与Word2vec方法结合进行文本特征向量化, 最后采用余弦相似度计算审计报告中的审计问题和粗分类结果中所包含的二、 三级类目的对应细粒度属性的相似程度, 从而得到最终分类结果.1.1 阶段一: 基于模糊匹配的粗分类
【参考文献】:
期刊论文
[1]增强领域特征的电力审计文本分类方法[J]. 陈平,匡尧,胡景懿,王向阳,蔡静. 计算机应用. 2020(S1)
[2]短文本分类技术研究综述[J]. 邓丁朋,周亚建,池俊辉,李佳乐. 软件. 2020(02)
[3]基于Word2Vec的中文短文本分类问题研究[J]. 汪静,罗浪,王德强. 计算机系统应用. 2018(05)
[4]面向审计领域的短文本分类技术研究[J]. 伍洋,钟鸣,姜艳,李石君. 微电子学与计算机. 2015(01)
[5]基于两阶段学习的半监督支持向量机分类算法[J]. 陶新民,曹盼东,宋少宇,付丹丹. 信息与控制. 2012(01)
[6]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[7]基于领域词语本体的短文本分类[J]. 宁亚辉,樊兴华,吴渝. 计算机科学. 2009(03)
[8]基于本体的概念语义相似度计算及其应用[J]. 陈沈焰,吴军华. 微电子学与计算机. 2008(12)
[9]快速中文字符串模糊匹配算法[J]. 陈开渠,赵洁,彭志威. 中文信息学报. 2004(02)
[10]基于《〈知网〉》词汇语义相关度计算的消歧方法[J]. 李生琦,田巧燕,汤承. 情报学报. 2009 (05)
本文编号:3241592
本文链接:https://www.wllwen.com/jingjilunwen/sjlw/3241592.html