基于词典扩充的电力客服工单情感倾向性分析
发布时间:2020-02-19 00:23
【摘要】:为了有效提高电力企业客户满意度及主动服务意识,结合电力客服工单文本特征,构建了电力客服工单情感分析模型。先通过TF-IDF思想进行工单关键词提取,采用word2vec训练得出每个词语的词向量,通过计算余弦相似度将高相似领域词汇扩充到情感词典,再进行工单倾向性分析及文本分类。通过实验分析验证该方法的有效性,实验结果表明,相较于原始情感词典,进行词典扩充及工单情感倾向性分析方法更具优势,准确率更高,可为电力企业客户关系管理提供一定的参考。
【图文】:
肭?N-1个词相关,其原理示意图如图1所示。图1中,最下方的wt-1,wt-2,,wt-n+1为前N-1个输入词,并根据其预测下一个词wt,每个输入词被映射为一个向量,C(wt-1)为词语wt-1的词向量。网络的第一层(输入层)为输入词语组成的(n-1)m维向量x;网络第二层(隐藏层)计算Hx+d,d为偏置因子,使用激活函数tanh;网络第三层(输出层)包含|V|个节点,每个节点yi表示下一词i的未归一化log概率,并使用softmax激活函数将输出值y归一化,最后使用随机梯度下降法对模型进行优化。图1NNLM原理模型图模型的目标函数为:f(w)t,wt-1,,wt-n+2,wt-n+1=p(|)wtwt-11需要满足的约束条件为:f(w)t,wt-1,,wt-n+2,wt-n+1>0∑i=1|V|f(i,w)t-1,,wt-n+2,wt-n+1=12电力客服工单情感分析模型本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。2.1工单文本预处理由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”?
第11期吴和海,等:一种适用于机组组合优化的改进整数编码粒子群算法右。这是由于本文采用修复策略对不可行粒子进行修复,使算法只在可行解区域内搜索最优解,有效提高收敛速度;同时相比二进制编码,本文的整数编码方式能有效提高粒子群算法的搜索效率。因此本文提出的整数编码粒子群算法更适用于求解大规模机组组合问题。图4不同机组规模的执行时间曲线4结语本文采用整数编码粒子群算法来求解机组组合问题。通过整数编码方式,用正负整数分别表示机组开停机时间长度,相比于二进制编码它能有效减少待优化变量个数。求解过程中针对机组组合问题的特点,采用修补策略处理不满足约束条件的粒子,使算法只在可行解区域内搜索,通过切除冗余机组提高解的精度。仿真算例表明,相比rICGA,IPSO,SEP,本文提出的ICPSO算法求解大规模机组组合优化问题具有更高的精度,求解时间大幅度减少。参考文献[1]KAZARLISSA,BAKIRTZISAG,PETRIDISV.Ageneticalgorithmsolutiontotheunitcommitmentproblem[J].IEEEtransactionsonpowersystems,1996,11(1):8392.[2]黎静华,兰飞.机组组合问题的模型及算法综述[J].现代电力,2011,28(6):110.[3]李丹,高立群,王珂,等.电力系统机组组合问题的动态双种群粒子群算法[J].计算机应用,2008,28(1):104107.[4]张涛,史苏怡,徐雪琴.基于二进制量子粒子群算法的含分布式电源配电网重构[J].电力系统保护与控制,2016,44(4):2228.[5]方源,章桐,陈霏霏,,等.电动车动力总成噪声品质粒子群向量机预测模型[J].西安交通大学学报,2016,50(1):4146.[6]
本文编号:2580854
【图文】:
肭?N-1个词相关,其原理示意图如图1所示。图1中,最下方的wt-1,wt-2,,wt-n+1为前N-1个输入词,并根据其预测下一个词wt,每个输入词被映射为一个向量,C(wt-1)为词语wt-1的词向量。网络的第一层(输入层)为输入词语组成的(n-1)m维向量x;网络第二层(隐藏层)计算Hx+d,d为偏置因子,使用激活函数tanh;网络第三层(输出层)包含|V|个节点,每个节点yi表示下一词i的未归一化log概率,并使用softmax激活函数将输出值y归一化,最后使用随机梯度下降法对模型进行优化。图1NNLM原理模型图模型的目标函数为:f(w)t,wt-1,,wt-n+2,wt-n+1=p(|)wtwt-11需要满足的约束条件为:f(w)t,wt-1,,wt-n+2,wt-n+1>0∑i=1|V|f(i,w)t-1,,wt-n+2,wt-n+1=12电力客服工单情感分析模型本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。2.1工单文本预处理由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”?
第11期吴和海,等:一种适用于机组组合优化的改进整数编码粒子群算法右。这是由于本文采用修复策略对不可行粒子进行修复,使算法只在可行解区域内搜索最优解,有效提高收敛速度;同时相比二进制编码,本文的整数编码方式能有效提高粒子群算法的搜索效率。因此本文提出的整数编码粒子群算法更适用于求解大规模机组组合问题。图4不同机组规模的执行时间曲线4结语本文采用整数编码粒子群算法来求解机组组合问题。通过整数编码方式,用正负整数分别表示机组开停机时间长度,相比于二进制编码它能有效减少待优化变量个数。求解过程中针对机组组合问题的特点,采用修补策略处理不满足约束条件的粒子,使算法只在可行解区域内搜索,通过切除冗余机组提高解的精度。仿真算例表明,相比rICGA,IPSO,SEP,本文提出的ICPSO算法求解大规模机组组合优化问题具有更高的精度,求解时间大幅度减少。参考文献[1]KAZARLISSA,BAKIRTZISAG,PETRIDISV.Ageneticalgorithmsolutiontotheunitcommitmentproblem[J].IEEEtransactionsonpowersystems,1996,11(1):8392.[2]黎静华,兰飞.机组组合问题的模型及算法综述[J].现代电力,2011,28(6):110.[3]李丹,高立群,王珂,等.电力系统机组组合问题的动态双种群粒子群算法[J].计算机应用,2008,28(1):104107.[4]张涛,史苏怡,徐雪琴.基于二进制量子粒子群算法的含分布式电源配电网重构[J].电力系统保护与控制,2016,44(4):2228.[5]方源,章桐,陈霏霏,,等.电动车动力总成噪声品质粒子群向量机预测模型[J].西安交通大学学报,2016,50(1):4146.[6]
本文编号:2580854
本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/2580854.html