公共服务热线中基于地域自适应的突发事件实时检测方法
发布时间:2021-09-06 18:15
随着信息技术的普及应用,城市公共服务热线平台累积了大量亟待分析的民生诉求数据.传统事件检测方法缺少对于地域模式的考虑,同时,其所依赖的GPS地理信息也不易获得.因此,难以直接运用现有的突发事件检测方法挖掘公共服务热线中潜在的民生突发事件.为此,本文提出了一种基于地域自适应的突发事件实时检测方法(RAEDetection).首先,提出一种基于增量式Kleinberg模型的突发词识别算法,克服了现有批处理式Kleinberg模型的局限性,可从流式增量数据中实时识别突发词汇;然后,提出一种基于分层语义分析的候选突发事件识别算法,以突发词为线索,先根据突发词的主题层语义信息确定突发主题事件,再根据诉求记录的事件层语义信息将每个突发主题事件进一步细分为多个候选突发事件;最后,提出一种基于事件地域树的地域模式自适应识别算法,通过构建包含市级、区级、街道级三层结构的事件地域树,并通过基于KL距离的事件地域分布检验与优化,自适应地识别不同事件发生的地域模式,过滤候选突发事件中的噪声数据,得到最终的突发事件.在城市公共服务真实数据集以及Twitter数据集上的实验结果表明,与目前最新的方法对比,本文方法...
【文章来源】:计算机学报. 2020,43(12)北大核心EICSCD
【文章页数】:17 页
【部分图文】:
图1?RAEDetection方法框架??
??现有基于Kleinberg[21]模型的突发词识别算法??只能以批处理的方式对给定时间窗口内的全量数据??进行突发词识别.但是,其无法对流式增量数据场景??下的突发词实时识别.??考虑到公共服务热线中的诉求记录天然包含有??序的时序信息,是一种典型的时序数据流.因此,我??们对现有的批处理式Kleinberg模型进行改进,提??出一种适用于流式数据的增量式Kleinberg模型,??克服了现有批处理式Kleinberg模型的局限性,实??现突发词汇的实时识别.该模型结构如图2所示.??突发状态??时间剛??观ii值0?0??图2增量式Kleinberg模型??在增量式Kleinberg模型中,单词w的突发行??为被描述为一段时间窗口内突发状态与非突发状态??的相互转换过程.状态变量s,表示单词w在第/时??刻的突发程度.若\?=?1,则该单词处于突发状态,即??为突发词;若\?=?〇,则该单词处于非突发状态.观测??变量工,表示单词w在时刻f时与上次该单词出现??时刻i?一?1之间的时间间隔.??假设单词w以一定概率随机出现,单词te;前后??两次出现的时间间隔x服从的概率分布记为??B(j,+i,s,+i)=u?°',.丨.一丨>0“,+i=〇,l?(1)??其中,B+?i|)表不输出观测值x,?+?1的概率,??表示z+1时刻单词W在突发状态s,+1的条件??下的产生速率,记为??a,+l=(NJT)???g^,?g>l?(2)??.表示给定时间窗口内单词w出现??的总次数,T表示时间窗口〈?Wf?,,乂〉的跨度.??从状态6,转移到状态\+1的总体代价函数为??A(s,??x,-h
EDetection??方法与基线对比方法是否存在将某一个广域事件重??复地识别为多个局部事件的现象.??事件重复检测的概念解释为:如果某一个广域??突发事件被错误地拆分为多个局部突发事件,则会??产生重复现象.如果某个突发事件检测算法的检测??重复率增高,则会导致检出的突发事件中存在多个??相同的事件,使得查准率指标P下降,具体分析案??例将在第7.?4小节中给出.??7.4定性分析??为了阐述本文所提RAEDetection方法的有效??性以及与各种基线方法的对比效果,图5与图6分??别给出了本文选出的3种不同事件检测方法对具备??E,记录不例:??ES3??〇db??*浦口区顶山街道镇南河路99号正荣润锦??城.突发停水,要求尽快恢复供水.??£:-记录示例:??l^°??*浦口区江浦街道新浦路127号停水,一直??未恢复,没有提前告知.??a??E.iid录示例:??*浦U区桥林街道兰桥雅居,此处正在停??水,对此不认可.??(a)?TrioVecEvent??。.。?L??圮记录示例:??*浦口区顶山街道雅居乐滨江国际反映自??来水公司停水通知太迟.??*浦口区江浦街道珠泉花园,该处多户停??水,没有看到停水通知,要求告知停水原??〇名)??因和恢复时间.??〇〇.°??£:、记录示例:??A,今A??*浦口区桥林街道兰桥雅居,此处正在停??水,对此不认可.??(b)?TopicSketch??0?〇?1??圮记录示例:??籲浦口区江油街逍,此处停水.??-?E?A??*浦口区江浦街道浦珠花园,市民表示此处??从18:00开始冷水,It没有恢要求尽??A?Aa?
【参考文献】:
期刊论文
[1]微博网络地域Top-k突发事件检测[J]. 仲兆满,管燕,李存华,刘宗田. 计算机学报. 2018(07)
[2]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
本文编号:3387940
【文章来源】:计算机学报. 2020,43(12)北大核心EICSCD
【文章页数】:17 页
【部分图文】:
图1?RAEDetection方法框架??
??现有基于Kleinberg[21]模型的突发词识别算法??只能以批处理的方式对给定时间窗口内的全量数据??进行突发词识别.但是,其无法对流式增量数据场景??下的突发词实时识别.??考虑到公共服务热线中的诉求记录天然包含有??序的时序信息,是一种典型的时序数据流.因此,我??们对现有的批处理式Kleinberg模型进行改进,提??出一种适用于流式数据的增量式Kleinberg模型,??克服了现有批处理式Kleinberg模型的局限性,实??现突发词汇的实时识别.该模型结构如图2所示.??突发状态??时间剛??观ii值0?0??图2增量式Kleinberg模型??在增量式Kleinberg模型中,单词w的突发行??为被描述为一段时间窗口内突发状态与非突发状态??的相互转换过程.状态变量s,表示单词w在第/时??刻的突发程度.若\?=?1,则该单词处于突发状态,即??为突发词;若\?=?〇,则该单词处于非突发状态.观测??变量工,表示单词w在时刻f时与上次该单词出现??时刻i?一?1之间的时间间隔.??假设单词w以一定概率随机出现,单词te;前后??两次出现的时间间隔x服从的概率分布记为??B(j,+i,s,+i)=u?°',.丨.一丨>0“,+i=〇,l?(1)??其中,B+?i|)表不输出观测值x,?+?1的概率,??表示z+1时刻单词W在突发状态s,+1的条件??下的产生速率,记为??a,+l=(NJT)???g^,?g>l?(2)??.表示给定时间窗口内单词w出现??的总次数,T表示时间窗口〈?Wf?,,乂〉的跨度.??从状态6,转移到状态\+1的总体代价函数为??A(s,??x,-h
EDetection??方法与基线对比方法是否存在将某一个广域事件重??复地识别为多个局部事件的现象.??事件重复检测的概念解释为:如果某一个广域??突发事件被错误地拆分为多个局部突发事件,则会??产生重复现象.如果某个突发事件检测算法的检测??重复率增高,则会导致检出的突发事件中存在多个??相同的事件,使得查准率指标P下降,具体分析案??例将在第7.?4小节中给出.??7.4定性分析??为了阐述本文所提RAEDetection方法的有效??性以及与各种基线方法的对比效果,图5与图6分??别给出了本文选出的3种不同事件检测方法对具备??E,记录不例:??ES3??〇db??*浦口区顶山街道镇南河路99号正荣润锦??城.突发停水,要求尽快恢复供水.??£:-记录示例:??l^°??*浦口区江浦街道新浦路127号停水,一直??未恢复,没有提前告知.??a??E.iid录示例:??*浦U区桥林街道兰桥雅居,此处正在停??水,对此不认可.??(a)?TrioVecEvent??。.。?L??圮记录示例:??*浦口区顶山街道雅居乐滨江国际反映自??来水公司停水通知太迟.??*浦口区江浦街道珠泉花园,该处多户停??水,没有看到停水通知,要求告知停水原??〇名)??因和恢复时间.??〇〇.°??£:、记录示例:??A,今A??*浦口区桥林街道兰桥雅居,此处正在停??水,对此不认可.??(b)?TopicSketch??0?〇?1??圮记录示例:??籲浦口区江油街逍,此处停水.??-?E?A??*浦口区江浦街道浦珠花园,市民表示此处??从18:00开始冷水,It没有恢要求尽??A?Aa?
【参考文献】:
期刊论文
[1]微博网络地域Top-k突发事件检测[J]. 仲兆满,管燕,李存华,刘宗田. 计算机学报. 2018(07)
[2]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
本文编号:3387940
本文链接:https://www.wllwen.com/guanlilunwen/zhengwuguanli/3387940.html