基于增量聚类的Web上农产品质量安全突发事件追踪模型
【部分图文】:
时间效率较高[13]。为避免聚类结果对文档输入次序的依赖,在本研究中,文档聚类前,将按网页的发布时间对Web文档进行排序。该聚类算法的工作过程如图1所示,算法的执行步骤如下:S1:按发布时间对Web文档进行排序,并顺序地处理每篇文档;S2:第一篇文档的向量自动成为第一个聚类的模板(即该聚类的质心);S3:将后续的每一文档与所有已知事件聚类进行匹配,并计算其相似度;S4:若当前文档d与最相似的事件聚类C之间的相似度sim(d,C)大于指定的阈值,则该文档被分配到事件C中,并重新计算事件类别C的质心;否则,将文档d作为一个新的事件C'。图1基于Single-Pass聚类的事件跟踪算法示意图1.5考虑时间距离的相似度计算方法在增量聚类过程中,以往在进行相似度计算时,只考虑网页正文特征词的相似度。当两个分属不同事件新闻报道所属的类别比较相近时,网页正文中所使用的词语也会大致相同,传统方法难以区分两条新闻报道是否属于同一个事件。例如,在进行“三鹿牛奶事件”和“蒙牛牛奶致癌事件”追踪时,很难将文档划分到正确的事件中,因为这两个事件中都含有“牛奶”“中毒”等特征词。在农产品质量安全突发事件的新闻报道中,通常还会涉及到网页发布时间、事件发生时间等信息,这些信息对区分不同的事件具有重要作用,若文档与某个事件之间的时间距离越小,则理论上它属于该事件的可能性就越大。在新文档与事件模板之间的相似度时,在传统的内容相似度的基础上,本文加入了时间因素,即通过考虑事件的发生时间来增强对多个相似质量安全事件Web文档的区分能力。同时,在计算内容相似度时,我们分别考虑了标题文本相似度、Meta标签文本相似度、正文文本相似度等三方面的因素,即为每篇Web文档分别构建标题文本、Meta
?NE1三鹿三聚氰胺事件2008-09-012008-12-31312NE2蒙牛牛奶致癌事件2011-12-152012-03-01291NE3草莓致癌事件2015-03-012015-12-31437NE4速生鸡事件2012-11-012013-07-01323NE5青岛毒韭菜事件2010-04-012010-07-01152……………本文在计算Web文档内容的相似度时,综合考虑了Web文档中标题、Meta标签对内容相似度计算的影响,为了获得标题、Meta标签、正文之间的最佳权重之比,通过为标题、Meta标签、正文设定不同的权重之比进行对比,先后比较了6种不同权重之比情况下的系统的性能,实验结果如图2所示。从图2中可以看出,当标题、Meta标签和正文权重之比为4∶2∶1时,相对于其他5种情况,系统的Macro-F1值较高。图2几种不同权重之比情况下的跟踪效果比较为了验证时间距离对系统跟踪性能的影响,我们比较了考虑时间距离与未考虑时间距离两种情况下系统的漏报率和误报率,实验结果如图3所示。从图3中可以看出,在考虑时间距离后,系统的漏报率和误报率都有所降低。例如,在误报率为5%的情况下,未考虑时间距离时跟踪系统的漏报率为51.8%,考虑时间距离后的漏报率为37.2%;同样在误报率为10%的情况下,未考虑时间距离时的漏报率为36.3%,而考虑时间距离后的漏报率为20.1%。图3考虑时间距离与否对系统追踪性能的影响3结论将网络上孤立、零散分别的农产品质量安全信息有效地汇集起来,有助于从整体上掌握农产品质量安全突发事件的发展态势和分析事件之间的关联性。本文以Web上农产品质量安全事件信息为研究对象,提出了一种基于增量聚类的农产品质量安全突发事件自动跟踪模型,并通过引入时间距离改进聚类间的相似度计算方法,改进后系统的漏报率和误报率都有明显降低。下一步工作中,将研究基于?
了Web文档中标题、Meta标签对内容相似度计算的影响,为了获得标题、Meta标签、正文之间的最佳权重之比,通过为标题、Meta标签、正文设定不同的权重之比进行对比,先后比较了6种不同权重之比情况下的系统的性能,实验结果如图2所示。从图2中可以看出,当标题、Meta标签和正文权重之比为4∶2∶1时,相对于其他5种情况,系统的Macro-F1值较高。图2几种不同权重之比情况下的跟踪效果比较为了验证时间距离对系统跟踪性能的影响,我们比较了考虑时间距离与未考虑时间距离两种情况下系统的漏报率和误报率,实验结果如图3所示。从图3中可以看出,在考虑时间距离后,系统的漏报率和误报率都有所降低。例如,在误报率为5%的情况下,未考虑时间距离时跟踪系统的漏报率为51.8%,考虑时间距离后的漏报率为37.2%;同样在误报率为10%的情况下,未考虑时间距离时的漏报率为36.3%,而考虑时间距离后的漏报率为20.1%。图3考虑时间距离与否对系统追踪性能的影响3结论将网络上孤立、零散分别的农产品质量安全信息有效地汇集起来,有助于从整体上掌握农产品质量安全突发事件的发展态势和分析事件之间的关联性。本文以Web上农产品质量安全事件信息为研究对象,提出了一种基于增量聚类的农产品质量安全突发事件自动跟踪模型,并通过引入时间距离改进聚类间的相似度计算方法,改进后系统的漏报率和误报率都有明显降低。下一步工作中,将研究基于早期较少的样本数据快速识别出新的主题事件的方法,以便能及时发现农产品质量安全突发事件。参考文献[1]张驰,张晓东,王登位,等.农产品质量安全可追溯研究进展[J].中国农业科技导报,2017(1):18-28.[2]李祥洲,钱永忠,邓玉,等.2016年我国农产品质量安全网络舆情监测与分析[J?
【相似文献】
相关期刊论文 前10条
1 李翔;黄阳成;翁春英;韦江峰;胡支向;刘颖;;基于RFID的农产品质量安全监控溯源系统应用研究[J];农业与技术;2014年02期
2 李广洲,丁金芳,邓海山;基于Web的化学计算机化自适应测验系统的实现[J];计算机与应用化学;2002年05期
3 赵松林;基于Web服务的企业应用集成[J];微型机与应用;2003年08期
4 宋平;;基于Web服务的企业应用集成[J];福建电脑;2007年10期
5 彭玉华;;基于Web的学生信息管理系统的设计与实现[J];民营科技;2010年09期
6 ;借会献技——国际软件博览会中心议题web计算及应用[J];每周电脑报;1997年43期
7 向剑锋;;基于Web的企业信息管理系统安全方案[J];信息与电脑(理论版);2013年11期
8 张彩虹;;分布式虚拟现实系统Web服务器的设计与实现[J];计算机光盘软件与应用;2014年05期
9 黄建德;黄其标;;基于WEB的学生信息管理系统的研究与构建[J];计算机光盘软件与应用;2014年02期
10 黄廷辉,朱英;一种基于WEB的车辆调度管理系统[J];桂林电子工业学院学报;2000年03期
相关博士学位论文 前7条
1 袁宁;突发事件对人类通信行为模式影响的研究[D];天津大学;2016年
2 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年
3 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年
4 刘维东;Web短文本知识关联模型及其语义连贯计算方法[D];上海大学;2016年
5 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
6 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
7 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
相关硕士学位论文 前10条
1 迟晓彤;基于电子足迹大数据的突发事件关联分析研究[D];天津大学;2016年
2 张锐;基于Web技术下的出差管理系统[D];西安工业大学;2015年
3 游维;基于Rest的Web业务系统日志采集与分析系统的研究与开发[D];山东大学;2015年
4 陶莹昌;基于Web的校园二手图书拍卖平台的设计与实现[D];西华师范大学;2015年
5 周赢;基于WEB的绩效管理系统的设计与实现[D];电子科技大学;2015年
6 吴朝云;基于eyeOS的Web操作系统云存储研究[D];电子科技大学;2014年
7 林岚;基于WEB的单位工资管理系统设计与实现[D];电子科技大学;2014年
8 武志国;基于Web的人力资源管理系统设计与实现[D];电子科技大学;2014年
9 王雁;基于WEB的三维动画素材管理系统的设计与实现[D];电子科技大学;2013年
10 张灵钰;基于web平台的高校学生工作管理系统的设计与实现[D];电子科技大学;2013年
本文编号:2855137
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2855137.html