当前位置:主页 > 科技论文 > 安全工程论文 >

基于微博的灾害信息聚合方法研究

发布时间:2019-11-04 11:37
【摘要】:准确、及时的灾害信息收集,在减少灾害风险具有重要的意义。微博作为一种新型的社会化媒体,提供随时随地分享信息的渠道,在灾害信息传播中发挥重要的作用。微博基于社会网络的信息传播方式,实现了信息的高效聚合,然而由于微博信息发布便捷、用户门槛低,导致信息过载、碎片化及可信度低等问题,如何从海量微博信息中挖掘有意义的信息成为本文研究的重点。本文基于关键词抽取技术,探索微博灾害信息聚合方法,同时结合实验室采集微博语料,对聚合方法进行评价。 本文通过构建主题特征词库,对微博文本进行标注,计算TF-IDF(Term Frequency-Inverse Document Frequency)权重,排序产生关键词列表,采用向量空间模型文本表示,结合TF-IDF权重进行文本聚类,获得主题微博集。分别对微博文本中包含的灾害特征项及地名特征项进行抽取,获得灾害关键词及地名关键词,进一步对包含地名关键词的微博文本进行空间统计及地图匹配,产生热点事件地图。由于微博文本存在多地名、地名尺度不一致等问题,通过构建分级地名词库,对不同尺度地名进行分级标注,筛选TF-IDF权重大、尺度小的地名作为文本对应地名,结合地理编码,实现灾害信息的空间聚合。 实验室采集2012年9月15日至10月2日期间微博语料进行台风灾害信息聚合,聚合结果显示:(1)认证微博(如中央气象台、新浪天气等),能够跟踪报道灾害过程,消息有效性高,基于灾害关键词聚合,查准率为0.974,查全率为1,基于地名关键词聚合,查准率为1,查全率为0.851;(2)普通微博(随机用户),分布较广,能够有效的弥补认证微博、新闻专题报道覆盖盲点,在热点事件发现具有重要的价值,基于灾害关键词信息聚合,文档权重前10%,查准率较高为0.855,但查全率较低为0.276,随着抽取区间的扩大,查准率降低;基于地名关键词信息聚合,查准率为0.850,查全率为0.665,可见有效的灾害信息通常携带地名。 综合上述方法,在具体应用环境中构建在线微博灾害主题聚合原型系统,用户输入主题关键词,产生灾害关键词列表,用于灾害链发现及灾害信息检索;同时产生灾害热点事件地图,用于快速识别灾害发生地。
【学位授予单位】:福建师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:X4

【参考文献】

相关期刊论文 前8条

1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[J];计算机工程与应用;2007年35期

2 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期

3 文坤梅;卢正鼎;叶卫国;;Web-MIND:基于特定主题的Web信息挖掘系统[J];计算机工程与科学;2007年06期

4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期

5 沈志斌;白清源;;文本分类中特征权重算法的改进[J];南京师范大学学报(工程技术版);2008年04期

6 王锋;;灾难性事件中的“微”力量——青海玉树地震中微博应用探析[J];新闻世界;2010年S2期

7 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期

8 许晓昕;李安贵;;一种基于TFIDF的网络聊天关键词提取算法[J];计算机技术与发展;2006年03期

相关会议论文 前1条

1 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年

相关硕士学位论文 前1条

1 周建芳;RSS技术在图书馆网络信息服务中的应用研究[D];四川大学;2006年



本文编号:2555613

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/anquangongcheng/2555613.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户55810***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com