当前位置:主页 > 科技论文 > 建筑工程论文 >

基于CRF的城市火灾微博文本地名地址识别与精化处理方法

发布时间:2022-10-22 18:35
  城市火灾位置的及时感知不仅有利于公众的智慧出行,而且还有利于政府部门对火灾事故的高效应急处置。因而快速感知城市火灾的位置成了一个关键问题。针对现有的城市火灾监测手段存在耗费大量人力物力、效率不高等问题,本文利用微博数据传播快、数据量大、成本低、隐含城市火灾位置等优势,以及机器学习与数据融合方法,提出了一种基于CRF的城市火灾微博文本地名地址识别与精化处理方法,实现了城市火灾位置的快速感知。论文的主要工作及成果体现在:(1)研究了新浪微博城市火灾数据的获取、处理方法,对地名地址统计特征进行了设计与选取。利用网络爬虫技术获取了2017年1月-2019年11月的南昌市城市火灾微博数据,并进行文本规范化及分词处理。根据城市火灾微博文本的特点,选取了字、词性、边界、地名词典与后缀词相结合的地名地址统计特征。(2)研究了基于CRF模型实现城市火灾微博文本的地名地址识别。以地名地址统计特征为基础,选取BIEO标注体系与基于字的标注方法,通过对城市火灾微博文本进行特征标注,利用CRF模型对其隐含的地名地址进行识别。(3)研究了地名地址识别结果的精化处理方法。针对基于CRF模型识别出的部分地名地址存在层... 

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状及分析
        1.2.1 文本信息抽取
        1.2.2 地名地址识别
    1.3 研究内容
    1.4 技术路线
    1.5 论文组织结构
    1.6 本章小结
2 基础理论与方法
    2.1 术语与基本概念
        2.1.1 中文微博
        2.1.2 微博爬虫
        2.1.3 地名地址
        2.1.4 条件随机场
    2.2 地名地址识别评价方法
    2.3 本章小结
3 基于CRF的微博中地名地址识别方法
    3.1 地名地址识别总体流程
    3.2 CRF++工具介绍
    3.3 微博数据获取与预处理
        3.3.1 城市火灾微博数据获取
        3.3.2 微博文本规范化处理
        3.3.3 微博文本分词处理
    3.4 标注体系
        3.4.1 序列标注方法
        3.4.2 标注体系
    3.5 特征选取
    3.6 特征标注
    3.7 特征模板
        3.7.1 特征模板类型
        3.7.2 特征模板设计
    3.8 模型训练与测试
    3.9 本章小结
4 地名地址识别结果的精化处理方法
    4.1 基于层级地名词库的地名地址补全方法
        4.1.1 地名地址补全总体设计思路
        4.1.2 层级地名词库
        4.1.3 地名地址补全算法
    4.2 多地名地址中的火灾位置鉴别方法
        4.2.1 火灾位置鉴别总体设计思路
        4.2.2 火灾位置鉴别算法
    4.3 本章小结
5 实验与分析
    5.1 基于CRF的微博中地名地址识别
        5.1.1 实验数据
        5.1.2 模型训练
        5.1.3 模型测试
        5.1.4 结果分析
        5.1.5 问题分析
    5.2 地名地址识别结果的精化处理
        5.2.1 基于层级地名词库的地名地址补全
        5.2.2 多地名地址中的火灾位置鉴别
    5.3 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况



本文编号:3696648

资料下载
论文发表

本文链接:https://www.wllwen.com/jianzhugongchenglunwen/3696648.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bd8bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com