面向少量标记数据的中文地址分词方法研究

发布时间:2022-11-05 12:24
  地址编码技术是指将文字描述的中文地址映射成空间地理坐标,由地址标准化、地址分词、地址匹配、地址定位等步骤组成。其中中文地址分词是地址编码的基础工作,极大地影响了地址匹配和地址定位等后续工作的性能。中文地址分词可以视为中文分词在地址编码领域的应用,目前对于中文地址这一特定领域进行分词的研究工作较少。本文针对当前中文地址分词模型研究的不足和地址数据标注成本较高的问题,提出了一种面向少量标记数据的中文地址分词方法。本方法采用主动学习算法,根据中文地址分词模型对数据的标签预测以及地址样本选择策略,从无标记地址数据中选取出最具有标注价值的部分样本进行人工标注,然后加入到训练集中迭代进行训练。本方法分别对中文地址分词模型和主动学习地址样本选择策略进行改进,由以下两部分组成。1.基于改进Transformer+CRF的中文地址分词模型从模型研究入手,针对当前主流的基于BiLSTM+CRF的中文地址分词方法由于LSTM本身的结构特点带来的长期依赖问题和无法并行计算的缺点,采用改进Transformer代替BiLSTM进行特征提取,一方面通过Attention机制使得模型在文本任一字符处都可以获取到全局... 

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 研究现状
        1.2.1 中文分词
        1.2.2 中文地址分词
    1.3 本文研究内容
    1.4 组织结构
    1.5 本章小结
第2章 相关技术综述
    2.1 中文分词方法
        2.1.1 基于词典匹配的中文分词方法
        2.1.2 基于传统机器学习的中文分词方法
        2.1.3 基于深度学习的中文分词方法
    2.2 循环神经网络
        2.2.1 循环神经网络概述
        2.2.2 沿时间反向传播算法
        2.2.3 长短时记忆神经网络
        2.2.4 双向LSTM神经网络
    2.3 主动学习算法
        2.3.1 主动学习算法概述
        2.3.2 主动学习流程
    2.4 本章小结
第3章 地址语料数据及数据预处理
    3.1 地址语料数据
        3.1.1 标准结构化地址
        3.1.2 非标准地址
    3.2 数据预处理
        3.2.1 数据清洗和筛选
        3.2.2 数据标注
    3.3 本章小结
第4章 面向少量标记数据的中文地址分词方法
    4.1 总体架构
    4.2 基于改进Transformer+CRF的中文地址分词模型
        4.2.1 问题描述
        4.2.2 基于改进Transformer+CRF的中文地址分词模型
    4.3 地址样本选择策略
        4.3.1 问题描述
        4.3.2 地址样本选择策略
    4.4 本章小结
第5章 实验设计与结果分析
    5.1 基于改进Transformer+CRF的中文地址分词模型
        5.1.1 数据准备
        5.1.2 实验环境
        5.1.3 评价指标
        5.1.4 实验设计
        5.1.5 实验结果与分析
    5.2 地址样本选择策略
        5.2.1 数据准备
        5.2.2 实验环境
        5.2.3 评价指标
        5.2.4 实验设计
        5.2.5 实验结果与分析
    5.3 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间主要的研究成果
致谢


【参考文献】:
期刊论文
[1]基于BiLSTM-CRF的中文层级地址分词[J]. 程博,李卫红,童昊昕.  地球信息科学学报. 2019(08)
[2]基于条件随机场的非规范化中文地址解析方法[J]. 许也,申柏希,徐翔,李军.  地理与地理信息科学. 2019(02)
[3]统计决策树下的城市地址集中文分词[J]. 应申,李威阳,贺彪,王维,万远.  武汉大学学报(信息科学版). 2019(02)
[4]基于λ-主动学习方法的中文微博分词[J]. 张婧,黄德根,黄锴宇,刘壮,孟祥主.  清华大学学报(自然科学版). 2018(03)
[5]基于LSTM网络的中文地址分词法的设计与实现[J]. 张文豪,卢山,程光.  计算机应用研究. 2018(12)
[6]基于BI-LSTM-CRF模型的中文分词法[J]. 张子睿,刘云清.  长春理工大学学报(自然科学版). 2017(04)
[7]基于最近邻的主动学习分词方法[J]. 梁喜涛,顾磊.  计算机科学. 2015(06)
[8]地址要素识别机制的地名地址分词算法[J]. 赵阳阳,王亮,仇阿根.  测绘科学. 2013(05)
[9]基于规则的中文地址要素解析方法[J]. 张雪英,闾国年,李伯秋,陈文君.  地球信息科学学报. 2010(01)
[10]基于反序词典的中文逆向最大匹配分词系统设计[J]. 张李义,李亚子.  现代图书情报技术. 2006(08)

硕士论文
[1]基于条件随机场的网络文本分词研究[D]. 崔彦翔.大连理工大学 2013



本文编号:3702599

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3702599.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3485***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com