基于条件随机场和空间推理的地理编码方法

发布时间:2017-05-11 05:08

  本文关键词:基于条件随机场和空间推理的地理编码方法,,由笔耕文化传播整理发布。


【摘要】:地址信息与人类社会经济活动密切相关,在中国,工商、统计、公安等部门记录和保存了海量的地址信息。地理编码技术能够将包含空间位置的文本信息与空间信息建立关联,整合社会经济信息和空间信息,为社会经济信息提供定位、分析、可视化和制图等功能。从而在国民经济建设和人们社会生活中发挥不可或缺的作用。地理编码(GeoCoding),又称地址匹配(address-matching),是将文字描述的地址信息映射到地理空间中的过程,这个过程完成了具有空间位置的文字地址到地理坐标的定量转换。地理编码的核心是基于自然语言处理技术的地址语义解析和地址匹配。因此如何利用自然语言处理技术完成地址精确解析,并利用解析成果进行地址匹配是提高地理编码准确性的关键。本文以非规范中文地址为研究对象,将条件随机场模型运用到地址解析中,对地址中的空间关系进行总结并应用到地址匹配中。为非规范中文地理编码找到一条可行途径,也为中文文本空间信息处理、自然语言空间查询等研究提供了理论和技术借鉴。论文主要研究内容包括:1.通过介绍地理编码的需求背景和应用领域,阐述了本文的研究背景和研究意义;从地址标准规范、地址模型、地理编码系统构建和地理编码方法四个方面分析了地理编码的研究现状;针对存在的问题确定了本文的研究内容和研究思路。2.阐述了地理编码的概念和一般过程,指出地理编码中两个核心过程——地址解析和地址匹配;总结了地址解析三种方法体系——基于词典(规则)、基于理解和基于统计,提出基于条件随机场的地址解析;分析了地址匹配的三种方法体系——模糊匹配、层级地址精确匹配和空间推理匹配。3.构建了空间关系地址模型及其标注体系。在层级模型、有限自动机模型的基础上,提出了空间关系地址模型,并分析了该模型的优势;阐述了空间关系地址模型的结构,分析了各种空间关系的表达;基于HashTable构建了地址模型哈希树,并对地址标注语料库进行了地址模式统计分析。4.提出了基于条件随机场模型的中文地址解析方法。将条件随机场模型应用到地址解析中,提出了基于条件随机场的地址解析方法,并着重研究了地址标注语料库构建和地址特征选取。该方法不依赖于词典,避免了其他方法的标注偏置问题,并允许灵活加入各种特征,对非规范地址的地址解析和结构化具有较好效果。5.研究了基于空间推理的地址匹配方法。在地址解析的基础上,探讨了利用地址中的空间关系进行地址推理匹配,并重点介绍了针对几种地址表达模式的匹配策略和方法。该方法充分利用了地址中的空间关系信息,提高地址匹配精度。
【关键词】:地址解析 地址匹配 地址空间关系模型 条件随机场模型 地址模式统计
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P208
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 绪论11-22
  • 1.1 研究背景与意义11-12
  • 1.2 研究现状12-18
  • 1.2.1 地址标准及规范12-13
  • 1.2.2 地址模型13-14
  • 1.2.3 地址编码方法14-17
  • 1.2.4 地址编码系统构建17-18
  • 1.3 问题分析18
  • 1.4 研究内容及研究思路18-20
  • 1.4.1 研究内容18-19
  • 1.4.2 论文研究思路19-20
  • 1.5 论文结构安排20-21
  • 1.6 本章小结21-22
  • 第二章 中文地址解析与地址匹配的基本理论与方法22-35
  • 2.1 地理编码22-23
  • 2.1.1 地理编码的定义22
  • 2.1.2 地址解析与地址匹配22-23
  • 2.2 中文地址解析的相关方法23-31
  • 2.2.1 基于词典(规则)的方法23-24
  • 2.2.2 基于理解的方法24-25
  • 2.2.3 基于统计的方法25-28
  • 2.2.4 条件随机场模型28-31
  • 2.3 中文地址匹配的相关方法31-34
  • 2.3.1 模糊匹配32
  • 2.3.2 层级地址精确匹配32-33
  • 2.3.3 基于空间推理的匹配33-34
  • 2.4 本章小结34-35
  • 第三章 空间关系地址模型及其标注体系构建35-50
  • 3.1 空间关系地址模型的意义35-36
  • 3.2 空间关系地址模型结构36-38
  • 3.3 地址中空间关系表达38-43
  • 3.3.1 拓扑关系表达38-40
  • 3.3.2 方向关系表达40-42
  • 3.3.3 距离关系表达42-43
  • 3.4 地址标注体系设计43-45
  • 3.5 基于统计的地址模型识别实验45-49
  • 3.5.1 地址模型统计原理45-46
  • 3.5.2 基于统计的地址模型构建算法46-47
  • 3.5.3 实验及分析47-49
  • 3.6 本章小结49-50
  • 第四章 基于条件随机场的中文地址解析50-68
  • 4.1 地址标注的一般过程50-51
  • 4.2 地址数据预处理51-55
  • 4.2.1 地址标注语料库51-53
  • 4.2.2 地址标注方法及结果53-54
  • 4.2.3 标注语料数据转换54-55
  • 4.3 模型中的地址特征55-59
  • 4.3.1 地址的语言学特征55-56
  • 4.3.2 地址用字特征56-59
  • 4.3.3 地址的框架特征59
  • 4.4 特征模板设计59-60
  • 4.5 实验验证及结果分析60-67
  • 4.5.1 评价指标及实验数据60-61
  • 4.5.2 实验及分析61-67
  • 4.6 本章小结67-68
  • 第五章 基于空间推理的地址匹配68-82
  • 5.1 地址推理匹配的一般过程68-70
  • 5.2 地址库逻辑模型70-73
  • 5.2.1 行政区划数据的组织70-71
  • 5.2.2 道路数据的组织71-72
  • 5.2.3 居民小区、标志物及兴趣点数据的组织72-73
  • 5.3 几种地址模式及其推理匹配策略73-76
  • 5.3.1 层级模式地址73
  • 5.3.2 道路交叉口地址73-74
  • 5.3.3 精确偏移地址74-75
  • 5.3.4 模糊偏移地址75-76
  • 5.4 地址推理匹配算法76-77
  • 5.5 实验结果与分析77-81
  • 5.5.1 中文地址推理匹配原型系统77-79
  • 5.5.2 实验结果79-81
  • 5.5.3 结果分析81
  • 5.6 本章小结81-82
  • 第六章 总结与展望82-84
  • 6.1 论文主要工作82
  • 6.2 存在问题及展望82-84
  • 致谢84-85
  • 参考文献85-90
  • 作者简历90

【参考文献】

中国期刊全文数据库 前10条

1 亢孟军;杜清运;王明军;;地址树模型的中文地址提取方法[J];测绘学报;2015年01期

2 肖计划;;地名识别与匹配的概率统计方法[J];测绘科学技术学报;2014年04期

3 魏金明;仲伟政;;基于置信度的地址匹配方法初探[J];测绘科学;2015年01期

4 范立新;黄龙军;;基于近似串匹配的地名数据库建设探析[J];计算机系统应用;2014年06期

5 徐聪;张丰;杜震洪;张逸然;陈明;刘仁义;;基于哈希和双数组trie树的多层次地址匹配算法[J];浙江大学学报(理学版);2014年02期

6 彭颖霞;吴升;;一种适于地理编码的地址数据规范化方法[J];测绘科学技术学报;2013年05期

7 庄海东;张鸿恩;;基于规则的中文地址匹配系统[J];福建电脑;2013年09期

8 于焕菊;李云岭;齐清文;;顾及实体空间关系的地址编码方法研究[J];地理与地理信息科学;2013年05期

9 宋子辉;;自然语言理解的中文地址匹配算法[J];遥感学报;2013年04期

10 赵阳阳;王亮;仇阿根;;地址要素识别机制的地名地址分词算法[J];测绘科学;2013年05期

中国重要会议论文全文数据库 前1条

1 唐旭日;陈小荷;;中文地名结构的定性与定量分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年


  本文关键词:基于条件随机场和空间推理的地理编码方法,由笔耕文化传播整理发布。



本文编号:356304

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/356304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6884b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com