当前位置:主页 > 科技论文 > 测绘论文 >

地图标注内容的文本异常识别

发布时间:2017-04-14 05:08

  本文关键词:地图标注内容的文本异常识别,由笔耕文化传播整理发布。


【摘要】:随着地图标注服务的深入应用,开放性标注行为引起的标注安全性与适宜性问题逐步被放大。而如今,基于地图标注的敏感信息发现与适宜性评价依旧未能引起学术界的注意。本文从标注文本的内容属性与空间特征出发,旨在标注内容中识别出异常信息,在空间上对标注投放的适宜性进行评价,从而实现绿色标注行为,最终保障地图的安全性。本文主要从中文分词、敏感词库、多模式匹配三方面进行了研究,主要工作如下: (1)双哈希词典分词机制研究。中文分词的效率直接影响到地图标注适宜性的评价,本文首先分析最大正向匹配与最大逆向匹配为主导的分词技术,详细介绍了多种分词词典机制。根据汉语词库词长与英文的差异性,采用双字Hashing词典机制对中文进行分词。通过实验,本文验证了该分词方法简单快速,能够良好的适用于中文分词。 (2)敏感词库构建。敏感词词库被广泛应用于各个论坛和网络信息发布的拦截,目的是规范与绿化网络应用环境。据此,本文首先分析敏感词的特征,并且在论坛敏感词的基础上,考虑标注的空间属性,对地图标注的敏感词进行了分类,最终构建了基于地理标注的敏感词库,为敏感信息的识别奠定了基础。 (3)多模式匹配算法。模式匹配算法是敏感词发现的一个关键环节,针对地图标注敏感词特点,本文对常用的单模式与多模式匹配算法分别进行了对比与分析,提出采用AC-BM算法进行标注敏感词的检测。鉴于标注中异常词中英文混合的存在,本文统一将其转换到Unicode码平台上进行树构建与匹配计算,改进与优化了传统的AC-BM算法,最终实现了快速的敏感词识别。 本文主要工作集中在标注异常安全的描述与识别,在中文分词、敏感词词库、多模式匹配算法方面均有所发现,并实现了相应的功能。
【关键词】:地理标注 中文分词 敏感词词库 模式匹配
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:P208
【目录】:
  • 摘要5-6
  • Abstract6-7
  • 目录7-9
  • 第一章 绪论9-14
  • 1.1 研究意义9-10
  • 1.2 研究现状10-13
  • 1.2.1 地图标注的研究10-11
  • 1.2.2 敏感文本识别技术研究11-13
  • 1.3 本文安排13-14
  • 第二章 中文分词14-26
  • 2.1 中文分词算法14-17
  • 2.1.1 基于字符串匹配的分词算法14-17
  • 2.1.2 基于统计的分词方法17
  • 2.2 传统中文分词词典17-21
  • 2.2.1 基于整词二分的词典机制17-18
  • 2.2.2 基于Trie索引树的词典机制18-20
  • 2.2.3 基于逐字二分的词典机制20-21
  • 2.3 双HASHING结构词典分词21-22
  • 2.4 双字HASHING结构词典分词过程与实验22-25
  • 2.4.1 实验与分析24-25
  • 2.5 本章小结25-26
  • 第三章 敏感词库构建与常用匹配算法26-37
  • 3.1 敏感词词库26-29
  • 3.1.1 敏感词特征26-28
  • 3.1.2 地图标注敏感词库构建28-29
  • 3.2 模式匹配算法研究29-36
  • 3.2.1 单模式匹配算法30-34
  • 3.2.2 多模式匹配算法34-36
  • 3.3 本章小结36-37
  • 第四章 基于汉字英文混合的AC-BM算法描述37-50
  • 4.1 模式树的构建37-39
  • 4.2 模式树中移位函数初始化及计算39-46
  • 4.3 算法匹配过程46-48
  • 4.4 算法匹配效率分析48-49
  • 4.5 本章小结49-50
  • 第五章 标注敏感信息算例与实验分析50-58
  • 5.1 标注异常信息提取流程50-51
  • 5.2 实验结果与分析51-54
  • 5.2.1 总体标注异常识别效果52-53
  • 5.2.2 单标注异常发现与表达53-54
  • 5.2.3 分类识别结果54
  • 5.2.4 标注敏感度分布54
  • 5.3 算法精度与效率54-57
  • 5.3.1 算法精度55
  • 5.3.2 算法效率55-57
  • 5.4 本章小结57-58
  • 第六章 结论与展望58-60
  • 6.1 主要工作58
  • 6.2 展望58-60
  • 致谢60-62
  • 参考文献62-65
  • 附录A 硕士期间科研情况65-66
  • 一 硕士期间发表的论文65
  • 二 硕士期刊参加的科研项目65-66
  • 附录B 部分程序代码66-81

【参考文献】

中国期刊全文数据库 前10条

1 吴长彬;闾国年;刘昱君;;基于规则库和网格算法的土地利用现状图自动数字注记[J];测绘学报;2008年02期

2 张雪英;朱少楠;张春菊;;中文文本的地理命名实体标注[J];测绘学报;2012年01期

3 张雪英;张春菊;朱少楠;;中文文本的地理空间关系标注[J];测绘学报;2012年03期

4 樊红,张祖勋,杜道生;地图线状要素自动注记的算法设计与实现[J];测绘学报;1999年01期

5 乔占明;闫浩文;;地图标注和地图注记的探讨[J];测绘与空间地理信息;2011年01期

6 何丽华;徐之俊;;地图注记设计若干问题的探讨[J];地理空间信息;2011年06期

7 王永成,沈州,许一震;改进的多模式匹配算法[J];计算机研究与发展;2002年01期

8 张永奎;高峰;;一种不良文本识别特征选择方法[J];计算机工程与应用;2010年02期

9 李国和;刘光胜;秦波波;吴卫江;李洪奇;;综合最大匹配和歧义检测的中文分词粗分方法[J];计算机工程与应用;2012年14期

10 董海燕;张其善;;基于最小匹配误差方向预测的快速半像素运动估计[J];计算机科学;2005年09期


  本文关键词:地图标注内容的文本异常识别,,由笔耕文化传播整理发布。



本文编号:305250

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/305250.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3f14a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com