基于AC自动机和地址概率模型的地址标准化算法研究
发布时间:2022-10-03 19:18
地址是一个连接广大的人、物、事的关键桥梁,在商业竞争、舆情管理、智慧城市建设过程中发挥了不可或缺的作用。地址标准化能够将非结构化和非空间化的地址转化为标准结构的中文地址结构,使计算机能够理解并处理字符串的地址信息。传统的中文地址标准化主要从字典、统计、语义三个方面进行。本文依据大量的实例地址率先提出了一个12级的可配置地址层次模型,在该地址模型的基础上提出了一种结合字典和概率统计的地址标准化算法。本文算法建立在一个五级轻量地址基础库上。首先利用AC自动机算法快速的标注出中文地址中的行政地址、地址关键词和辅助词,得出一个中文地址元素集合并建立地址向量模型(AVSM)。建立模型后,将AVSM中地址元素包含的前五级行政区划地址要素进行条件组合,得出可能的行政区划候选值集合。然后利用余弦相似度和地址树来确定最佳的前五级行政区划地址元素。随后,依据关键词和概率地址模型确定后续非行政区划地址元素。最后,通过有限状态自动机将得到的单条标准化后的地址进行地址等级规则校验,对所有通过校验后的地址利用补全字典进行缺失地址等级元素的补全。本文算法有效的融合了基于字典匹配切分速度快的特点和概率统计能有效的解决...
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景及研究意义
1.2 国内外的研究现状
1.2.1 国外的研究现状
1.2.2 国内的研究现状
1.2.3 存在的问题分析
1.3 本论文的研究内容
1.4 论文的组织结构
2 相关理论基础和说明
2.1 中文地址描述规则
2.1.1 地址要素
2.1.2 描述地址的细致程度
2.1.3 常见的错误地址类型
2.2 中文地址匹配切分
2.2.1 传统的单模式匹配
2.2.2 多模式匹配算法
2.3 概率语言模型分词
2.3.1 全切分词图
2.3.2 计算最佳的切分路径
2.3.3 词性标注
2.4 本章小结
3 基于AC自动机和地址概率模型的地址标准化算法
3.1 总体框架
3.2 地址数据预处理
3.3 加载词典和标注类型
3.3.1 全国地址基础库
3.3.2 关键词库
3.3.3 辅助词库和其它可选库
3.4 AC自动机实现地址标注匹配
3.4.1 Trie树的构建
3.4.2 基于双数组的Trie树
3.4.3 构建自动机
3.4.4 多模式匹配
3.5 AVSM和余弦相似度确定行政等级
3.6 概率地址模型确定后续等级
3.7 规则序列与标准地址约束
3.8 多条地址的互相补全
3.8.1 构建补全字典
3.8.2 地址补全
3.9 本章小结
4 标准化算法实验与分析
4.1 地址归一化率
4.2 地址切分速度
4.3 地址归一化效果
4.4 实验总结
5 总结和展望
5.1 本文总结
5.2 工作展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
附录2 主要位置参考词表
【参考文献】:
期刊论文
[1]基于空间语义的地理编码在智慧城市信息系统中的应用[J]. 康昆,李明峰,周醉,蔡炜珩. 现代测绘. 2018(03)
[2]基于ACQS多模式匹配算法的优化研究[J]. 董志鑫,方滨兴. 智能计算机与应用. 2017(05)
[3]上海市标准地址库建设与应用研究[J]. 陈明洁. 测绘与空间地理信息. 2017(03)
[4]地名地址标准化工作座谈会在重庆召开[J]. 中国质量与标准导报. 2017(01)
[5]非结构化中文自然语言地址描述的自动识别[J]. 赵卫锋,张勤. 计算机工程与应用. 2016(23)
[6]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[7]基于Trie树和有限状态自动机的中文地址解析模型[J]. 汪洋,刘师培,王峥. 计算机与现代化. 2016(07)
[8]空间关系地址模型及其表达模式分析[J]. 周海,杜泽欣,范瑞杰,马雷雷,梁汝鹏. 测绘工程. 2016(05)
[9]一种基于有限状态机的中文地址标准化方法[J]. 罗明,黄海量. 计算机应用研究. 2016(12)
[10]字符串匹配算法Sunday的改进[J]. 朱宁洪. 西安科技大学学报. 2016(01)
博士论文
[1]时间序列模式匹配技术研究[D]. 张勇.华中科技大学 2012
硕士论文
[1]面向互联网的中文地址语义解析方法研究[D]. 谢婷婷.武汉工程大学 2017
[2]面向互联网中文地址的地理要素解析方法的研究[D]. 段艳会.武汉工程大学 2016
[3]基于语义分析的地址匹配研究[D]. 臧英斐.重庆交通大学 2015
[4]基于条件随机场和空间推理的地理编码方法[D]. 周海.解放军信息工程大学 2015
[5]基于OCR快递单据识别的研究与实现[D]. 胡提坤.内蒙古大学 2014
[6]城市地名地址匹配方法研究与实验[D]. 洪莹.辽宁工程技术大学 2008
本文编号:3684668
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景及研究意义
1.2 国内外的研究现状
1.2.1 国外的研究现状
1.2.2 国内的研究现状
1.2.3 存在的问题分析
1.3 本论文的研究内容
1.4 论文的组织结构
2 相关理论基础和说明
2.1 中文地址描述规则
2.1.1 地址要素
2.1.2 描述地址的细致程度
2.1.3 常见的错误地址类型
2.2 中文地址匹配切分
2.2.1 传统的单模式匹配
2.2.2 多模式匹配算法
2.3 概率语言模型分词
2.3.1 全切分词图
2.3.2 计算最佳的切分路径
2.3.3 词性标注
2.4 本章小结
3 基于AC自动机和地址概率模型的地址标准化算法
3.1 总体框架
3.2 地址数据预处理
3.3 加载词典和标注类型
3.3.1 全国地址基础库
3.3.2 关键词库
3.3.3 辅助词库和其它可选库
3.4 AC自动机实现地址标注匹配
3.4.1 Trie树的构建
3.4.2 基于双数组的Trie树
3.4.3 构建自动机
3.4.4 多模式匹配
3.5 AVSM和余弦相似度确定行政等级
3.6 概率地址模型确定后续等级
3.7 规则序列与标准地址约束
3.8 多条地址的互相补全
3.8.1 构建补全字典
3.8.2 地址补全
3.9 本章小结
4 标准化算法实验与分析
4.1 地址归一化率
4.2 地址切分速度
4.3 地址归一化效果
4.4 实验总结
5 总结和展望
5.1 本文总结
5.2 工作展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
附录2 主要位置参考词表
【参考文献】:
期刊论文
[1]基于空间语义的地理编码在智慧城市信息系统中的应用[J]. 康昆,李明峰,周醉,蔡炜珩. 现代测绘. 2018(03)
[2]基于ACQS多模式匹配算法的优化研究[J]. 董志鑫,方滨兴. 智能计算机与应用. 2017(05)
[3]上海市标准地址库建设与应用研究[J]. 陈明洁. 测绘与空间地理信息. 2017(03)
[4]地名地址标准化工作座谈会在重庆召开[J]. 中国质量与标准导报. 2017(01)
[5]非结构化中文自然语言地址描述的自动识别[J]. 赵卫锋,张勤. 计算机工程与应用. 2016(23)
[6]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[7]基于Trie树和有限状态自动机的中文地址解析模型[J]. 汪洋,刘师培,王峥. 计算机与现代化. 2016(07)
[8]空间关系地址模型及其表达模式分析[J]. 周海,杜泽欣,范瑞杰,马雷雷,梁汝鹏. 测绘工程. 2016(05)
[9]一种基于有限状态机的中文地址标准化方法[J]. 罗明,黄海量. 计算机应用研究. 2016(12)
[10]字符串匹配算法Sunday的改进[J]. 朱宁洪. 西安科技大学学报. 2016(01)
博士论文
[1]时间序列模式匹配技术研究[D]. 张勇.华中科技大学 2012
硕士论文
[1]面向互联网的中文地址语义解析方法研究[D]. 谢婷婷.武汉工程大学 2017
[2]面向互联网中文地址的地理要素解析方法的研究[D]. 段艳会.武汉工程大学 2016
[3]基于语义分析的地址匹配研究[D]. 臧英斐.重庆交通大学 2015
[4]基于条件随机场和空间推理的地理编码方法[D]. 周海.解放军信息工程大学 2015
[5]基于OCR快递单据识别的研究与实现[D]. 胡提坤.内蒙古大学 2014
[6]城市地名地址匹配方法研究与实验[D]. 洪莹.辽宁工程技术大学 2008
本文编号:3684668
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3684668.html