基于互联网POI的中文地址要素库自学习构建方法研究
发布时间:2021-02-21 01:08
随着互联网技术的发展,网页中所涉及有关空间位置的信息也越来越多,使其成为地理信息数据获取和更新的重要数据来源之一。但是,由于互联网数据的多样性、复杂性和异构性等特征,使得对于它们的挖掘与分析变成了一个新问题。关于中文地址要素库构建方法的研究就是其中问题之一,地址要素库作为地址信息资源集成、融合与管理的核心枢纽,承担着地址信息资源整合、支撑技术应用的职能,为社会公众和政府各职能部门提供可靠、高效、准确的地理位置定位服务。针对中文地址文本信息的描述特点和地址要素匹配服务的需求,本文从中文地址要素切分、语义标注及层级关系构建等方面进行了较为系统地研究,并设计开发了原型系统。主要的研究工作内容及创新点如下:(1)基于GRU神经网络的中文地址要素切分方法研究:针对传统机器学习模型对中文地址要素切分,需要人为的提取特征以及模型训练时间较长的缺点。提出了基于门控循环单元(Gated Recurrent Unit,GRU)神经网络的中文地址要素切分方法,并采用三词位标注法对切分字符进行标注。该神经网络具备自动学习特征,避免了人工特征选择对中文地址要素切分的影响。同时,三词位标注法提升了中文地址要素切分...
【文章来源】:兰州交通大学甘肃省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.?2?LSTM神经网络结构图??图2.2,描长短时记忆经网络的隐藏层中各个门的操作过,
Xt??图2.3?GRU神经网络结构图??图2.3中,z,表示更新门;r,表示重置门;&表示当前隐藏节点的候选隐藏状态;/7,??表示当前隐藏状态;X,表示当前神经网络的输入;心!表示当前节点的上一层隐藏状态;??详细的计算公式如下:??2,=表'+%九)?(2.7)??r,?=?a(fVrx-x,?+?PVr/l?(2.8)??石,=t—dx,?+?r,?*K丨)?(2.9)??h,?=(\-zl)*hl+zl*hl_i?(2.?10)??其中,o■表示激活函数sigmoid,取值范围在0到1之间;〇表示矩阵的Hadamard??乘积;冰和^是需要学习的权重矩阵。和r,的取值范围在0到1之间。在候选隐藏状??态值&中
表示一个地址元素的中间字符,E?(End)表示一个地址元素的结束字符。??基于神经网络的中文分词模型通常分为三个部分:(1)文本向量化层;(2)神经网??络转化层;(3)标签推理层。具体框架如图2.4所示:??f?^??输入窗Q??,符?Ct?+?l?Ct*2??j?二IZ?二二ZII?二??查找表?g?nz?nz?m:?=??d-i?|" ̄? ̄|??????????v?a?bzd?bid?g?匕j?td?y??■〇■连接??r ̄ ̄ ̄- ̄-? ̄ ̄ ̄??线性转換?I?I?I?I?I?|?ill??2t?=?Wlxxt?+?bl?I?I?|?丨丨卜?I?I?I?I?Xt??\???J??Sigmod?ht?=?(?(zt)??r—? ̄ ̄—???^??????——■—- ̄—^??錢性转換?mm?rTT??yt?=?w2?x?ht?^b2??\?y??O??r?rrm?^??标签推理?11111??B??M?ofo^o^o^o^o??E?V^O^O^o^o??,?yi?yz?ya?y*?y&?y??图2.?4中文分词模型框架??字符标注的方法是基于本地窗口,即假设窗口中一个字符极大的依赖于其他相邻的??字符。给定一个长度为〃的文本序列印,《」,大小为&的窗口从文本序列的第一个字符〇,??一直滑到最后一个字cn。如图2.4所示,设置窗口的大小为5,对于输入的每一个字符??都会有其上下文中5个相邻的字符(似^⑴^+^以输入到查找表中进行??字符向量化。而对于超出序列边界范围的字符,用特征字符“Start”和“End”进行标记。然??后
【参考文献】:
期刊论文
[1]浅谈数据库设计在系统设计中的重要性[J]. 伞颖,高辉. 中国校外教育. 2013(24)
[2]空间ETL技术在省级标准地址库建设中的应用研究[J]. 唐权,吴勤书,曹全龙. 测绘通报. 2013(05)
[3]地址要素识别机制的地名地址分词算法[J]. 赵阳阳,王亮,仇阿根. 测绘科学. 2013(05)
[4]基于有限状态机和Trie数的分级地址模型[J]. 张倩,郭嗣琮. 计算机应用. 2013(03)
[5]POI的分类标准研究[J]. 张玲. 测绘通报. 2012(10)
[6]中文文本的地理空间关系标注[J]. 张雪英,张春菊,朱少楠. 测绘学报. 2012(03)
[7]中文文本的地理命名实体标注[J]. 张雪英,朱少楠,张春菊. 测绘学报. 2012(01)
[8]标准地址库系统的设计与实现[J]. 袁园. 地理空间信息. 2009(06)
[9]地理编码系统设计与实现[J]. 郭会,宋关福,马柳青,王少华. 计算机工程. 2009(01)
[10]城市地址编码发展历史及现状分析[J]. 张鹤,孔令彦,陈倬,孙乐兵. 测绘通报. 2008(07)
硕士论文
[1]面向互联网的中文地址语义解析方法研究[D]. 谢婷婷.武汉工程大学 2017
[2]中文地址位置语义解析方法的研究[D]. 黄爽.武汉工程大学 2017
[3]基于地理编码的社会型地理空间框架研究[D]. 惠哲.西安科技大学 2015
[4]中文标准地址库构建关键技术研究[D]. 朱俊.南京师范大学 2013
[5]面向经济普查项目需求的模糊中文地址匹配方法研究[D]. 于滨.中南大学 2010
[6]城市地址编码的技术及应用[D]. 叶海波.中国石油大学 2009
本文编号:3043619
【文章来源】:兰州交通大学甘肃省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.?2?LSTM神经网络结构图??图2.2,描长短时记忆经网络的隐藏层中各个门的操作过,
Xt??图2.3?GRU神经网络结构图??图2.3中,z,表示更新门;r,表示重置门;&表示当前隐藏节点的候选隐藏状态;/7,??表示当前隐藏状态;X,表示当前神经网络的输入;心!表示当前节点的上一层隐藏状态;??详细的计算公式如下:??2,=表'+%九)?(2.7)??r,?=?a(fVrx-x,?+?PVr/l?(2.8)??石,=t—dx,?+?r,?*K丨)?(2.9)??h,?=(\-zl)*hl+zl*hl_i?(2.?10)??其中,o■表示激活函数sigmoid,取值范围在0到1之间;〇表示矩阵的Hadamard??乘积;冰和^是需要学习的权重矩阵。和r,的取值范围在0到1之间。在候选隐藏状??态值&中
表示一个地址元素的中间字符,E?(End)表示一个地址元素的结束字符。??基于神经网络的中文分词模型通常分为三个部分:(1)文本向量化层;(2)神经网??络转化层;(3)标签推理层。具体框架如图2.4所示:??f?^??输入窗Q??,符?Ct?+?l?Ct*2??j?二IZ?二二ZII?二??查找表?g?nz?nz?m:?=??d-i?|" ̄? ̄|??????????v?a?bzd?bid?g?匕j?td?y??■〇■连接??r ̄ ̄ ̄- ̄-? ̄ ̄ ̄??线性转換?I?I?I?I?I?|?ill??2t?=?Wlxxt?+?bl?I?I?|?丨丨卜?I?I?I?I?Xt??\???J??Sigmod?ht?=?(?(zt)??r—? ̄ ̄—???^??????——■—- ̄—^??錢性转換?mm?rTT??yt?=?w2?x?ht?^b2??\?y??O??r?rrm?^??标签推理?11111??B??M?ofo^o^o^o^o??E?V^O^O^o^o??,?yi?yz?ya?y*?y&?y??图2.?4中文分词模型框架??字符标注的方法是基于本地窗口,即假设窗口中一个字符极大的依赖于其他相邻的??字符。给定一个长度为〃的文本序列印,《」,大小为&的窗口从文本序列的第一个字符〇,??一直滑到最后一个字cn。如图2.4所示,设置窗口的大小为5,对于输入的每一个字符??都会有其上下文中5个相邻的字符(似^⑴^+^以输入到查找表中进行??字符向量化。而对于超出序列边界范围的字符,用特征字符“Start”和“End”进行标记。然??后
【参考文献】:
期刊论文
[1]浅谈数据库设计在系统设计中的重要性[J]. 伞颖,高辉. 中国校外教育. 2013(24)
[2]空间ETL技术在省级标准地址库建设中的应用研究[J]. 唐权,吴勤书,曹全龙. 测绘通报. 2013(05)
[3]地址要素识别机制的地名地址分词算法[J]. 赵阳阳,王亮,仇阿根. 测绘科学. 2013(05)
[4]基于有限状态机和Trie数的分级地址模型[J]. 张倩,郭嗣琮. 计算机应用. 2013(03)
[5]POI的分类标准研究[J]. 张玲. 测绘通报. 2012(10)
[6]中文文本的地理空间关系标注[J]. 张雪英,张春菊,朱少楠. 测绘学报. 2012(03)
[7]中文文本的地理命名实体标注[J]. 张雪英,朱少楠,张春菊. 测绘学报. 2012(01)
[8]标准地址库系统的设计与实现[J]. 袁园. 地理空间信息. 2009(06)
[9]地理编码系统设计与实现[J]. 郭会,宋关福,马柳青,王少华. 计算机工程. 2009(01)
[10]城市地址编码发展历史及现状分析[J]. 张鹤,孔令彦,陈倬,孙乐兵. 测绘通报. 2008(07)
硕士论文
[1]面向互联网的中文地址语义解析方法研究[D]. 谢婷婷.武汉工程大学 2017
[2]中文地址位置语义解析方法的研究[D]. 黄爽.武汉工程大学 2017
[3]基于地理编码的社会型地理空间框架研究[D]. 惠哲.西安科技大学 2015
[4]中文标准地址库构建关键技术研究[D]. 朱俊.南京师范大学 2013
[5]面向经济普查项目需求的模糊中文地址匹配方法研究[D]. 于滨.中南大学 2010
[6]城市地址编码的技术及应用[D]. 叶海波.中国石油大学 2009
本文编号:3043619
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/3043619.html