基于本体的中国行政区划地名识别与抽取研究
本文关键词:基于本体的中国行政区划地名识别与抽取研究,,由笔耕文化传播整理发布。
【摘要】:Web的不断发展和日益普及使得Web网页的数量飞速增长。众多的Web网页蕴含着丰富的地理信息。充分挖掘Web上的地理信息一方面可以满足人们对地理信息的查询及检索需求,另一方面能够促进基于位置的服务等新兴领域的发展。中文地名是中文网页中数目最多、最为常见的地理信息。本研究在自然语言处理的基础上,借助构建的中国行政区划地名时空本体,将中国行政区划地名从Web文本中标识出来,通过geo/non-geo和geo/geo地名歧义的消除,使之与地球表面具体的地理位置相对应,进而为Web文本中的中国行政区划地名赋予地理坐标和地理语义,并以地理可视化的方法建立该Web文本与地图中空间位置的关联关系。 目前国内对中文地名的识别与抽取多是从自然语言处理的角度,仅限于中文地名的初步识别,缺乏地名歧义消除处理,使得识别结果无法应用于地理信息服务领域。虽然有学者从事地理时空本体和中文地名识别与抽取的研究,但是目前还没有将这两者有机地结合到一起,重点关注地名歧义消除的清晰论述。本文建立了一个基于本体完成中文地名识别与抽取的理论体系框架,并基于该框架设计并实现了一个中国行政区划地名识别与抽取原型系统。 本研究的主要成果包括: ①在介绍和综述本体、地理本体、空间本体等概念的基础上,根据顶层本体——基础形式本体BFO,运用部分—整体学、定位理论和拓扑学基本理论,建立了一个包括BFO-SNAP和BFO-SPAN两个成分的地名时空本体模型,并将该模型作为建模框架,完成了能够形式化表达地名变更及地名演化时间特性的中国行政区划地名时空本体的构建。 ②运用文本工程通用框架GATE,利用基于本体的信息抽取方法,设计并实现了一个基于本体的中国行政区划地名识别与抽取原型系统。该系统使得中国行政区划地名这种间接的地理空间参照具有精确的地理坐标,在一定程度上消除了自然语言中非结构化空间信息与GIS结构化空间信息之间的语义障碍。 ③分析了中国行政区划地名歧义的特点及产生原因,将中国行政区划地名存在的歧义区分为geo/non-geo歧义和geo/geo歧义两种,并进一步将geo/geo歧义分为两类:有行政隶属关系的地名使用同一个特称地名、无行政隶属关系的地名使用同一个特称加通称地名或特称地名。 ④设计了有效的基于本体的geo/non-geo和geo/geo歧义消除算法,以消除Web文本中广泛存在的中国行政区划地名歧义。算法不识别Web文本中具有geo/non-geo歧义的中国行政区划地名,并为识别出来的具有geo/geo歧义的中国行政区划地名指定唯一的地理位置。 ⑤根据中国行政区划地名时空本体,为Web文本中的无歧义中国行政区划地名进行语义标注,赋予它们地理语义及地理坐标,并实现了Web文本中中国行政区划地名的地图可视化。
【关键词】:地名时空本体 中国行政区划地名 识别与抽取 geo/non-geo歧义 geo/geo歧义 歧义消除 地理解析 地理编码
【学位授予单位】:兰州大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:K928.1
【目录】:
- 中文摘要3-5
- Abstract5-11
- 第一章 绪论11-20
- 1.1 研究背景及意义11-13
- 1.1.1 中文地名识别与抽取研究的必要性11
- 1.1.2 中文地名识别与抽取的含义11-12
- 1.1.3 中文地名识别与抽取的主要应用领域12-13
- 1.2 国内外相关研究概述13-17
- 1.2.1 英文地名识别与抽取的研究概述13-15
- 1.2.2 中文地名识别与抽取的研究概述15-17
- 1.3 本文的研究目标、内容及关键问题17-18
- 1.3.1 论文的研究目标17
- 1.3.2 论文的主要研究内容17-18
- 1.3.3 论文解决的关键问题18
- 1.4 论文的组织结构18-20
- 第二章 基本理论与方法20-55
- 2.1 自然语言处理的相关理论20-22
- 2.1.1 自然语言处理20
- 2.1.2 信息抽取20-21
- 2.1.3 命名实体识别21-22
- 2.2 本体22-35
- 2.2.1 本体论的哲学意义及起源22-23
- 2.2.2 本体论的基本概念23-24
- 2.2.3 本体分类24-25
- 2.2.4 本体建模25-32
- 2.2.5 本体描述语言OWL32-34
- 2.2.6 本体建模工具 Protege34-35
- 2.3 地理本体35-44
- 2.3.1 地理本体与地理本体论35-37
- 2.3.2 地理本体的相关研究37-39
- 2.3.3 国际上与地理本体相关的主要研究计划与学术会议39-41
- 2.3.4 地理本体建模41-42
- 2.3.5 地理本体描述语言42-44
- 2.4 时间本体44-45
- 2.5 空间本体45-51
- 2.5.1 空间原语46
- 2.5.2 空间关系46-47
- 2.5.3 拓扑关系描述模型47-49
- 2.5.4 空间本体形式化表达的3个理论工具49-51
- 2.6 时空本体51-55
- 2.6.1 第一类时空本体52-53
- 2.6.2 地理时空本体——第二类时空本体53-55
- 第三章 地名时空本体及其构建55-70
- 3.1 地名55-57
- 3.1.1 地名概述55-56
- 3.1.2 地名分类56
- 3.1.3 地名变更56-57
- 3.2 地名数据库与地名词典57-59
- 3.2.1 地名数据库57-58
- 3.2.2 地名词典58-59
- 3.3 地名时空本体59-65
- 3.3.1 地名本体与地名时空本体59-60
- 3.3.2 地名时空本体模型60-65
- 3.4 中国行政区划地名时空本体建模65-70
- 3.4.1 中国行政区划的分类65
- 3.4.2 中国行政区划地名时空本体建模65-67
- 3.4.3 中国行政区划地名时空本体库构建67-70
- 第四章 基于本体的中国行政区划地名识别与抽取70-95
- 4.1 基于本体的信息抽取70
- 4.2 文本工程通用框架GATE70-72
- 4.2.1 GATE的组件70-71
- 4.2.2 英文文本处理插件ANNIE71
- 4.2.3 GATE的规则定义语言JAPE71-72
- 4.2.4 GATE中的本体72
- 4.3 基于本体的中国行政区划地名识别与抽取原理72-73
- 4.3.1 地理解析阶段73
- 4.3.2 地理编码阶段73
- 4.4 基于本体的中国行政区划地名识别与抽取原型系统设计73-76
- 4.4.1 自然语言处理模块73-74
- 4.4.2 概念关系库生成模块74-75
- 4.4.3 地理解析模块75
- 4.4.4 地理编码模块75
- 4.4.5 地名的地图可视化模块75-76
- 4.4.6 原型系统的设计原则76
- 4.5 自然语言处理模块的实现76-77
- 4.6 概念关系库生成模块的实现77-78
- 4.7 地理解析模块的实现78-81
- 4.7.1 Lookup标注集生成79-81
- 4.7.2 Lookup标注集再处理81
- 4.8 地理编码模块的实现81-91
- 4.8.1 geo/non-geo歧义的消除83-84
- 4.8.2 geo/geo歧义的消除——地名消歧义84-91
- 4.8.3 地名语义标注91
- 4.9 地名的地图可视化模块的实现91-95
- 第五章 实验验证及原型系统性能评测95-100
- 5.1 实验目标95
- 5.2 实验数据及实验流程95-96
- 5.3 原型系统性能评测指标96
- 5.4 原型系统的评测方法96-98
- 5.4.1 Corpus Benchmark Tool需要的目录结构97
- 5.4.2 Corpus Benchmark Tool的属性定义97-98
- 5.5 原型系统的评测结果98-100
- 第六章 总结与展望100-103
- 6.1 总结100-101
- 6.2 主要特色101
- 6.3 研究展望101-103
- 参考文献103-112
- 在学期间的研究成果112-113
- 致谢113
【相似文献】
中国期刊全文数据库 前10条
1 乔云;;关于房产地名档案信息系统框架体系建设的构想[J];中国地名;2011年06期
2 雷升;崔建民;高景明;;规范设置地名标志 促进城乡建设一体化——河南省孟津县地名设标工作纪实[J];中国地名;2011年08期
3 张海英;;浅谈地名涉及的法律规范及问题[J];中国地名;2011年08期
4 翟军;;我国城镇地名“通名”时代变化积沉下靓丽飘逸的历史印记[J];中国地名;2011年06期
5 姬炜;胡小勇;刘海珍;李志刚;;基于国家地名数据库的空间分析[J];中国地名;2011年06期
6 张建明;;为海南建成国际旅游岛营造优良的地名环境[J];中国地名;2011年06期
7 赵彬;;旅游景区景点命名的规范化问题初探[J];中国地名;2011年08期
8 刘小红;;浅谈重庆市两个马武镇——兼释地名重名现象[J];北方文学(下半月);2011年05期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 任小玫;;追寻远逝的地名记忆——《徐霞客游记》地名记述、转译及传播研究[A];徐霞客研究(第17辑)[C];2008年
2 刘忠刚;李晓宇;于圣军;;城市发展与地名演变——沈阳市地名演变规律探析[A];规划创新:2010中国城市规划年会论文集[C];2010年
3 兰红明;李敏;杨波;;海南省地名管理信息系统的设计与实现[A];全国测绘科技信息网中南分网第二十一次学术信息交流会论文集[C];2007年
4 赵丽;李明;王彤;;基于本体的建模方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 周安美;于德介;郭建文;;基于设备维护本体的故障诊断研究[A];机械动力学理论及其应用[C];2011年
6 刘宝良;李建中;张兆功;;基于本体的Web信息组织[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 梁晔;鲍泓;徐光美;;基于本体的数字博物馆检索系统的设计与实现[A];创意科技助力数字博物馆[C];2011年
8 苗壮;李杰;王智学;刘剑豪;;基于本体的战场信息资源互操作模型研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
9 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
10 ;基于本体的个性化搜索引擎[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 本报记者 艾冰;是“威清门”还是“威西门”[N];贵阳日报;2008年
2 本报记者 胡新桥 本报见习记者 余飞;地名管理跟不上市政建设致“尴尬”频出[N];法制日报;2008年
3 记者 李晓萌 通讯员 吴远南 实习生 李鸿茜;新规将终结武汉地名乱象[N];长江日报;2008年
4 冯创志 广东省恩平市发改局;“鸡屎鹿村”为何不赶改地名的时髦[N];中国国土资源报;2009年
5 ;汕头市地名管理办法[N];汕头日报;2009年
6 董真真;济南西客站建设与地名管理工作引发的思考[N];中国社会报;2009年
7 记者 王文郁;依山而建才能称为“山庄”[N];中国消费者报;2009年
8 撰文 本报记者 陈果;深圳113条道路要改名[N];广东建设报;2009年
9 胡跃忠 杨一渠 张燕;苏州:一地一名严格使用规范汉字[N];中国社会报;2009年
10 兴化市地名办;夯实基础 规范管理 不断开创地名工作新局面[N];泰州日报;2009年
中国博士学位论文全文数据库 前10条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 李冠宇;基于智能体和本体的语义数据集成研究[D];大连理工大学;2010年
3 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
4 刘勇;基于本体的家电领域功能知识表达研究[D];中国海洋大学;2011年
5 沈瑾;基于本体的产品延伸服务建模与配置研究[D];上海交通大学;2012年
6 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
7 王宇华;基于本体的流程类业务需求建模方法研究[D];哈尔滨工程大学;2011年
8 萧毅鸿;基于本体的复杂决策任务表示方法与求解技术研究[D];南京大学;2011年
9 石超艺;上海市地名文化保护与地名管理研究[D];华东师范大学;2007年
10 陈楚湘;中医诊疗标准建立及应用的智能方法研究[D];解放军信息工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 周娟;基于本体的工程预算管理系统的研究与实现[D];成都理工大学;2010年
2 万慕晨;基于本体的数字化备课资源知识组织个案研究[D];西南大学;2011年
3 毛鑫;基于本体的语义信息集成与知识发现研究[D];华北电力大学(北京);2010年
4 叶密;基于地理本体的信息检索[D];安徽大学;2010年
5 赵天行;基于本体的应急救援系统研究[D];重庆大学;2010年
6 周艳;基于本体的信息检索的研究与应用[D];电子科技大学;2010年
7 王娟;基于本体的课程资源管理系统研究[D];江西师范大学;2010年
8 蒋彦;基于本体的数学知识库的构建及其应用[D];电子科技大学;2011年
9 付斐;基于本体的数据集成及其应用[D];河北科技大学;2010年
10 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
本文关键词:基于本体的中国行政区划地名识别与抽取研究,由笔耕文化传播整理发布。
本文编号:282612
本文链接:https://www.wllwen.com/shekelunwen/renwendili/282612.html