非结构化中文自然语言地址描述的自动识别
本文关键词:非结构化中文自然语言地址描述的自动识别
【摘要】:互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。
【作者单位】: 长安大学地质工程与测绘学院;地理信息工程国家重点实验室;
【关键词】: 地址描述 自然语言 中文分词 句法识别
【基金】:国家自然科学基金(No.41301513) 地理信息工程国家重点实验室开放研究基金(No.SKLGIE 2014-M-4-2) 中央高校基本科研业务费专项资金(No.2014G1261056)
【分类号】:TP391.1
【正文快照】: 1引言自然语言是人们进行通信和交流的主要工具,自然语言处理是现代信息科学和技术研究不可或缺的重要内容[1]。在互联网与大数据时代,存在海量易获取的中文自然语言地址描述数据,如生活服务类网站中说明各类兴趣点(即商户、学校、银行、加油站、医院等地理对象)位置的语句。
【相似文献】
中国期刊全文数据库 前10条
1 谭俊明;;自然语言的理解综述[J];科技广场;2008年05期
2 何祖军;胡静;;自然语言的规范与转化——基于嵌入式系统的描述[J];计算机与现代化;2008年11期
3 刘海涛;关于自然语言计算机处理的几点思考[J];术语标准化与信息技术;2001年01期
4 刘三满,刘荷花;论计算机处理自然语言的新趋向[J];科技情报开发与经济;2002年04期
5 胡广朋;用于计算机辅助教学的自然语言接口[J];微计算机应用;2003年05期
6 张世红;胡佳佳;宋继华;刘会霞;琚文胜;;网络环境下的自然语言检索[J];医学情报工作;2005年06期
7 胡广朋;钱遥立;沈继峰;;一种应用规划识别建立自然语言接口的方法[J];江苏科技大学学报(自然科学版);2006年03期
8 杜津;杨一平;曾隽芳;;自然语言时间信息的模拟与计算[J];计算机工程与设计;2006年13期
9 张雪英;闾国年;宦建;;面向汉语的自然语言路径描述方法[J];地球信息科学;2008年06期
10 彭程;;基于本体论的电子商务自然语言研究[J];微计算机信息;2008年18期
中国重要会议论文全文数据库 前7条
1 胡健;黄丽华;刘杰;;基于自然语言的智能决策支持系统人机接口[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
2 盛新华;柳劲;;自然语言否定的语用功能与交际策略[A];改革开放以来逻辑的历程——中国逻辑学会成立30周年纪念文集(上卷)[C];2009年
3 李灵辉;林尔正;林玉婷;林丹红;;基于自然语言检索的中医中风康复古代文献数据库构建[A];福建省图书馆学会2011年学术年会论文集[C];2011年
4 谷明哲;孟小峰;周勇;;中文自然语言查询界面NChiql的Java设计实现[A];第十六届全国数据库学术会议论文集[C];1999年
5 周勇;孟小峰;刘爽;王珊;;数据库自然语言查询系统NChiql中语义依存树向SQL的转换[A];第十六届全国数据库学术会议论文集[C];1999年
6 万继华;;基于哲学本体论的真值演算系统——实现计算机理解自然语言的逻辑方法[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 才让加;吉太加;;藏语语料库中词性分类代码的确定[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 田飞;用于自然语言分布式表达的联合学习方法研究[D];中国科学技术大学;2016年
2 李虎;基于本体和规则的受控自然语言系统模型研究[D];华中科技大学;2010年
3 孟小峰;中文数据库自然语言查询处理研究[D];中国科学院研究生院(计算技术研究所);1999年
4 朱少楠;面向地理场景的“文—图—景”转换方法研究[D];南京师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 石亚坤;自然语言的人类理解与机器“理解”对比研究[D];陕西师范大学;2011年
2 刘晓;面向高德地图的自然语言接口语义解析系统设计与实现[D];南京师范大学;2015年
3 孙婷婷;汉语搭配获取方法研究[D];江苏科技大学;2015年
4 徐娟;面向地图搜索领域的自然语言句子g镆逡馔祭斫夥椒ㄑ芯縖D];复旦大学;2014年
5 蔡静怡;基于概念图的关联规则的自然语言表示方法[D];河北师范大学;2015年
6 柳劲;自然语言否定的逻辑思考[D];湘潭大学;2009年
7 裴君波;信息分发中自然语言订阅接口的研究[D];北京邮电大学;2015年
8 付胜博;基于自然语言的空间数据检索研究[D];西北工业大学;2007年
9 武睿峰;自然语言密写分析及密写量检测[D];西北大学;2014年
10 李霞;自然语言篇章中时间信息的研究及在产品设计领域中的应用[D];西安电子科技大学;2013年
,本文编号:843404
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/843404.html