前后缀与特征词相结合的地名地址提取
本文关键词:前后缀与特征词相结合的地名地址提取
【摘要】:随着地理信息与计算机技术的发展,网络中的非结构化地名地址数据越来越多,逐步成为地理信息更新的重要途径之一。针对互联网中地名地址的存在方式及结构特点,本文提出了一种前后缀与特征词相结合的地名地址识别提取方法。首先利用HMM训练进行分词,接着通过地名地址前后缀词库进行候选地名切分与预提取,最后根据特征词进行匹配过滤,实现对地名地址的准确提取。试验结果证明,本文方法提高了地名地址识别的准确率和召回率,很大程度上解决了未登录地址提取问题。
【作者单位】: 山东农业大学;中国测绘科学研究院;
【关键词】: 前后缀 特征词 HMM分词 地名地址
【基金】:国家863计划(2012AA12A402;2013AA12A403) 中国测绘科学研究院基本科研业务费(7771403)
【分类号】:P208
【正文快照】: 随着互联网技术的发展,多源网络中广泛存在数量庞大、种类繁多的新闻、报道、军事、生活信息,它们大多是文本数据,不容易被自动挖掘与提取。然而,蕴藏在文本中的地理信息不仅能为政府关注各类事件的分析、研究和决策提供支撑,而且还可以丰富地理信息的内容[1],可以利用GIS软件
【共引文献】
中国期刊全文数据库 前1条
1 赵阳阳;王亮;仇阿根;;地址要素识别机制的地名地址分词算法[J];测绘科学;2013年05期
中国硕士学位论文全文数据库 前2条
1 史鹏龙;军网舆情监测与信息处理平台的开发研究[D];兰州大学;2012年
2 罗灏;基于语义的科技项目相似度计算研究[D];杭州电子科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前7条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
3 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
4 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
5 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
6 周丽琴,杨季文,吕强;基于Web的字词频统计程序的设计与应用[J];苏州大学学报(自然科学);2002年01期
7 郑家恒;张剑锋;谭红叶;;中文分词中歧义切分处理策略[J];山西大学学报(自然科学版);2007年02期
【相似文献】
中国期刊全文数据库 前1条
1 余明朗;明小娜;龙毅;张雪英;;GIS环境下中文命令的规则匹配与语义解析[J];地理与地理信息科学;2012年06期
,本文编号:900158
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/900158.html