当前位置:主页 > 科技论文 > 测绘论文 >

基于条件随机场的中文地名识别方法

发布时间:2018-01-16 23:18

  本文关键词:基于条件随机场的中文地名识别方法 出处:《武汉大学学报(信息科学版)》2017年02期  论文类型:期刊论文


  更多相关文章: 地名识别 条件随机场 自然语言处理 中文地名


【摘要】:在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。
[Abstract]:In the modern information society with the rapid development of the Internet, a great deal of geographic information exists in the form of unstructured text. At present, the existing methods of geographical name recognition are mainly realized from the perspective of natural language processing, and do not fully take into account the composition and usage habits of geographical names and other characteristics. This paper introduces linguistic knowledge, analyzes the characters of Chinese place names, and classifies the morpheme types of place names in more detail on the structure of traditional names. This paper summarizes and summarizes the characteristics of various morpheme types, integrates these features into the conditional random field method, and transforms the problem of place name recognition into a sequence tagging problem, and formulates formal rules according to the characteristics of Chinese place names. On the basis of this, the Chinese geographical names feature template is designed, which is trained and predicted by conditional random field model. To identify the Chinese place names in the natural language text. 1.7 million words of People's Daily tagging corpus is used for experimental verification. The results show the recall rate of this method to Chinese place names recognition. The accuracy rate and F value are 92.699.73% and 94.67% respectively, which are superior to the existing research results and can provide more effective service for geographical information science research and application.
【作者单位】: 北京大学遥感与地理信息系统研究所;
【基金】:国家自然科学基金(41271385) 测绘遥感信息工程国家重点实验室开放研究基金((16)重02)~~
【分类号】:P281;P209
【正文快照】: 项目资助:国家自然科学基金(41271385);测绘遥感信息工程国家重点实验室开放研究基金((16)重02)。随着互联网技术的快速发展,网络成为信息传播交流的重要平台。在网络空间中每天都有大量的数据或信息产生,其中大部分都以自然语言文本的形式存在,如何从中挖掘出有用的信息成为

【相似文献】

相关期刊论文 前10条

1 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期

2 高琳;唐鹏;盛鹏;左航;;复杂场景下基于条件随机场的视觉目标跟踪[J];光学学报;2010年06期

3 王凡秀;;基于条件随机场的中文地名识别[J];中国西部科技;2008年28期

4 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期

5 沈勤中;周国栋;朱巧明;孔芳;丁金涛;;基于字位置概率特征的条件随机场中文分词方法[J];苏州大学学报(自然科学版);2008年03期

6 杨王黎;许少华;;利用条件随机场实现DNA剪接位点的预测[J];重庆大学学报;2010年10期

7 於实;;基于隐条件随机场的异构Web数据源数据抽取算法研究[J];科技通报;2012年08期

8 杨耘;隋立春;;条件随机场建模的大尺度空间上下文的高分辨率遥感图像分类[J];测绘通报;2014年08期

9 王世昆;李绍滋;陈彤生;;基于条件随机场的中医命名实体识别[J];厦门大学学报(自然科学版);2009年03期

10 吴秦;胡丽娟;梁久祯;;基于分块重要度和二维条件随机场的Web信息抽取[J];南京大学学报(自然科学);2014年01期

相关会议论文 前5条

1 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

2 张奇;翁富良;黄萱菁;吴立德;;英文口语中非流利区域的检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 魏玮;杜金华;徐波;;基于分层语块分析的统计翻译研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

4 王根;赵军;;基于多重冗余标记CRF的句子情感分析研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

5 宁伟;蔡东风;季铎;;基于条件随机场的冠词选择研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

相关博士学位论文 前1条

1 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年

相关硕士学位论文 前10条

1 赵九洋;图像中行人检测关键技术研究[D];南京大学;2015年

2 宁振;基于层叠条件随机场的情感分析[D];南昌大学;2015年

3 杨献祥;面向中文微博的产品名实体识别与规范化算法设计与实现[D];北京理工大学;2015年

4 肖s,

本文编号:1435269


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1435269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户381b6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com