基于网络爬虫的地名数据库维护方法
[Abstract]:At present, there are some problems in the construction of toponymic database in China, such as large, concentrated medium granularity toponymic names, lack of small granularity toponymic names, outdated toponymic data, low timeliness, abbreviated, alias and other non-standard toponymic information and the lack of relative position information of toponymic names. However, the updating and maintenance of toponymic database is mainly completed by means of manual surveying and mapping, which has many shortcomings, such as long cycle, high cost, low efficiency and so on. In order to solve this problem, based on the existing toponymic database and spatial relational vocabulary, based on Google search engine service, this paper proposes a method to update and maintain the toponymic database by using web crawler technology and toponymic recognition technology. Firstly, the web crawler with place name as the theme is designed to realize the active acquisition of massive spatial sensitive web page text in unstructured web page data. Then, HTML DOM technology is used to analyze the spatial sensitive web page and CRF toponymic recognition model is used to automatically identify the place names in the web page text. Finally, the related algorithms are designed to automatically analyze the toponymic information in the web page text, to realize the acquisition of new toponymic and toponymic spatial position information, and to update and maintain the toponymic database. Taking Northwestern Xianlin Hotel of Nanjing normal University as an example, the feasibility of this method is verified.
【作者单位】: 南京师范大学虚拟地理环境教育部重点实验室;
【基金】:国家自然科学基金项目(40971231)
【分类号】:TP311.13
【参考文献】
相关期刊论文 前10条
1 狄琳,欧阳宏斌;全国1∶25万地名数据库的设计与建立[J];测绘通报;2001年10期
2 陈春华;;1∶5万地名数据库到1∶1万地名数据库转换的研究与开发[J];测绘通报;2006年05期
3 李金良;张雪英;樊晓春;;汉语地名时空信息的一体化表达[J];地理与地理信息科学;2010年06期
4 陈钻,万庆,吴杰;基于XML的无线位置服务地理信息服务器的实现[J];地球信息科学;2004年04期
5 张雪英;张春菊;闾国年;;地理命名实体分类体系的设计与应用分析[J];地球信息科学学报;2010年02期
6 张保钢;杨伯钢;孔俊元;;北京市地名数据库的维护更新[J];北京测绘;2010年03期
7 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
8 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
9 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
10 陈财森;王韬;郑伟;陈建泗;;基于搜索引擎调用的主题搜索设计与实现[J];计算机工程与设计;2008年21期
相关会议论文 前1条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
相关硕士学位论文 前2条
1 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
2 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
【共引文献】
相关期刊论文 前10条
1 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
2 商瑶玲,王东华,李莉;全国1:25万数据库的建立与更新[J];测绘科学;2004年S1期
3 郑浩;张蔚;刘继东;;基于SQL Server数据库的遥感影像数据存储的策略与方法[J];测绘技术装备;2006年01期
4 商瑶玲,王东华,李莉;论全国1:250000数据库的建立与更新[J];地理信息世界;2003年02期
5 廖一兰;王劲峰;马家奇;戚晓鹏;;基于BPM-BM算法的地名数据匹配[J];测绘通报;2008年06期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 李金良;张雪英;樊晓春;;汉语地名时空信息的一体化表达[J];地理与地理信息科学;2010年06期
8 黄德根;李泽中;万如;;基于SVM和CRF的双层模型中文机构名识别[J];大连理工大学学报;2010年05期
9 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
10 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
相关会议论文 前10条
1 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
8 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 雷静;张舵;冯霞;;基于构成模式的汉语机构名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
5 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
6 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
9 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
10 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
相关硕士学位论文 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
5 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
7 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
8 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
9 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
10 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
【二级参考文献】
相关期刊论文 前10条
1 廖楚江,杜清运;GIS空间关系描述模型研究综述[J];测绘科学;2004年04期
2 狄琳,欧阳宏斌;全国1∶25万地名数据库的设计与建立[J];测绘通报;2001年10期
3 石若明,陈秀忠;城市大比例尺地名地理信息数据库建设的探索[J];测绘通报;2004年01期
4 陈常松;面向数据共享的GIS语义表达理论的初步研究[J];测绘学报;2000年01期
5 陈军,赵仁亮;GIS空间关系的基本问题与研究进展[J];测绘学报;1999年02期
6 刘瑜;张毅;田原;薛露露;;广义地名及其本体研究[J];地理与地理信息科学;2007年06期
7 陈凯晨;林星;袁一泓;李润强;刘瑜;;数字地名词典中的类型表达和管理[J];地理与地理信息科学;2009年05期
8 吴信才;地理信息系统的基本技术与发展动态[J];地球科学;1998年04期
9 吴杰,陆锋,汤井田,程昌秀,袁正午;基于OCCI的空间数据库几何对象实现方法[J];地球信息科学;2003年04期
10 陈志泊,陆守一;TGIS中的时空数据模型的研究进展[J];河北林果研究;2003年04期
相关会议论文 前1条
1 王大禹;姚天顺;;使用一种半指导的学习机制识别中文未分词文本中的姓名(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
相关硕士学位论文 前2条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
【相似文献】
相关期刊论文 前10条
1 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
2 张安妮;姜华;郝相莲;;面向主题的快速搜索引擎的设计与研究[J];淮阴工学院学报;2011年03期
3 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
4 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期
5 钟远军;李照;林澍哲;黎慧斌;;基于PostGIS的地名数据库设计与应用研究[J];测绘与空间地理信息;2011年03期
6 商瑶玲;张元杰;张义;王立新;王孺;;国家基础地理信息地名数据更新软件系统设计与研发[J];测绘科学;2008年S2期
7 魏毅峰;;产品评论检索系统设计[J];现代经济信息;2011年14期
8 翟菊叶;马吴迪;;电子商务问答系统的研究[J];科技信息;2011年18期
9 施Oz;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
10 金凡;顾进广;;一种改进的T-Spider分布式爬虫[J];微电子学与计算机;2011年08期
相关会议论文 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 邹利平;杜清运;;省级地名管理数据库数据组织与更新策略探讨[A];节能环保 和谐发展——2007中国科协年会论文集(二)[C];2007年
6 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
10 闫凤林;;加强数据库建设,适应转型需要[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
相关重要报纸文章 前10条
1 李晓军;缙云县 地名数据库全面升级更新[N];中国社会报;2010年
2 潘跃;全国有了24个省级地名数据库[N];人民日报;2008年
3 记者 陈兰芹;1:5万全国地名数据库建成[N];中国测绘报;2003年
4 记者 卞晨光;联合国将推出全球地名数据库[N];科技日报;2007年
5 ;用数字描述神州大地[N];经济日报;2006年
6 何敏;青海4年内建立三级地名数据库[N];中国社会报;2006年
7 洮民;洮南地名数据库配置多媒体信息[N];中国社会报;2005年
8 ;我国投资6亿元更新1:5万地形图数据库[N];中国交通报;2006年
9 康国萍;建设新疆地名数据库编制县级行政界线详图[N];中国测绘报;2007年
10 霍鑫;万通创建网络门牌国际标准[N];中国高新技术产业导报;2007年
相关博士学位论文 前3条
1 石超艺;上海市地名文化保护与地名管理研究[D];华东师范大学;2007年
2 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
相关硕士学位论文 前10条
1 王美玲;地名数据库的更新与变化分析[D];中南大学;2010年
2 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
3 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
4 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
5 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年
6 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
7 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
8 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
9 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
10 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年
,本文编号:2508699
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2508699.html