基于网络信息检索的网页文本抽取和处理的研究
本文选题:信息检索 + 主题网络爬虫 ; 参考:《南京邮电大学》2014年硕士论文
【摘要】:随着当今社会的飞速发展,,地理环境变化日新月异,传统地理信息测绘方法遇到诸多问题。互联网作为当今最重要的信息载体,拥有实时性强和信息获取价格低廉的优势,为地理信息测绘提供了一条新的渠道。结合网络信息检索技术和自然语言处理方法,能够从海量互联网信息中获取地理信息相关知识,完成地理信息变化更新的快速检索和实时检测,弥补了传统测绘方法的不足。 本文对网络信息检索技术进行研究,从主题网络爬虫角度出发,针对现有主题爬虫算法通用性不强的问题,提出了基于链接回溯的主题爬虫算法。该算法针对当前新闻网站的链接结构特点,通过回溯的方法计算出最有可能包含主题相关内容的链接方向,从而大幅提高了主题相关网页的获取效率。同时结合网络文本挖掘和自然语言处理方法,设计了各项网页文本要素和地理信息要素的抽取方法,能够准确地从网页文本中抽取出相关信息。最终,本文实现了基于主题网络爬虫技术的地理信息变化检测原型系统。经过大量系统实验,证明该系统具有良好的可用性,查询结果有较高的查全率和查准率,同时验证了基于链接回溯的主题爬虫相比通用爬虫具有更好的爬取效率。
[Abstract]:With the rapid development of today's society, the geographical environment changes with each passing day, the traditional geographic information mapping method meets many problems. As the most important information carrier, Internet has the advantages of high real-time and low price, which provides a new channel for geographic information mapping. Combined with the technology of network information retrieval and natural language processing, it can obtain the knowledge of geographic information from mass Internet information, complete the quick retrieval and real-time detection of geographic information change update, and make up for the shortcomings of traditional surveying and mapping methods. In this paper, the network information retrieval technology is studied. From the point of view of topic crawler, a topic crawler algorithm based on link backtracking is proposed to solve the problem that the existing topic crawler algorithm is not universal enough. According to the characteristics of the link structure of the current news website, the method of backtracking is used to calculate the direction of the link which is most likely to contain theme-related content, thus greatly improving the efficiency of obtaining theme-related web pages. At the same time, combining the methods of Web text mining and natural language processing, this paper designs the extraction methods of web page text elements and geographical information elements, which can extract relevant information from web pages accurately. Finally, a prototype system of geographic information change detection based on topic crawler technology is implemented in this paper. Through a large number of system experiments, it is proved that the system has good usability, and the query results have high recall and precision. At the same time, it is verified that the topic crawler based on link backtracking has better crawling efficiency than that of common crawler.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 李建华,王志国,马晓云,韩建国;网页发布常用方法及遇到问题[J];电脑开发与应用;2001年11期
2 王峥;穿梭网络看设计——小议网页设计[J];苏州丝绸工学院学报;1999年06期
3 李亚文;网页设计系列讲座(一) 信息世界的新时尚——用网页展示自己[J];多媒体世界;1999年02期
4 张田力;网页设计系列讲座(四) 在世界面前展示你的风采——网页发布[J];多媒体世界;1999年05期
5 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[J];学报编辑论丛;2000年00期
6 康军;出版社网页的设计与开发[J];科技与出版;2000年05期
7 郭再新,常征旗;查询网页与网页发布[J];南京广播电视大学学报;2000年04期
8 付斌 ,韩松;网页沙龙之发布我的网页[J];网络与信息;2001年10期
9 顾绮芳;韩斌;;《网页设计》教学探索[J];职业圈;2007年14期
10 彭菊萍;李俊青;;基于网络教学环境下的网页设计课程教学的探索与实践[J];科技信息(科学教研);2007年28期
相关会议论文 前2条
1 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[A];学报编辑论丛(第九集)[C];2000年
2 孙周军;肖文名;;基于组合策略网页防篡改系统实现方法研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
相关重要报纸文章 前7条
1 本报记者 王兵 通讯员 韦炜;小网页 大名片 长链条[N];中国气象报;2012年
2 林欣欣;Micromedia家族新宠 contribute[N];中国电脑教育报;2003年
3 爱上一条鱼;傻瓜网站管理工具[N];电脑报;2004年
4 湖南省株洲县教育局教育技术装备站 许赛苏;做个合格的信息管理员[N];中国电脑教育报;2004年
5 ;书山有路勤为径[N];中国电脑教育报;2004年
6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年
7 通讯员 郝金荣 记者 曾居仁;万村千乡网页工程建成入选贵州“三农”十大新闻[N];中国气象报;2013年
相关硕士学位论文 前10条
1 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
2 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
3 谭庆华;赣县中学博客网页建设初探[D];江西师范大学;2005年
4 王ZMr
本文编号:1814137
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1814137.html