面向博客的主题爬虫设计与实现
发布时间:2017-09-03 07:40
本文关键词:面向博客的主题爬虫设计与实现
【摘要】:随着互联网的发展,网络用户急剧增加,分享作为一种互联网精神,正在影响着千千万万的用户。博客作为一种分享、交流的网络社交媒介,已经成为人们发表个人观点、研究成果、实践反思的重要平台。人们越来越习惯于通过博客获取有用的信息,越来越关注如何在海量博客中快速有效的获取有价值的信息。博客信息的获取是对博文资源进行有效利用的基础,但普通爬虫不符合具有特定主题需要的应用需求。该面向博客的主题爬虫系统以教育技术学为主题,专注于在大量博客中有效识别出与教育技术学研究内容相关的博文资源,并进行有效获取和及时更新。可以实现博文网页的下载,以及博文标题、正文、插入的图片等信息的抽取。本文主要做了以下几方面研究:(1)面向博客的主题爬虫关键技术研究。分析博客的基本特征,指出一般网页与博客网页的不同之处,进而确定博客信息的抽取维度。由于博客具有频繁更新的特性,为了提高爬虫的实时性,从采集策略上进行优化,提出了基于链接类型的采集策略。提出网站结构分析、链接类型分析与博文内容评价相结合进行主题相关性判断的方法。设定教育技术学相关博文的主题类别,研究SVM文本自动分类技术。(2)面向博客的主题爬虫设计。分析通用爬虫以及主题爬虫的基本原理和框架,指出其异同。分析并选择合适的通用爬虫框架,对其功能进行扩充,以适应面向博客的主题爬虫的需求。根据数据交互的需要设计数据库表。(3)面向博客的主题爬虫系统实现。对定时器、增量爬取、主题相关性判断、博文自动分类等关键功能予以实现,并评价采集及分类效果。(4)爬虫在博客分析中的应用。专家博客是一种重要的网络学术资源,能够促进学术领域科学信息的快速传递与交流,揭示学者潜在的主题偏好。以单个专家博客为例,利用采集到的信息分析博主的研究主题偏好,以及研究趋势变化。该爬虫系统充分结合博客特征进行采集,采用多种分析评价方式相结合的方法进行主题相似度判断,得到了较好的爬行效果,能够为以教育技术学为主题的应用研究提供高质量的博文数据。以单个博客为单位,分析教育技术学专家博客的研究主题偏好和趋势变化,可以为博客读者获取有价值的专业信息提供参考。
【关键词】:博客 主题爬虫 相关性 自动分类 主题偏好
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【参考文献】
中国期刊全文数据库 前1条
1 张焕明;;基于Lucene的博客搜索引擎设计与实现[J];现代计算机(专业版);2010年03期
,本文编号:783747
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/783747.html