博客媒体分析系统设计与实现
发布时间:2024-05-22 02:21
随着网络的发展,博客已经被越来越多的人用来分享信息和讨论热门话题,截止到2015年上半年,博客用户规模就已经达到47,457万人。在面对海量且繁杂的博客数据时,用户需要得到自己感兴趣并且有一定价值的信息,也想要了解近段时间内的热门话题。博客分析,成为了一种十分有必要的舆论监测手段。但是,这其中也存在着一些问题有待解决,比如博客每天都有更新,怎样让分析做到实时,保证分析的博客语料是当下最新发布的;如何更好地利用博客数据,做到有针对性,更全面地分析博客等等。本文的主要工作有:(1)设计并实现了博客媒体分析系统。系统主要分为前期的语料预处理模块以及后期的分析模块。语料预处理模块是对博客语料进行爬取和抽取,首先对博客语料进行详细分析,得出实现系统功能所需要属性方便后期爬虫爬取语料,爬取完毕后将博客语料的每一个属性抽取出来,对其进行索引的构建,索引构建是检索的前提,后期的分析模块需要以检索这些语料为基础。分析模块需要对构建的索引进行检索调用,完成相应分析。分析功能主要有时间检索,关键字检索,趋势分析、聚类分析以及用户分析等功能。设计好之后,确定系统框架以及所使用的技术并加以实现。(2)在实现系统...
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
本文编号:3980255
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
图2.2主题网络爬虫体系结构??2.1.3增量式网络爬虫??
生了变化的页面。和之前的策略相比,可以有效减少无用数据的下载,但是由于??需要判断页面是否更新,该页面是否己经被爬取过,会需要额外的算法去计算,??增加了其复杂度[6]。其体系结构如图2.3所示。??6??
图2.3增量式爬虫体系结构??2.1.4深度网络爬虫??
表单分析和页面保持。在爬取过程中会首先判断网页是普通网页还是深度页面,??如果是深度页面,则提交合适的表单参数来访问该页面,获取更多信息[7]。其体??系结构如图2.4所示。??7??
图2.4深度网络爬虫体系结构??2.2?Lucene??
计成了抽象类[12],所有的索引以及搜索操作均由相应类调用方法完成,这样,可??以很方便进行二次开发。接下来讨论Lucene如何将这些抽象类组织起来实现相应??功能[13][14],组织结构如图2.5所示。??8??
图2.5?Lucene组织结构图??2.2.2?Lucene索引结构??
Lucene中的索引和传统的正向索引有所不同,是倒排索引,一种相较于正向??索引更加优秀的索引结构。??正向索引结构如图2.6所示。??/?7?I?I?j?I?|?|?!??/文档1?/??!关键词1?i出现次数位置列表!??关键词2?I出现次数-位置列表!???/?/?I?1?....
本文编号:3980255
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3980255.html