微博信息可视化系统的设计与实现

发布时间：2020-12-08 20:43

　　随着移动互联网的发展,参与微博类社交平台的用户数呈指数级增长。据新浪微博去年第二季度财报统计,微博用户月活跃规模己达4.31亿。面对浩瀚如海的微博文本集,如何根据关键字、话题等查询需求,对检索结果集精确高效分析、可视化处理,是目前亟需的功能。而当前各微博平台的检索功能,只能返回文档形式的结果集。如何根据查询需求,对所有查询结果集做更有效的可视化处理,是微博信息平台目前面临的最大挑战。针对该挑战,本文构建了微博信息可视化系统,主要研究工作包括以下两个部分:第一,话题趋势与地域分析:首先使用WebCollector爬虫下载微博原始帖子,并根据规则预处理;然后再利用中文IK分词器插件和自定义扩展词典,对语料库中每篇短文本做分词、消歧、去停用词等处理,并生成对应的倒排记录表和词典;之后再利用ELK技术栈搭建分布式索引库和搜索引擎平台,将倒排记录表和词典中所有数据存储在该平台中;最后根据信息检索模型查询结果集,利用可视化组件Kibana对查询结果集做数据统计分析与可视化处理。通过该功能,可以帮助用户快速从结果集中获取与其相关的用户地域分布、话题发展趋势以及关注程度。第二,话题聚类:首先利用检索功...

【文章来源】：华中师范大学湖北省 211工程院校教育部直属院校

【文章页数】：63 页

【学位级别】：硕士

【部分图文】：

微博信息可视化系统的设计与实现

图２．１通用型网络爬虫系统结构图??

系统结构图,主题,网络爬虫,网站

??图２．１通用型网络爬虫系统结构图??２．?１．?２深层网络爬虫??根据访问网站中网页的方式，可将网页分为深层与表层网页。表层网页是指??不需用户经过注册登录、权限验证可直接落地访问，或可通过ＵＲＬ链接直接落地??访问，或由静态网页构成的Ｗｅｂ页面。同时，也包括那些能被搜索引擎直接索引??的网页。对于深层页面，则指哪些隐藏在表单后面，或需要登录后才能访问的??Ｗｅｂ页面；另外，它也是互联网环境中访问量最大、发展最快的资源。这里着重??介绍爬取深层网页的网络爬虫——深层网络爬虫，从系统功能角度来看，其主要??由表单处理器、表单填充与提交、主题分类器、ＵＲＬ队列、响应结果分析、页面??分析器、主题词库组成［９］，系统结构设计如图２．２所示。涉及到的数据结构主要包??括ＵＲＬ队列、填充表单数据源的主题词库

结构图,网络爬虫,增量式,主题

妒垦?宦畚模崳姡停粒樱裕牛遥В樱牐裕龋牛樱桑樱崳?过滤模块、内容分析器、倒排索引库、评价模块、页面内容数据库、搜索策略处??理器、ＵＲＬ缓存共九个模块组成［１２］，对应的系统结构设计如图２．３所示。??＾?页面?（??Ｉ?Ｔｖ?????Ｉ页面内容数据库??页面陡取横块??搜索策略处理器??内容分析器?￣｜?ＵＲＬ缓存?ｆ?狐队列?ｆ?ｒ—??主歴词??？?ＩＲ１．过滤挨块?种子陳??ｉ??ｆ?索引库?Ｑ??？评价模块????图２．３主题型网络爬虫结构图??２．１．４增量式网络爬虫??增量式爬虫是一种以抓取保存的网页内容和链接为基础，只爬取网页内容发??生改变或新增的爬虫。其目标就是保证当前存储内容的质量，以及与网络页面内??容的一致性。为了实现内容一致性，通常使用这三种策略，第一是所有爬虫以相??同的周期，访问ＵＲＬ消费队列中所有资源；第二是根据页面内容更新周期的大小，??分为不同区域的子集ＵＲＬ队列，用不同的周期访问各个子集；第三是根据每个网??页的更新周期，重新抓取各个页面。为了提闻内容的质量，则需根据业务需求选??择恰当的爬取策略，对网页爬取顺序做出排序。与其它类爬虫相比，增量式网络??爬虫以相应的爬行策略实现了内容去重

【参考文献】：
期刊论文
[1]基于搜索引擎的中文歧义词收集系统研究[J]. 吉向东.  现代情报. 2010(06)
[2]基于统计语言模型的信息检索[J]. 李晓光,王大玲,于戈.  计算机科学. 2005(08)
[3]文本信息检索中的概率模型[J]. 张文进.  情报杂志. 2005(03)
[4]信息检索的概率模型[J]. 邢永康,马少平.  计算机科学. 2003(08)

硕士论文
[1]微博舆情可视化系统的研究与实现[D]. 黄冠华.江苏大学 2016
[2]基于微博用户行为的兴趣模型构建和可视化方法研究[D]. 何苾菲.哈尔滨工业大学 2013
[3]社会标注中标签语义分析研究[D]. 吴晓芳.大连理工大学 2011

本文编号：2905659

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2905659.html

上一篇：基于B/S架构的防火墙策略审计系统的设计与实现
下一篇：拟态主动防御若干关键技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|