微博信息可视化系统的设计与实现
发布时间:2020-12-08 20:43
随着移动互联网的发展,参与微博类社交平台的用户数呈指数级增长。据新浪微博去年第二季度财报统计,微博用户月活跃规模己达4.31亿。面对浩瀚如海的微博文本集,如何根据关键字、话题等查询需求,对检索结果集精确高效分析、可视化处理,是目前亟需的功能。而当前各微博平台的检索功能,只能返回文档形式的结果集。如何根据查询需求,对所有查询结果集做更有效的可视化处理,是微博信息平台目前面临的最大挑战。针对该挑战,本文构建了微博信息可视化系统,主要研究工作包括以下两个部分:第一,话题趋势与地域分析:首先使用WebCollector爬虫下载微博原始帖子,并根据规则预处理;然后再利用中文IK分词器插件和自定义扩展词典,对语料库中每篇短文本做分词、消歧、去停用词等处理,并生成对应的倒排记录表和词典;之后再利用ELK技术栈搭建分布式索引库和搜索引擎平台,将倒排记录表和词典中所有数据存储在该平台中;最后根据信息检索模型查询结果集,利用可视化组件Kibana对查询结果集做数据统计分析与可视化处理。通过该功能,可以帮助用户快速从结果集中获取与其相关的用户地域分布、话题发展趋势以及关注程度。第二,话题聚类:首先利用检索功...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
图2.1通用型网络爬虫系统结构图??
??图2.1通用型网络爬虫系统结构图??2.?1.?2深层网络爬虫??根据访问网站中网页的方式,可将网页分为深层与表层网页。表层网页是指??不需用户经过注册登录、权限验证可直接落地访问,或可通过URL链接直接落地??访问,或由静态网页构成的Web页面。同时,也包括那些能被搜索引擎直接索引??的网页。对于深层页面,则指哪些隐藏在表单后面,或需要登录后才能访问的??Web页面;另外,它也是互联网环境中访问量最大、发展最快的资源。这里着重??介绍爬取深层网页的网络爬虫——深层网络爬虫,从系统功能角度来看,其主要??由表单处理器、表单填充与提交、主题分类器、URL队列、响应结果分析、页面??分析器、主题词库组成[9],系统结构设计如图2.2所示。涉及到的数据结构主要包??括URL队列、填充表单数据源的主题词库
妒垦?宦畚模崳姡停粒樱裕牛遥В樱牐裕龋牛樱桑樱崳?过滤模块、内容分析器、倒排索引库、评价模块、页面内容数据库、搜索策略处??理器、URL缓存共九个模块组成[12],对应的系统结构设计如图2.3所示。??^?页面?(??I?Tv?????I页面内容数据库??页面陡取横块??搜索策略处理器??内容分析器? ̄|?URL缓存?f?狐队列?f?r—??主歴词????IR1.过滤挨块?种子陳??i??f?索引库?Q???评价模块????图2.3主题型网络爬虫结构图??2.1.4增量式网络爬虫??增量式爬虫是一种以抓取保存的网页内容和链接为基础,只爬取网页内容发??生改变或新增的爬虫。其目标就是保证当前存储内容的质量,以及与网络页面内??容的一致性。为了实现内容一致性,通常使用这三种策略,第一是所有爬虫以相??同的周期,访问URL消费队列中所有资源;第二是根据页面内容更新周期的大小,??分为不同区域的子集URL队列,用不同的周期访问各个子集;第三是根据每个网??页的更新周期,重新抓取各个页面。为了提闻内容的质量,则需根据业务需求选??择恰当的爬取策略,对网页爬取顺序做出排序。与其它类爬虫相比,增量式网络??爬虫以相应的爬行策略实现了内容去重
【参考文献】:
期刊论文
[1]基于搜索引擎的中文歧义词收集系统研究[J]. 吉向东. 现代情报. 2010(06)
[2]基于统计语言模型的信息检索[J]. 李晓光,王大玲,于戈. 计算机科学. 2005(08)
[3]文本信息检索中的概率模型[J]. 张文进. 情报杂志. 2005(03)
[4]信息检索的概率模型[J]. 邢永康,马少平. 计算机科学. 2003(08)
硕士论文
[1]微博舆情可视化系统的研究与实现[D]. 黄冠华.江苏大学 2016
[2]基于微博用户行为的兴趣模型构建和可视化方法研究[D]. 何苾菲.哈尔滨工业大学 2013
[3]社会标注中标签语义分析研究[D]. 吴晓芳.大连理工大学 2011
本文编号:2905659
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
图2.1通用型网络爬虫系统结构图??
??图2.1通用型网络爬虫系统结构图??2.?1.?2深层网络爬虫??根据访问网站中网页的方式,可将网页分为深层与表层网页。表层网页是指??不需用户经过注册登录、权限验证可直接落地访问,或可通过URL链接直接落地??访问,或由静态网页构成的Web页面。同时,也包括那些能被搜索引擎直接索引??的网页。对于深层页面,则指哪些隐藏在表单后面,或需要登录后才能访问的??Web页面;另外,它也是互联网环境中访问量最大、发展最快的资源。这里着重??介绍爬取深层网页的网络爬虫——深层网络爬虫,从系统功能角度来看,其主要??由表单处理器、表单填充与提交、主题分类器、URL队列、响应结果分析、页面??分析器、主题词库组成[9],系统结构设计如图2.2所示。涉及到的数据结构主要包??括URL队列、填充表单数据源的主题词库
妒垦?宦畚模崳姡停粒樱裕牛遥В樱牐裕龋牛樱桑樱崳?过滤模块、内容分析器、倒排索引库、评价模块、页面内容数据库、搜索策略处??理器、URL缓存共九个模块组成[12],对应的系统结构设计如图2.3所示。??^?页面?(??I?Tv?????I页面内容数据库??页面陡取横块??搜索策略处理器??内容分析器? ̄|?URL缓存?f?狐队列?f?r—??主歴词????IR1.过滤挨块?种子陳??i??f?索引库?Q???评价模块????图2.3主题型网络爬虫结构图??2.1.4增量式网络爬虫??增量式爬虫是一种以抓取保存的网页内容和链接为基础,只爬取网页内容发??生改变或新增的爬虫。其目标就是保证当前存储内容的质量,以及与网络页面内??容的一致性。为了实现内容一致性,通常使用这三种策略,第一是所有爬虫以相??同的周期,访问URL消费队列中所有资源;第二是根据页面内容更新周期的大小,??分为不同区域的子集URL队列,用不同的周期访问各个子集;第三是根据每个网??页的更新周期,重新抓取各个页面。为了提闻内容的质量,则需根据业务需求选??择恰当的爬取策略,对网页爬取顺序做出排序。与其它类爬虫相比,增量式网络??爬虫以相应的爬行策略实现了内容去重
【参考文献】:
期刊论文
[1]基于搜索引擎的中文歧义词收集系统研究[J]. 吉向东. 现代情报. 2010(06)
[2]基于统计语言模型的信息检索[J]. 李晓光,王大玲,于戈. 计算机科学. 2005(08)
[3]文本信息检索中的概率模型[J]. 张文进. 情报杂志. 2005(03)
[4]信息检索的概率模型[J]. 邢永康,马少平. 计算机科学. 2003(08)
硕士论文
[1]微博舆情可视化系统的研究与实现[D]. 黄冠华.江苏大学 2016
[2]基于微博用户行为的兴趣模型构建和可视化方法研究[D]. 何苾菲.哈尔滨工业大学 2013
[3]社会标注中标签语义分析研究[D]. 吴晓芳.大连理工大学 2011
本文编号:2905659
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2905659.html