面向特定主题及其传播人群的网络爬行器设计
本文关键词:面向特定主题及其传播人群的网络爬行器设计,由笔耕文化传播整理发布。
【摘要】:在搜索引擎快速发展的今天,作为搜索引擎关键组成部分的网络爬行器也得到了极大的发展,其中针对特定主题(如机票搜索、旅行搜索和视频搜索等)的网络爬行器也越来越受到人们的关注。另一方面,伴随着移动互联网的发展,越来越多的社交应用在发展壮大。例如:微博和微信等以几何倍数增长,同时新闻媒体以及政府公告,也逐步以短消息形式出现。针对论坛、微博和微信等短文本数据,传统方法基本依靠各公司内部提供的关键词搜索。然而,当用户面对大量的文本信息时,为解决信息淹没问题就需要以特定主题为目标提取有用的信息。本文就是在根据工作需求的情况下,设计与实现了面向特定主题的网络爬行器。 本文首先介绍了搜索引擎和通用网络爬行器的相关知识。然后对比分析了几种常见搜索策略及相关算法。同时,对主题网络爬行器的技术特点进行了分析。针对特定Web页面的数据获取,本文通过元搜索相关技术来实现。为分析特定主题的传播人群范围,引入微博数据进行分析。充分利用社交媒体中以人为节点的社交网络,在爬取人物节点之后,就可以大致了解对某一重大事件或热点的传播人群并研究社交网络中的人群分布特点。
【关键词】:搜索引擎 社交媒体 微博 主题网络爬行器 元搜索
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-13
- 1.1 研究背景8-9
- 1.2 研究现状9-11
- 1.3 本文的研究内容与组织结构11-13
- 1.3.1 本文的研究内容11-12
- 1.3.2 本文的组织结构12-13
- 第2章 网络爬行器概述13-34
- 2.1 搜索引擎相关技术概述13-15
- 2.1.1 搜索引擎历史13-14
- 2.1.2 搜索引擎组成及分类14
- 2.1.3 搜索引擎的工作原理14-15
- 2.2 通用网络爬行器概述15-20
- 2.2.1 网络爬行器体系结构16-19
- 2.2.2 通用网络爬行器的爬行策略19-20
- 2.3 特定主题网络爬行器关键技术20-28
- 2.3.1 基于 Web 的特定主题网络爬行器技术及分析22-27
- 2.3.2 特定主题的描述与分词的定义27-28
- 2.4 HTML 文档结构分析28-31
- 2.4.1 HTML 文档格式及特点28-29
- 2.4.2 HTML 文档的 Tag 树29-30
- 2.4.3 HTML 文档结构分析30-31
- 2.5 微博数据获取相关技术分析及研究31-34
- 2.5.1 微博数据获取方式31-32
- 2.5.2 微博数据虑重方法32-33
- 2.5.3 微博数据分析33-34
- 第3章 特定主题网络爬行器的设计34-48
- 3.1 系统平台和系统运行环境34
- 3.2 网络信息挖掘系统介绍34-38
- 3.2.1 系统设计原则36-37
- 3.2.2 系统架构介绍37-38
- 3.3 系统主要模块介绍38-45
- 3.3.1 确立主题和主题站点管理模块38-42
- 3.3.2 数据采集模块42-43
- 3.3.3 URL 管理模块43-45
- 3.4 数据处理模块45-46
- 3.5 数据库与基础运行库46
- 3.6 本章小结46-48
- 第4章 微博主题人物节点爬行器的设计48-52
- 4.1 微博爬行器关键技术48-49
- 4.2 微博主题人物节点爬行器设计49-50
- 4.3 微博主题人物爬行器模块框架50-51
- 4.4 微博数据分析51-52
- 第5章 结论与展望52-53
- 参考文献53-56
- 作者简介及在学期间所取得的科研成果56-57
- 致谢57
【参考文献】
中国期刊全文数据库 前10条
1 马费成;望俊成;吴克文;邱璇;;国外搜索引擎检索效能研究述评[J];中国图书馆学报;2009年04期
2 袁浩;黄烟波;;网页标题分析对主题爬虫的改进[J];计算机技术与发展;2009年06期
3 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
4 黄旭;朱艳琴;罗喜召;;基于内容评价的爬虫搜索策略研究[J];微电子学与计算机;2008年11期
5 李丽;朱国同;陈秀娟;井西利;;模拟退火算法的改进及在静校正中的应用[J];大庆石油地质与开发;2008年05期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 费洪晓;胡海苗;巩燕玲;;基于Hash结构的机械统计分词系统研究[J];计算机工程与应用;2006年05期
8 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
9 宋晖,郑子颖,张岭,马范援;分布式信息搜集系统中URL存储检索的设计与分析[J];上海交通大学学报;2003年03期
10 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期
中国博士学位论文全文数据库 前1条
1 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
本文关键词:面向特定主题及其传播人群的网络爬行器设计,由笔耕文化传播整理发布。
,本文编号:300337
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/300337.html