顶创科技舆情监测系统的设计与实现
发布时间:2017-05-17 18:11
本文关键词:顶创科技舆情监测系统的设计与实现,,由笔耕文化传播整理发布。
【摘要】:顶创科技为西安顶创电子科技有限公司的简称,是一家以研发和经营手机配件及手机智能周边产品为核心业务的创业公司。对于以科技智能创新为起点的创业公司来说,善于发现新事物和新需求成为是否能快速盈利的关键,所以对智能手机和新奇配件等方面的舆情监测工作就特别的重要。本文的舆情系统基于MySQL数据库管理系统,使用Python语言开发。整个系统由用户配置模块、数据抓取模块、数据提取模块、数据分析模块和数据存储模块构成。用户配置模块主要用于进行关键词管理、类目管理和预警管理,其中的关键词管理包含了主词、或词、过滤词和预警词四大词类;数据抓取模块是指驱动主题爬虫抓取有针对性的信息,在数据抓取这一阶段需要注意的是一方面要保证数据的及时性和全面性,另一方面要严格遵守网站对网页的访问限制;数据提取模块是从网页中获取用户关注信息的关键,包括网页的标题、正文、发布时间、作者、文章来源、阅读量和回复量等,对标题和正文的提取采用概率的学习方式对网页结构进行解析,对发布时间、作者、来源等信息的提取上采用了传统的正则表达式;数据分析模块即对信息与用户的匹配性进行分析;数据存储模块是整个系统的核心模块,基本所有的模块都需要和数据存储交互以实现其自身模块的功能,所以数据存储模块并发性和稳定性有很高的要求。该舆情系统结合顶创科技的实际需求进行了相关测试,测试结果表明系统在获取信息的时效性和内容全面性上能够满足用户对舆情信息的监控需求,具有一定的使用价值。
【关键词】:网络舆情 数据库 网络爬虫
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-15
- 1.1 顶创科技进行舆情系统设计的背景与意义8-10
- 1.2 对网络舆情进行监测的必要性10-13
- 1.2.1 数据库的产生10-11
- 1.2.2 web 2.0时代11-12
- 1.2.3 大数据时代12-13
- 1.3 本文的工作内容13-15
- 2 相关技术介绍15-18
- 2.1 主题爬虫技术15
- 2.2 文本挖掘技术15-16
- 2.2.1 文档分类15
- 2.2.2 文档聚类15
- 2.2.3 自动摘文15-16
- 2.3 自然语言处理技术16-18
- 2.3.1 词法分析16
- 2.3.2 句法分析16
- 2.3.3 语义分析16
- 2.3.4 语用分析16-17
- 2.3.5 语境分析17-18
- 3 需求分析18-23
- 3.1 舆情监测系统概述18-19
- 3.2 舆情监测系统的功能需求分析19-22
- 3.2.1 系统配置功能模块19-20
- 3.2.2 舆情浏览功能模块20-21
- 3.2.3 舆情过滤功能模块21
- 3.2.4 舆情分析与统计功能模块21-22
- 3.3 互联网舆情监测系统的非功能性需求22-23
- 3.3.1 及时响应22
- 3.3.2 数据可用性22
- 3.3.3 并发性需求22-23
- 4 系统设计23-33
- 4.1 用户配置模块设计23-28
- 4.1.1 关键词管理24-25
- 4.1.2 类目管理25-27
- 4.1.3 预警管理27-28
- 4.2 数据抓取模块设计28-29
- 4.3 数据提取模块设计29-30
- 4.4 数据分析模块设计30-32
- 4.5 数据存储模块设计32-33
- 5 系统实现与测试33-55
- 5.1 用户配置模块实现33-37
- 5.1.1 关键词管理33-35
- 5.1.2 类目管理35-36
- 5.1.3 预警管理36-37
- 5.2 数据抓取模块实现37-40
- 5.3 数据提取模块实现40-44
- 5.4 数据分析模块实现44-48
- 5.5 顶创科技的舆情系统测试48-55
- 5.5.1 类目和关键词的设置48-51
- 5.5.2 信息的抓取与统计51-55
- 结论55-56
- 参考文献56-57
- 致谢57-58
【参考文献】
中国期刊全文数据库 前2条
1 谢天保;张晓雯;仵凯博;;微博社会网络重要用户节点筛选及舆情引导[J];计算机科学;2014年S1期
2 曾润喜;;网络舆情管控工作机制研究[J];图书情报工作;2009年18期
本文关键词:顶创科技舆情监测系统的设计与实现,由笔耕文化传播整理发布。
本文编号:374131
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/374131.html