基于Spark的Web文本挖掘系统的研究与实现

发布时间：2017-08-19 09:28

本文关键词：基于Spark的Web文本挖掘系统的研究与实现

更多相关文章： Web文本挖掘 Spark TF-IDF LDA主题模型

【摘要】：社交网络、在线媒体/社区、电子商务等网站的飞速发展,催生了互联网上数以亿计的Web文本数据。与传统的文本信息相比,Web文本具有规模性和异构性的特点,对其进行整合及分析的过程更为复杂。因此,如何通过有效手段,从纷繁复杂的Web文本数据中快速获取、整合有价值的信息和知识是近年来文本挖掘领域的热点问题。而进入21世纪,随着云计算、分布式存储以及数据挖掘等信息处理技术的日渐成熟,以Hadoop Map Reduce和Spark为代表的大数据并行计算框架应运而生。其中,Spark基于内存计算,具有高效的数据处理能力,并提供对实时、交互式的数据访问支持,克服了Map Reduce在需要大量迭代计算的数据挖掘和机器学习算法中的明显不足,更适用于构建低延迟的大数据处理应用。鉴于此,本文基于新一代大数据并行运算框架Spark,进行了Web文本挖掘系统的研究与实现,主要工作包含以下四部分:1.在Web文本挖掘系统的基础知识准备部分,首先对Web文本挖掘的概念和具体流程进行了深入研究;然后,对大数据分析引擎的重点技术进行了详细介绍,包括并行计算框架Spark和分布式文件系统HDFS;最后,对Web文本挖掘系统所涉及的其他概念和技术,包括机器学习、网络爬虫以及文本信息可视化做出了简要概括。2.在Web文本挖掘系统的算法准备部分,首先对文本特征提取算法TF-IDF进行研究改进,并且在Spark并行计算的环境下对其进行了应用研究和讨论;然后,对LDA主题模型及其改进模型Labeled-LDA的原理进行了深入研究。3.在Web文本挖掘系统的总体设计部分,以IT社区/在线新闻、技术博客等更新速度快、信息量大、知识涵盖面广且原始文档分类信息较完善的中文计算机技术类网站内容为分析对象,以帮助用户快速识别、整合海量文本数据中的热点内容和热门主题为应用目标,进行了Web文本挖掘系统的功能需求分析、总体架构以及模块划分等工作。4.在Web文本挖掘系统的详细设计和编码实现部分,首先进行了大数据运行架构的环境搭建及部署;然后根据总体设计的结果编码实现了系统的三个主要功能模块,包括信息采集模块、文本分析模块以及文本信息可视化模块;最后将系统应用于若干技术类网站的文本挖掘中,通过运行速率及挖掘结果证实了系统的可行性和实用性。
【关键词】：Web文本挖掘 Spark TF-IDF LDA主题模型
【学位授予单位】：吉林大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1
【目录】：

摘要4-6
Abstract6-11
第1章绪论11-15
1.1 研究背景11-12
1.2 研究现状12-13
1.2.1 文本挖掘12
1.2.2 大数据技术12-13
1.3 文章内容及意义13-14
1.4 文章结构14-15
第2章相关知识与技术介绍15-25
2.1 文本挖掘15-17
2.2 并行计算框架Spark17-20
2.2.1 Spark生态圈17-18
2.2.2 运行架构及计算模型18-19
2.2.3 优势分析19-20
2.3 分布式文件系统HDFS20-21
2.4 其他相关知识及技术21-24
2.4.1 网络爬虫21-22
2.4.2 文本信息可视化22-23
2.4.3 机器学习23-24
2.5 本章小结24-25
第3章 Web文本挖掘算法研究25-35
3.1 文本挖掘算法概述25-26
3.2 TF-IDF算法26-29
3.2.1 TF-IDF算法简介26
3.2.2 TF-IDF算法改进26-27
3.2.3 TF-IDF并行化研究27-29
3.3 LDA主题模型29-34
3.3.1 LDA模型原理29-31
3.3.2 Gibbs采样法推导LDA31-33
3.3.3 Labeled-LDA主题模型33-34
3.4 本章小结34-35
第4章基于Spark的Web文本挖掘系统总体设计35-42
4.1 系统功能需求35-37
4.1.1 Web文本采集35
4.1.2 文本分析35-36
4.1.3 结果展示36
4.1.4 数据存储36-37
4.2 系统概要设计37-41
4.2.1 系统架构设计37-38
4.2.2 模块划分及技术选型38-39
4.2.3 数据处理逻辑39-40
4.2.4 界面设计40-41
4.3 本章小结41-42
第5章基于Spark的Web文本挖掘系统详细设计与实现42-57
5.1 环境搭建及部署42
5.2 系统详细设计与实现42-53
5.2.1 信息采集模块43-46
5.2.2 文本分析模块46-50
5.2.3 文本信息可视化模块50-53
5.3 操作示例及运行结果53-55
5.4 本章小结55-57
第6章总结与展望57-59
6.1 本文总结57-58
6.2 展望58-59
参考文献59-61
作者简介61-62
致谢62

【参考文献】

中国期刊全文数据库前10条

1 詹义;方媛;;基于Spark技术的网络大数据分析平台搭建与应用[J];互联网天地;2016年02期

2 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期

3 袁海;陈康;陶彩霞;陈，

本文编号：699952

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/699952.html

上一篇：基于蒙古文编码国家标准的OpenType字库研究与实现
下一篇：基于随机森林回归的人脸特征点定位

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|