基于Web数据挖掘的鲜花市场研究与应用
发布时间:2017-07-16 00:16
本文关键词:基于Web数据挖掘的鲜花市场研究与应用
更多相关文章: R XPath 数据抓取 Web数据挖掘 文本挖掘 文本可视化
【摘要】:随着数据库技术和计算机网络的迅速普及,在大数据时代下,如何通过数据挖掘技术手段,挖掘大数据下的深层次关系,让营销更准确、更有效已经成为热点话题。我国花卉产业伴随着改革开放的脚步不断成长扩大,但目前花卉电子商务应用仍处于探索发展的初级阶段,因此,数据挖掘技术应用在花卉电子商务领域更具有应用价值。本文针对花卉电子商务的行业特点,结合了爬虫技术、数据库技术、描述统计分析、文本挖掘和文本可视化技术,以花卉电子商务为切入点,以中国网上花城网站为研究对象,透过鲜花产品相关因素的分析来了解花卉市场,分析该网站的销售产品分类、价格、花语特点等,挖掘出网站产品的分类布局,产品价格配比分布、不同产品的花语特点等隐含数据信息,为花卉企业进行精准营销与决策提供数据支撑。本文通过介绍相关研究的背景与目的,概述相关研究的发展现状与技术,分别对数据抓取与存储,数据整理,数据分析与文本挖掘三个阶段进行研究,并给出经过结构化处理后存储在MySQL数据库的表结构以及一些核心R语言程序算法的代码。首先,本文通过对目标花卉Web网站进行多层解析,使用XPath定位抽取相关的产品信息,存储进MySQL数据库中。然后,对半结构化数据和文本数据进行数据整理。其中,半结构化数据处理包括去除重复、去除噪音、数据类型转换、缺失值处理等操作,文本数据预处理包括中文分词、转换文本和生成词项-矩阵等操作。最后,数据分析与文本挖掘。对结构化数据进行频数分析与交叉分析,了解数据的基本分布特征,分析变量之间关系,使用卡方检验进行假设验证。文本数据经过文本预处理后,实施关联分析与聚类分析,通过可视化技术展现词云图、词项网络图和聚类树状图,对结果进行概括总结。
【关键词】:R XPath 数据抓取 Web数据挖掘 文本挖掘 文本可视化
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要6-7
- Abstract7-11
- 第一章 绪论11-17
- 1.1 研究背景与目的11-12
- 1.2 相关研究发展现状12-15
- 1.2.1 花卉电子商务研究12-14
- 1.2.2 Web数据挖掘研究14-15
- 1.3 研究内容与结构15-17
- 1.3.1 主要研究内容15-16
- 1.3.2 结构安排16-17
- 第二章 技术概述17-25
- 2.1 技术概述17-24
- 2.1.1 R语言17-18
- 2.1.2 HTML与XML18-20
- 2.1.3 XPath概述20-22
- 2.1.4 MySQL数据库22-23
- 2.1.5 jiebaR分词23-24
- 2.2 开发环境与软件24-25
- 第三章 数据抓取与存储25-33
- 3.1 流程框架25-27
- 3.2 数据抓取27-29
- 3.3 数据存储29-32
- 3.4 数据整理32-33
- 第四章 数据分析33-49
- 4.1 频数分析33-42
- 4.1.1 花材33-36
- 4.1.2 送花对象36-39
- 4.1.3 送花用途39-42
- 4.2 交叉分析42-47
- 4.2.1 卡方检验42-43
- 4.2.2 花材和送花对象43-45
- 4.2.3 花材和送花用途45-46
- 4.2.4 送花对象和送花用途46-47
- 4.3 本章小结47-49
- 第五章 文本挖掘49-63
- 5.1 文本挖掘概要49-50
- 5.2 文本预处理50-54
- 5.2.1 中文分词和停用词50-52
- 5.2.2 转换文本52
- 5.2.3 建立词项-文档矩阵52-54
- 5.3 文本分析54-60
- 5.3.1 频繁词项与关联54-56
- 5.3.2 词云图56-58
- 5.3.3 词项网络58-60
- 5.4 聚类分析60-61
- 5.4.1 词项聚类60-61
- 5.4.2 文本聚类61
- 5.5 本章小结61-63
- 第六章 总结和展望63-65
- 6.1 本文总结63-64
- 6.2 工作展望64-65
- 致谢65-66
- 参考文献66-69
- 附录69
本文编号:546385
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/546385.html