基于Hadoop的文本挖掘研究与应用
本文关键词:基于Hadoop的文本挖掘研究与应用
更多相关文章: 分布式 云计算 Hadoop 文本挖掘 文本聚类
【摘要】:当前伴随互联网技术的快速发展,网络信息成为人们获取信息的主要来源。人们通过Internet可以轻易获取海量信息,但是信息的爆炸式增长也带来一些不便。用户面对海量数据,快速而有效的筛选出有价值信息显得越来越困难。面对海量数据,传统的单节点串行计算模式已经满足不了处理海量信息的要求,分布式技术为此带来了新的解决方案,通过分布式的并行处理模式,能够快速有效的完成对海量数据的计算。当前基于分布式发展而来的云计算,对处理海量数据和高并发问题优势明显。Hadoop平台是近几年应用比较热门的云平台,其硬件成本较低通过普通PC集群即可构成,同时能够存储及处理海量数据。文本挖掘是数据挖掘的一个热门分支,被广泛应用于搜索、分类、推荐等领域。传统的串行计算模式应用于当前的文本挖掘领域,面对海量的文本数据,其运算能力难以满足要求。基于此本文选择将Hadoop平台与文本挖掘技术结合。本文着重研究了Hadoop下的文本预处理,及CURE聚类算法。本文主要工作如下:(1)简单介绍了研究背景及意义、分布式技术、云平台和文本挖掘等相关技术。(2)研究了文本挖掘的文本预处理过程,提出了一种新的构造停用词表的方法。简要介绍了Hadoop平台的搭建过程。将文本预处理过程MapReduce化,通过Hadoop平台并行计算完成文本预处理。并对比和分析了单机串行处理和Hadoop平台并行处理的效率(3)简要介绍了CURE聚类算法。提出了一种优化TFIDF公式,并将其应用于CURE算法MapReduce化的过程。分析对比了优化前,以及优化后的TFIDF公式的优劣,并证明了优化后的TFIDF公式比传统的TFIDF公式有效性更高。(4)测试和分析了CURE算法在Hadoop平台下,不同集群的运行效率。通过统计分析相关计算结果,进一步证明了Hadoop平台并行处理的优势。通过实验分析本文提出的新的停用词表构造方法,以及对TFIDF的优化,证明了本文研究具有一定的价值。同时证明了云计算技术应用文本挖掘领域的有效性,为今后研究文本挖掘提供了新的思路。
【关键词】:分布式 云计算 Hadoop 文本挖掘 文本聚类
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 绪论13-18
- 1.1 研究背景及意义13
- 1.2 国内外研究现状13-16
- 1.2.1 云计算领域13-14
- 1.2.2 文本挖掘领域14-15
- 1.2.3 文本预处理15
- 1.2.4 停用词表构造15-16
- 1.3 本文主要研究内容16
- 1.4 论文结构16-17
- 1.5 本章小结17-18
- 第二章 云计算和文本挖掘相关理论18-32
- 2.1 云计算相关理论18-27
- 2.1.1 Google云计算18-25
- 2.1.2 Hadoop平台25-27
- 2.2 文本挖掘理论27-31
- 2.2.1 文本预处理27-28
- 2.2.2 文本表示28-29
- 2.2.3 文本分类29-30
- 2.2.4 文本聚类30-31
- 2.3 本章小结31-32
- 第三章 基于HADOOP的文本预处理研究32-46
- 3.1 Hadoop平台搭建32-37
- 3.2 文本预处理37-42
- 3.2.1 文本集37-38
- 3.2.2 分词38
- 3.2.3 去停用词38-41
- 3.2.4 降为处理41
- 3.2.5 文本表示41-42
- 3.3 MapReduce42-43
- 3.4 测试分析43-45
- 3.5 本章小结45-46
- 第四章 聚类算法研究46-63
- 4.1 TFIDF优化46-52
- 4.2 聚类算法52-56
- 4.3 基于Hadoop的CURE56-62
- 4.3.1 相关参数57-59
- 4.3.2 TFIDF值59-60
- 4.3.3 相似度距离计算60-61
- 4.3.4 CURE的MapReduce化61-62
- 4.4 本章小结62-63
- 第五章 基于HADOOP的CURE分析63-71
- 5.1 实验分析65-70
- 5.1.1 TFIDF结果分析66-67
- 5.1.2 余弦距离计算分析67-69
- 5.1.3 CURE算法分析69-70
- 5.1.4 实验结果分析70
- 5.2 本章小结70-71
- 总结与展望71-73
- 参考文献73-79
- 攻读学位期间发表的学术论文79-80
- 攻读学位期间参加的科研项目80-82
- 致谢82
【参考文献】
中国期刊全文数据库 前10条
1 罗燕;赵书良;李晓超;韩玉辉;丁亚飞;;基于词频统计的文本关键词提取方法[J];计算机应用;2016年03期
2 尹倩;;基于语义扩展度的中文分词交叉歧义处理方法[J];南昌工程学院学报;2016年01期
3 常建秋;沈炜;;基于字符串匹配的中文分词算法的研究[J];工业控制计算机;2016年02期
4 张振景;李新福;田学东;王凯;;基于SVM的离合词词义消歧[J];计算机科学;2016年02期
5 刘颖莹;刘培玉;王智昊;李情情;朱振方;;一种基于密度峰值发现的文本聚类算法[J];山东大学学报(理学版);2016年01期
6 陈之彦;李晓杰;朱淑华;付丹龙;邢诒海;;基于Hash结构词典的双向最大匹配分词法[J];计算机科学;2015年S2期
7 艾明;;Hadoop对小文件的处理性能的研究[J];信息技术;2015年10期
8 王小林;肖慧;邰伟鹏;;基于Hadoop平台的文本相似度检测系统的研究[J];计算机技术与发展;2015年08期
9 黄美庆;潘慧;;东莞中国科学院云计算产业技术创新与育成中心:抢占大数据领域制高点[J];广东科技;2015年11期
10 赵震;;三方联合 开创全媒体云平台新时代——就“OnAir全媒体云平台”专访新奥特云视总经理高云浩、阿里巴巴集团云计算业务部高级业务拓展专家孙黎明、华通云数据董事长兼总裁郑晓林[J];现代电视技术;2014年05期
中国博士学位论文全文数据库 前2条
1 刘兆军;XML文档数据集聚类问题研究[D];吉林大学;2015年
2 周勇;基于并行计算的数据流处理方法研究[D];大连理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 徐静婷;基于文本挖掘技术的创业板股票招股说明书风险分析[D];上海师范大学;2015年
2 白铖;一种分布式文件系统的设计与实现[D];电子科技大学;2015年
3 闫文亮;云计算环境下分布式的虚拟机资源分配模式研究应用[D];北京邮电大学;2015年
4 许行;基于决策树的单调分类算法研究[D];山西大学;2014年
5 李亮亮;基于二维特征集合的文本计算方法[D];济南大学;2014年
6 黄琳;基于CURE聚类的KNN文本分类研究与实现[D];昆明理工大学;2014年
7 龚瑞琴;文本分类中特征选择和分类算法的研究[D];宁夏大学;2014年
8 胡捷程;智能工单云计算平台的安全隔离研究与实现[D];复旦大学;2013年
9 张平;基于直接优化信息检索评价方法的排序学习算法研究[D];大连理工大学;2013年
10 仰孝富;基于BIRCH改进算法的文本聚类研究[D];北京林业大学;2013年
,本文编号:1039257
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1039257.html