当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的大规模中文网站聚类的设计与实现

发布时间:2018-11-04 19:11
【摘要】:文本聚类分析是数据挖掘范畴内的一项重要研究,在统计学、金融、生物、医学、信息检索及文档分类等业内都已普及,同时比较热门的还有网站导航栏、论文相似性检测及用户推荐等应用。随着网络的快速普及,各种中文网站的数量都呈现了巨大的增长,人们从网页上获取的数据信息量也越来越多。由于不同的人有不同的需要和标准,导致了数据的多样性和质量要求。那么,怎样快速且高效率的从网页上挖掘出我们所需的信息已成现阶段的一个巨大挑战。对文本聚类的研究应用为此提供了一个很好的解决途径。也正是由于数据具有海量、多样性等特征,使得传统的聚类分析在对文本进行聚类处理的时候往往在时间空间上达不到理想的效果。随着云计算的兴起,采用分布式并行框架进行聚类处理,已被越来越多的学者研究应用。Hadoop是由Apache基金会开发的一个分布式系统基础架构,它有两个核心的框架设计:HDFS和MapReduce。HDFS框架主要承担着为海量的数据提供存储的任务,而框架MapReduce的任务就是计算,且这种对海量数据的计算是并行的。本文正是基于Hadoop平台上设计的对中文网站进行聚类分析的系统,下面是本文的主要研究工作。1.对经常使用的经典聚类算法思想及相关理论知识进行介绍。详细介绍了文本聚类的整个流程过程及常见的相似性度量方法等等。2.深入理解Hadoop平台的两大核心框架及关键技术,阐述它们间的相互联系及运行机制,说明相比传统单机环境下作聚类实验的优势。3.搭建Hadoop分布式环境,配置使用eclipse开发工具,采用k-means聚类算法,编写程序对中文网站网页数据进行系统测试,得到聚类结果,实验成功对所有网页进行划分;对实验结果整理、进行分析,证明Hadoop在处理大规模数据上的强大计算能力,且在一定程度下,随着集群节点的增加,计算能力增强。
[Abstract]:Text clustering analysis is an important research in the field of data mining. It has been widely used in the fields of statistics, finance, biology, medicine, information retrieval and document classification. Similarity detection and user recommendation are used in this paper. With the rapid popularity of the Internet, the number of various Chinese websites has shown a huge growth, people get more and more data from the web pages. Because different people have different needs and standards, resulting in data diversity and quality requirements. Therefore, how to quickly and efficiently mine the information we need from web pages has become a huge challenge at this stage. The research and application of text clustering provide a good way to solve this problem. It is precisely because the data has the characteristics of magnanimity and diversity that the traditional clustering analysis often can not achieve the ideal effect in time and space when clustering the text. With the rise of cloud computing, cluster processing using distributed parallel framework has been studied and applied by more and more scholars. Hadoop is a distributed system infrastructure developed by Apache Foundation. It has two core framework design: HDFS and MapReduce.HDFS framework mainly undertake the task of providing storage for massive data, and the task of frame MapReduce is to compute, and this kind of computation of mass data is parallel. This paper is based on the Hadoop platform to design the Chinese website clustering analysis system, the following is the main research work. 1. This paper introduces the idea of classical clustering algorithm and related theoretical knowledge. In this paper, the whole process of text clustering and the common similarity measurement methods are introduced in detail. 2. In this paper, we deeply understand the two core frameworks and key technologies of Hadoop platform, expound their interrelation and operation mechanism, and explain the advantages of clustering experiment in traditional single machine environment. 3. Build the Hadoop distributed environment, configure the use of eclipse development tools, use k-means clustering algorithm, write a program to test the Chinese web page data, get the clustering results, the experiment successfully divided all the pages; The analysis of the experimental results shows that Hadoop has powerful computing power in dealing with large scale data, and to a certain extent, with the increase of cluster nodes, the computing power is enhanced.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP393.092

【相似文献】

相关期刊论文 前10条

1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期

2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期

3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期

4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期

5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期

6 ;大数据不等于Hadoop[J];办公自动化;2014年06期

7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期

8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期

9 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期

10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期

相关重要报纸文章 前8条

1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年

2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年

3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年

4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年

5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年

6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年

7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年

8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年

相关博士学位论文 前1条

1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

相关硕士学位论文 前10条

1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年

2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年

3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年

4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年

5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年

6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年

7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年

8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年

9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年

10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年



本文编号:2310881

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2310881.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户308c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com