基于Hadoop的大规模中文网站聚类的设计与实现
[Abstract]:Text clustering analysis is an important research in the field of data mining. It has been widely used in the fields of statistics, finance, biology, medicine, information retrieval and document classification. Similarity detection and user recommendation are used in this paper. With the rapid popularity of the Internet, the number of various Chinese websites has shown a huge growth, people get more and more data from the web pages. Because different people have different needs and standards, resulting in data diversity and quality requirements. Therefore, how to quickly and efficiently mine the information we need from web pages has become a huge challenge at this stage. The research and application of text clustering provide a good way to solve this problem. It is precisely because the data has the characteristics of magnanimity and diversity that the traditional clustering analysis often can not achieve the ideal effect in time and space when clustering the text. With the rise of cloud computing, cluster processing using distributed parallel framework has been studied and applied by more and more scholars. Hadoop is a distributed system infrastructure developed by Apache Foundation. It has two core framework design: HDFS and MapReduce.HDFS framework mainly undertake the task of providing storage for massive data, and the task of frame MapReduce is to compute, and this kind of computation of mass data is parallel. This paper is based on the Hadoop platform to design the Chinese website clustering analysis system, the following is the main research work. 1. This paper introduces the idea of classical clustering algorithm and related theoretical knowledge. In this paper, the whole process of text clustering and the common similarity measurement methods are introduced in detail. 2. In this paper, we deeply understand the two core frameworks and key technologies of Hadoop platform, expound their interrelation and operation mechanism, and explain the advantages of clustering experiment in traditional single machine environment. 3. Build the Hadoop distributed environment, configure the use of eclipse development tools, use k-means clustering algorithm, write a program to test the Chinese web page data, get the clustering results, the experiment successfully divided all the pages; The analysis of the experimental results shows that Hadoop has powerful computing power in dealing with large scale data, and to a certain extent, with the increase of cluster nodes, the computing power is enhanced.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP393.092
【相似文献】
相关期刊论文 前10条
1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
6 ;大数据不等于Hadoop[J];办公自动化;2014年06期
7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
9 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
相关重要报纸文章 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
相关博士学位论文 前1条
1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
相关硕士学位论文 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
,本文编号:2310881
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2310881.html