当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Hadoop的文本分类研究

发布时间:2019-07-18 15:16
【摘要】:随着互联网的不断发展,社交网络、电子商务、搜索引擎、移动计算等已经深入到人们的日常生活中,各类数据呈现出爆发式的增长,但是人们对信息的要求却更加精细化、个性化。如何对海量的非结构化文本数据进行分类的研究有着十分重要的意义,而云计算为海量数据的处理提供了强有力的工具,为此本文研究了基于云计算平台Hadoop的文本分类,主要做了以下工作: (1)研究了云计算中的存储、计算、虚拟化等关键技术。Hadoop作为一个开源的并行计算平台,已经逐步成为海量数据处理中最有力的工具,本文从设计理念、实现方法等多方面对其分布式文件系统HDFS和并行化编程范式MapReduce做了深入研究。 (2)将Hadoop平台应用到文本分类领域,在通用文本分类流程的基础上,设计了一套基于MapReduce的并行化文本分类框架,在本地虚拟机环境下搭建了一个小型的Hadoop集群,编程实现了并行化文本分类算法,实验的运行结果证明了该框架的有效性。 (3)在并行化文本分类框架的基础上,研究了基于近邻元分析的分类算法。不再仅仅将近邻元分析作为一种距离测度学习算法,而是将其思想引入到分类中,结合局部近邻思想,提出了一种K近邻元分析分类算法(K-NCA),在文本分类的实验仿真取得了良好的效果,最后分析了算法的可并行性,提出了算法的并行化实现策略。
文内图片:MapReduce架构Fig.2-1ArchitectureofMapReduce
图片说明: value。最终得到结果。图2-1 MapReduce架构Fig.2-1 Architecture of MapReduceMapReduce不仅是一种编程模型,同时也是一种高效的任务调度模型,它在多核多处理器也有良好的性能。
文内图片:云计算的架构图Fig.2-2ArchitectureofCloudComputing
图片说明: 上海交通大学硕士学位论文客户端,应用虚拟化把应用对低层的系统和可能冲突,可以运行一个程序的多个版本。的桌面环境与其使用的终端设备解耦,桌面,用户可以通过任何设备,在任何地点,任面系统。付模式计算可以分为三个层次:基础设施即服务(服务(Platform as a Service, PaaS)、软件即服个层次由底到上,也体现出了云计算的交付的产业链,,一个完整的可交付的云平台如下图
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期

2 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期

3 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期

4 王自强;钱旭;;基于流形学习和SVM的Web文档分类算法[J];计算机工程;2009年15期

5 杨延娇;王治和;;基于树桩网络的贝叶斯文本分类算法[J];计算机工程;2009年16期

6 林小俊;张猛;暴筱;李军;吴玺宏;;基于概念网络的短文本分类方法[J];计算机工程;2010年21期

7 孙荣宗;苗夺谦;卫志华;李文;;基于粗糙集的快速KNN文本分类算法[J];计算机工程;2010年24期

8 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期

9 李伯虎;张霖;王时龙;陶飞;曹军威;姜晓丹;宋晓;柴旭东;;云制造——面向服务的网络化制造新模式[J];计算机集成制造系统;2010年01期

10 王振宇;郭力;;基于Hadoop的搜索引擎用户行为分析[J];计算机工程与科学;2011年04期



本文编号:2515940

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2515940.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d16c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com