基于GPU的LDA算法并行化设计与实现
本文关键词:一种应用于搜索引擎的文本聚类算法,由笔耕文化传播整理发布。
《北京邮电大学》 2013年
基于GPU的LDA算法并行化设计与实现
文化龙
【摘要】:随着信息技术及互联网的发展,人类所面对的网络信息迅速膨胀,因此如何从杂乱无章的海量文本信息中快速刷选出目标信息,一直是自然语言处理领域的研究热点。文本聚类是一种基础的自然语言处理技术,在文本聚类中,LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)算法是一种主题模型聚类,根据从文本中发现的主题进行分类,能有效提高聚类结果的质量。然而在实际应用中,LDA算法的程序在计算大规模数据时速度较慢,原因是使用相同的控制逻辑处理大量数据,需要在CPU上对这些大量数据反复循环。根据LDA算法的耗时特点,可以对LDA算法进行并行化设计,并利用并行计算技术对其进行加速。 计算机图形处理器(Graphics Processing Unit, GPU)不断高速发展,目前已拥有强大的并行处理能力和可编程流水线,非常适合于高效率低成本的高性能并行数值计算,为图形处理之外的通用计算任务提供了良好的运行平台。基于GPU的通用计算已成为高性能计算领域的热点研究课题。 CUDA(Compute Unified Device Architecture,统一计算设备架构)是一种新的处理和管理GPU并行计算的硬件架构与编程模型,由NVIDIA公司开发。CUDA将GPU视作一个数据并行计算设备,并且无需把这些计算映射到图形API。CUDA程序的开发语言以C语言为基础,并对C语言进行扩展。在CUDA程序中,核函数调用GPU执行并行计算,通过GPU内部硬件提供的多层次存储器,GPU内部计算所需的数据读写操作效率都非常理想,因此核函数的执行时间往往很短。采用CUDA编程模型,对LDA文本聚类算法并行化设计与实现,可以充分利用GPU的并行计算能力,取得很好的加速效果。 本文首先介绍了Mahout机器学习库中基于MapReduce模型的LDA程序主要架构,该模型是为实现分布式计算而设计,能够在Hadoop计算集群上分布式运行。接着,分析并找出其中计算过程繁多的串行代码部分,研究将这些代码并行化的方案。最后利用CUDA编程模型实现并行程序,将核心的计算任务从CPU转移到GPU,由串行计算变为并行计算,实现了GPU并行加速。实验表明,利用GPU强大的并行计算能力,可以大幅加速基于MapReduce编程模型的LDA文本聚类程序,对GPU在数据挖掘领域的其他应用具有一定的借鉴意义。
【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.6
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前2条
1 曹小鹏;;基于GPU并行计算及在模式识别中的研究[J];计算机与数字工程;2011年08期
2 余传明;张小青;陈雷;;基于LDA模型的评论热点挖掘:原理与实现[J];情报理论与实践;2010年05期
中国博士学位论文全文数据库 前1条
1 程开东;基于GPU并行计算的动态签名鉴别算法研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前3条
1 蔡岳;一种应用于搜索引擎的文本聚类算法[D];北京林业大学;2010年
2 黄波;基于向量空间模型和LDA模型相结合的微博客话题发现算法研究[D];西南交通大学;2012年
3 张凌洁;基于GPU的最短路径算法的研究和实现[D];北京化工大学;2012年
【共引文献】
中国期刊全文数据库 前4条
1 袁津生;程超然;;基于文本聚类搜索引擎的查询扩展算法[J];计算机工程与应用;2012年03期
2 李群;袁津生;;基于DBSCAN的最优密度文本聚类算法[J];计算机工程与设计;2012年04期
3 唐晓波;王洪艳;;基于潜在语义分析的微博主题挖掘模型研究[J];图书情报工作;2012年24期
4 廖君华;孙克迎;钟丽霞;;一种基于时序主题模型的网络热点话题演化分析系统[J];图书情报工作;2013年09期
中国博士学位论文全文数据库 前3条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 王珂;矿井无线传感器网络节点部署关键技术的研究[D];中国矿业大学;2011年
3 刘杨;基于SG-MA-ISPA模型的区域可持续发展评价研究[D];重庆大学;2012年
中国硕士学位论文全文数据库 前5条
1 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
2 程超然;基于文本聚类搜索引擎查询扩展算法的研究与实现[D];北京林业大学;2012年
3 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
4 邱洋;微博数据提取及话题检测方法研究[D];大连理工大学;2013年
5 梁钰英;基于GPU的协同过滤推荐算法的设计与实现[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 王握文;陈明;;“天河一号”超级计算机系统研制[J];国防科技;2009年06期
2 张公正;关于摹仿笔迹鉴定之探索[J];公安大学学报(自然科学版);2002年01期
3 刘小华,王燕生;指纹识别技术的发展[J];光学技术;1998年04期
4 董荦;葛万成;陈康力;;CUDA并行计算的应用研究[J];信息技术;2010年04期
5 胡桔州;Floyd最短路径算法在配送中心选址中的应用[J];湖南农业大学学报(自然科学版);2004年04期
6 金涌,柳健,姜向东;改善手写签名动态特征稳定性的局部相关分析[J];华中理工大学学报;1998年12期
7 金涌,柳健;手写签名的概率神经网络识判模型[J];华中理工大学学报;1999年05期
8 金涌,柳健;基于空间曲线弹性匹配的在线手写签名鉴别[J];华中理工大学学报;1999年05期
9 唐降龙,孙广玲,刘家锋,容军;一种笔段序列匹配联机汉字识别方法[J];计算机研究与发展;1999年12期
10 周水庚,周傲英,曹晶,胡运发;一种基于密度的快速聚类算法[J];计算机研究与发展;2000年11期
中国硕士学位论文全文数据库 前4条
1 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
2 秦晋;Krylov子空间方法的GPU加速算法研究[D];国防科学技术大学;2010年
3 付彤;网络系统中几种物流配送问题的实用算法研究[D];西北工业大学;2006年
4 李敏;多车场多配送中心多用户点的最优物流配送问题研究[D];西北工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 刘金娟;张东晨;巩天宁;李涛;;流水线技术及并行计算在GPU中的应用分析[J];软件导刊;2008年09期
2 程思远;米婷;吴宇亮;杜江斌;;CUDA并行数据压缩技术研究[J];电脑知识与技术;2011年05期
3 汤伟宾;;GPU并行技术在口令恢复中的应用[J];电信科学;2010年S2期
4 陆建勇;曹雪虹;焦良葆;;基于GPU交互式光线跟踪算法的设计与实现[J];南京工程学院学报(自然科学版);2009年03期
5 徐鹏;魏紫;;N-Body问题在CUDA平台上并行实现研究[J];科技信息;2009年27期
6 陈飞国;葛蔚;李静海;;复杂多相流动分子动力学模拟在GPU上的实现[J];中国科学(B辑:化学);2008年12期
7 王健;许明;葛蔚;李静海;;单相流动数值模拟的SIMPLE算法在GPU上的实现[J];科学通报;2010年20期
8 李建明;万单领;何荣盛;钱昆明;;一种基于GPU加速的图像颜色传递算法[J];大连理工大学学报;2008年02期
9 徐展琦;裴昌幸;董淮南;;一种通用多通道并行CRC计算及其实现[J];南京邮电大学学报(自然科学版);2008年02期
10 臧增亮;饶宣锐;潘晓滨;张理论;王春明;何宏让;;区域分解对气象模式并行计算速度的影响[J];计算机工程;2008年17期
中国重要会议论文全文数据库 前10条
1 张兵;韩景龙;;一种GPU上的CFD并行计算方法[A];第十一届全国空气弹性学术交流会会议论文集[C];2009年
2 周昆;潘益农;王东勇;朱红芳;;中尺度数值模式在IBMP690上的并行测试[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
3 张健飞;张磊;;基于Aztec和PETSc的有限元并行计算[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 李冬;王学进;周航宇;;并行计算在数值SEA效能评估中的应用研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
5 范晓樯;李桦;田正雨;;超声速/高超声速飞行器复杂流场大规模并行数值仿真[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年
6 齐进;叶文华;;三维激光烧蚀瑞利-泰勒不稳定性并行计算[A];中国空气动力学学会第十届物理气体动力学专业委员会会议论文集[C];2001年
7 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
8 丛鹏;;MPI并行计算实现工业CT图像重建[A];2004年CT和三维成像学术年会论文集[C];2004年
9 丁国昊;罗凯;李伟;李桦;;乘波飞行器气动特性数值模拟与并行计算[A];第三届高超声速科技学术会议会议文集[C];2010年
10 罗文彩;陈小前;;并行计算的多方法优化协作[A];第二十四届中国控制会议论文集(上册)[C];2005年
中国重要报纸全文数据库 前10条
1 轶嘉;[N];人民邮电;2009年
2 江锡民;[N];新华日报;2009年
3 刘琦;[N];中国计算机报;2008年
4 均儿;[N];电脑报;2009年
5 本报记者 马文方;[N];中国计算机报;2009年
6 电脑报 朱文利;[N];电脑报;2009年
7 英特尔并行计算实验室研究员 TimothyMattson;[N];中国计算机报;2007年
8 英特尔 赵军(Jun Zhao);[N];中国计算机报;2009年
9 记者 严天秀;[N];昆明日报;2010年
10 ;[N];人民邮电;2008年
中国博士学位论文全文数据库 前10条
1 陈军;分布式存储环境下并行计算可扩展性的研究与应用[D];中国人民解放军国防科学技术大学;2000年
2 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
3 尹欣;三维弹性问题边界元法并行计算及其工程应用[D];清华大学;2000年
4 陈晓春;基于并行计算的大涡模拟方法及其工程应用基础研究[D];西安建筑科技大学;2004年
5 王开健;基于特大增量步算法的网络并行计算[D];清华大学;2005年
6 张理论;面向气象预报数值模式的高效并行计算研究[D];中国人民解放军国防科学技术大学;2002年
7 寇哲君;可扩展冲击—接触并行计算及其在汽车碰撞模拟中的应用[D];清华大学;2003年
8 刘丽;人工免疫网络研究及应用[D];江南大学;2008年
9 王建华;基于GPU的显式有限元快速计算方法及在车身设计制造中的应用[D];湖南大学;2011年
10 龙丹冰;基于并行的特大增量步算法在计算固体力学中的应用[D];上海交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 朱丽莎;基于GPU的一维热传导算法研究[D];暨南大学;2011年
2 文化龙;基于GPU的LDA算法并行化设计与实现[D];北京邮电大学;2013年
3 张立花;基于GPU加速的细粒度模型并行免疫算法研究[D];大连理工大学;2009年
4 高和东;GPU并行计算在LSSVM建模中的研究与应用[D];大连理工大学;2010年
5 魏卓群;GPU并行免疫算法在冷轧生产调度中的应用[D];大连理工大学;2010年
6 刘婷;基于GPU的图像隐写分析实现[D];华东理工大学;2011年
7 陆秉嘉;基于GPU的图形渲染和并行计算在光学分子成像中的应用[D];西安电子科技大学;2010年
8 张凌洁;基于GPU的最短路径算法的研究和实现[D];北京化工大学;2012年
9 徐少鲲;基于开源软件OpenFOAM的数值波浪水槽建立及应用[D];天津大学;2008年
10 刘丹;基于GPU的分子动力学模拟方法研究[D];武汉理工大学;2010年
本文关键词:一种应用于搜索引擎的文本聚类算法,,由笔耕文化传播整理发布。
本文编号:122165
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/122165.html