当前位置:主页 > 文艺论文 > 广告艺术论文 >

并行LDA、聚类算法的研究及应用

发布时间:2017-09-12 17:03

  本文关键词:并行LDA、聚类算法的研究及应用


  更多相关文章: Spark LDA 二分K均值 词语相似度 微博广告


【摘要】:随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了当前的研究热点。面对海量的数据,传统的单机处理技术已经无法处理,因而人们开始寻求新的解决办法,云计算、大数据处理技术也就应运而生了。在众多的大数据处理技术中,Spark是近几年兴起的一种基于内存计算的并行计算框架。它的优势在于十分擅长进行交互式和迭代式计算,因而受到广泛的使用。本文在Spark框架上对机器学习、数据挖掘的方法作了并行化的设计。文中还涉及到词语相似度的计算,对计算方法作了一些改进。最后将这些方法应用到微博广告的投放中去,实现广告的定向投放。本文的研究工作可以分为以下四个方面:1.基于Spark框架,设计了LDA主题模型的并行化方法。在LDA模型中,采用吉布斯采样的方法对模型进行推导。通过对数据集的分割,将每个子数据集分配到集群中的各个节点进行并行运算,从而实现LDA模型的并行计算。2.对二分K均值算法进行改进并设计了基于Spark的并行算法。针对原有的算法在二分过程中,初始质心的选择速度存在不足,提出了采用极大距离点作为初始质心的二分K均值算法。改进后的算法,大大降低了运算时间。另外,本文在Spark框架下,作了改进后的二分K均值算法的并行化设计。3.对词语相似度计算方法做了改进。本文的词语相似度计算方法是基于How Net的,通过对How Net的研究,本文将对词语相似度计算方法进行改进,实验表明改进后的词语间相似度更符合人们日常的理解和认知。4.结合已得到的研究成果,设计了微博广告定向投放方案。具体的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法从微博数据中挖掘出用户的兴趣,再利用本文第三部分提出的词语相似度计算方法对用户兴趣词与广告投放关键词进行相似度计算,选择出与用户兴趣最相似的广告投放给用户,从而实现广告的定向投放。
【关键词】:Spark LDA 二分K均值 词语相似度 微博广告
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP311.13
【目录】:
  • 摘要3-4
  • Abstract4-9
  • 第1章 绪论9-15
  • 1.1 研究背景9-10
  • 1.2 国内外研究现状10-13
  • 1.2.1 并行LDA算法的研究现状10-11
  • 1.2.2 二分K均值算法的研究现状11-12
  • 1.2.3 词语相似度计算方法的研究现状12-13
  • 1.3 本文的研究工作13-14
  • 1.4 论文结构14-15
  • 第2章 相关技术15-24
  • 2.1 Spark15-17
  • 2.1.1 Spark生态系统15-17
  • 2.1.2 Spark核心概念17
  • 2.2 HowNet17-20
  • 2.3 ICTCLAS20-21
  • 2.4 文本主题挖掘方法21-23
  • 2.5 本章小结23-24
  • 第3章 基于Spark的LDA并行算法24-38
  • 3.1 LDA主题模型及其推导24-28
  • 3.1.1 LDA主题模型24-25
  • 3.1.2 吉布斯采样25-27
  • 3.1.3 基于吉布斯采样的模型推导27-28
  • 3.2 基于Spark的LDA算法并行设计28-33
  • 3.2.1 并行算法设计思想28-30
  • 3.2.2 并行LDA算法的实现30-33
  • 3.3 实验与分析33-37
  • 3.3.1 实验环境33-34
  • 3.3.2 实验数据来源34
  • 3.3.3 实验内容与结论34-37
  • 3.4 本章小结37-38
  • 第4章 基于Spark的二分K均值并行算法38-46
  • 4.1 二分K均值算法及优化38-40
  • 4.2 二分K均值算法的并行设计40-42
  • 4.3 实验与分析42-45
  • 4.3.1 改进的二分K均值算法实验42-44
  • 4.3.2 并行二分K均值算法实验44-45
  • 4.4 本章小结45-46
  • 第5章 基于How Net的词语相似度计算46-54
  • 5.1 基于HowNet的词语相似度计算方法46-48
  • 5.2 基于HowNet的词语相似度计算方法的改进48-51
  • 5.2.1 义原相似度计算方法的改进48-49
  • 5.2.2 概念相似度计算方法的改进49-51
  • 5.3 实验与分析51-53
  • 5.3.1 实验环境51
  • 5.3.2 实验结果与分析51-53
  • 5.4 本章小结53-54
  • 第6章 微博广告定向投放设计54-63
  • 6.1 微博广告定向投放方法54-56
  • 6.1.1 微博用户兴趣挖掘54-55
  • 6.1.2 微博广告的定向投放55-56
  • 6.2 微博文本的特点及处理56-57
  • 6.3 设计思路57-59
  • 6.4 方案实现59-62
  • 6.4.1 微博数据预处理59-60
  • 6.4.2 用户兴趣挖掘60-62
  • 6.4.3 广告的定向投放62
  • 6.5 本章小结62-63
  • 第7章 总结与展望63-65
  • 参考文献65-67

【参考文献】

中国期刊全文数据库 前9条

1 邱云飞;王琳颍;邵良杉;郭红梅;;基于微博短文本的用户兴趣建模方法[J];计算机工程;2014年02期

2 温腊;芮建武;何婷婷;郭亮;;利用并行GPU对分层分布式狄利克雷分布算法加速[J];计算机应用;2013年12期

3 裘国永;张娇;;基于二分K-均值的SVM决策树自适应分类方法[J];计算机应用研究;2012年10期

4 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期

5 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

6 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期

7 戴东波;汤春蕾;熊峗;;基于整体和局部相似性的序列聚类算法[J];软件学报;2010年04期

8 石晶;范猛;李万龙;;基于LDA模型的主题分析[J];自动化学报;2009年12期

9 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期



本文编号:838433

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/838433.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44eff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com