当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop平台的LDA短文本分类算法研究

发布时间:2019-03-04 13:13
【摘要】:近年来,随着即时通讯、微博等网络应用的发展,大量长度较短的文本信息应运而生。这些数据不仅增长速度快,且数量庞大。如何合理利用海量文本数据,从中提取有价值的信息,便成为了当下的研究热点。基于短文本的研究目前在网络舆情分析、热点话题发现、社交网络、购物平台推荐及信息安全等各个领域都受到广泛应用。短文本信息具有内容长度短、特征稀疏、噪点多等特性,以至于传统的文本分类方法效果非常不理想。本文在前人的研究基础上,提出了一种基于共现关系LDA主题的短文本分类方法。利用潜在狄利克雷主题模型(Latent Dirichlet Allocation,LDA)对短文本进行处理,得到"主题一词"分布;再提取同时出现在多个主题中的词语,建立共现词集;然后通过计算共现词集中各个词语与各个主题的相关度,将与两个以上主题具有近似相关度的词语做进一步筛选,建立混淆词集。在进行文本分类时,对于混淆词集中的词语,通过降低其权重来减少对分类结果的影响。为了提高本文方法的运行效率,将本文方法与Hadoop平台相结合,利用Hadoop分布式系统在处理海量数据的优势,来优化本文分类方法的分类效率。文本实验使用两种语料库:新闻标题语料库和微博语料库。实证过程制定两种实验方案:先使用样本较小的新闻标题语料库进行算法可行性验证,通过与其他方法进行对比,验证本文方法在分类效果方面的优势;随后利用大样本的微博语料库在Hadoop平台下测试本文方法是否在分类效率方面具有显著提高。最后通过实验结果分析得出,文本提出的基于共现关系的LDA短文本分类方法以及将此分类方法与Hadoop平台结合的分类效果效率均实现预期目标。
[Abstract]:In recent years, with the development of instant messaging, Weibo and other network applications, a large number of short-length text information emerged as the times require. These data not only grow fast, but also a large number. How to make rational use of massive text data and extract valuable information from it has become a hot research topic. Short text-based research is widely used in network public opinion analysis, hot topic discovery, social network, shopping platform recommendation and information security and so on. The short text information has the characteristics of short content length, sparse features and many noise points, so that the traditional text classification method is not ideal. On the basis of previous research, this paper proposes a short text classification method based on co-occurrence relation LDA topic. The latent Dirichlet theme model (Latent Dirichlet Allocation,LDA) is used to process the short text to obtain the distribution of the word "theme", and then to extract the words that appear in multiple topics at the same time, and to set up a set of co-existing words. Then by calculating the correlation degree between each word and each topic in the co-occurrence word set, the words with approximate correlation degree with more than two topics are further screened, and the confused word set is established. When text classification is carried out, the influence on the classification result is reduced by reducing the weight of the confused words in the set of words. In order to improve the efficiency of this method, this paper combines this method with Hadoop platform, and makes use of the advantage of Hadoop distributed system in processing massive data to optimize the classification efficiency of this classification method. The text experiment uses two kinds of corpus: news title corpus and Weibo corpus. In the empirical process, two kinds of experimental schemes are formulated: firstly, the feasibility of the algorithm is verified by using the corpus of news headlines with smaller samples, and the advantages of this method in classification effect are verified by comparing with other methods; Then a large sample of Weibo corpus is used to test whether the proposed method has a significant improvement in classification efficiency under the Hadoop platform. Finally, through the analysis of experimental results, it is concluded that the proposed LDA short text classification method based on co-occurrence relation and the efficiency of combining this classification method with Hadoop platform can achieve the desired goal.
【学位授予单位】:天津财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 谢天宇;曹奇英;;基于Hadoop集群的分布式入侵检测系统的设计与实现[J];微计算机信息;2012年09期

2 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期

3 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期

4 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期

5 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期

6 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期

7 ;大数据不等于Hadoop[J];办公自动化;2014年06期

8 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期

9 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期

10 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期

相关重要报纸文章 前8条

1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年

2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年

3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年

4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年

5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年

6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年

7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年

8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年

相关博士学位论文 前1条

1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

相关硕士学位论文 前10条

1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年

2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年

3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年

4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年

5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年

6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年

7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年

8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年

9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年

10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年



本文编号:2434294

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2434294.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c9e2a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com