当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的中文微博主观情感分类的研究与实现

发布时间:2018-03-23 06:33

  本文选题:微博 切入点:情感分类 出处:《华东师范大学》2014年硕士论文 论文类型:学位论文


【摘要】:微博是互联网快速发展的一个产物,以其快速、随意的特点吸引了大量的用户。微博用户热衷于在上面发布自己的状态及观点。随着微博的不断发展,用户量不断增长,截止至2013年,仅新浪微博的用户量便已达到了5.03亿。如此巨大的用户量导致每天微博上新产生的信息不计其数。这些微博信息通常都具有强烈的感情色彩,分析这些信息能够获得很多隐藏的知识、数据,能为生活、工作带来很大的帮助。文本情感分类的研究与应用目前在国内外信息研究与应用领域正在得到大家的普遍关注,成为一个热点的信息研究、挖掘与应用的课题。 互联网的发展带动了大数据时代的到来。大数据一般指一个公司或企业创造的大量非结构化和半结构化数据。微博信息便是典型的大数据之一。然而,由于传统的关系型数据库的不足,在它上面分析大数据将会花费过多的时间和金钱。云计算的出现弥补了这些不足,满足了大数据的分析需求。云计算将作业的计算任务分布到了大量的分布式计算机上,拥有强大的计算处理能力。在现今的研究开发过程中,大数据的分析通常都与云计算联系在一起。 本文在研究分析了现有的文本情感分类技术的基础上,结合微博文本的特点,提出了一个基于Hadoop的中文微博主观情感分类系统。首先,根据微博信息的特点,建立了适用于中文微博情感分类的情感字典;其次,根据Map/Reduce编程模型,提出了基于Hadoop的分布式朴素贝叶斯分类算法,用以处理大规模的新浪微博数据;然后,针对包含最新网络词汇的信息,辅助以基于情感字典的情感分类法来进行情感分类;最后,选择适当的融合算法来结合本文两个算法的结果,以得到最终的分类结果。本文将该系统应用于新浪微博,实验结果表明,本文提出的方法能够很好地适用于微博情感分类,达到了较理想的分类效果,对处理海量的中文微博信息具有可行性。
[Abstract]:Weibo is a product of the rapid development of the Internet, which has attracted a large number of users with its rapid and casual characteristics. Weibo users are keen to publish their status and views on the Internet. With the continuous development of Weibo, the number of users has been growing. As of 2013, the number of users of Sina Weibo alone had reached 503 million. With such a huge number of users, there are countless new messages generated every day on Weibo, which usually have a strong emotional color. Analysis of this information can obtain a lot of hidden knowledge, data, can bring a lot of help to life and work. The research and application of text emotion classification is getting the universal attention in the field of information research and application at home and abroad. Become a hot topic of information research, mining and application. The development of the Internet has brought about the arrival of big data's era. Big data generally refers to a large number of unstructured and semi-structured data created by a company or enterprise. Because of the shortcomings of the traditional relational database, it will take too much time and money to analyze big data on it. The emergence of cloud computing has made up for these shortcomings. Cloud computing distributes the computing tasks of jobs to a large number of distributed computers, and has powerful computing and processing power. In today's research and development process, Big data's analysis is usually linked to cloud computing. Based on the research and analysis of the existing text emotion classification technology and the characteristics of Weibo's text, this paper puts forward a subjective emotion classification system based on Hadoop. First of all, according to the characteristics of Weibo information, Secondly, according to the Map/Reduce programming model, a distributed naive Bayesian classification algorithm based on Hadoop is proposed to deal with large-scale Sina Weibo data. For the information containing the latest online vocabulary, the emotion classification method based on emotion dictionary is used to classify emotion. Finally, the appropriate fusion algorithm is selected to combine the results of the two algorithms in this paper. In order to obtain the final classification result, this paper applies the system to Sina Weibo. The experimental results show that the method proposed in this paper can be well applied to Weibo emotional classification, and achieve a better classification effect. It is feasible to deal with huge amount of Chinese Weibo information.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1

【共引文献】

相关期刊论文 前10条

1 刘明;袁保宗;;遗传模糊系统的分类器融合[J];北京交通大学学报;2007年02期

2 施永春;;基于Adaboost的SAR图像溢油检测[J];电脑知识与技术;2011年29期

3 杜玉辉;蒋姣丽;;大数据背景:高速公路收费系统数据的现状、分析与展望[J];电脑知识与技术;2012年15期

4 李满意;;大数据安全[J];保密科学技术;2012年09期

5 黄晓斌;钟辉新;;大数据时代企业竞争情报研究的创新与发展[J];图书与情报;2012年06期

6 李冯筱;罗高松;;NoSQL理论体系及应用[J];电信科学;2012年12期

7 成静静;喻朝新;;基于云计算的大数据统一分析平台研究与设计[J];广东通信技术;2013年01期

8 陈云海;黄兰秋;;大数据处理对电子商务的影响研究[J];电信科学;2013年03期

9 王伟;;大数据分析——RDBMS与MapReduce的竞争与共生漫谈[J];计算机光盘软件与应用;2013年07期

10 马建光;姜巍;;大数据的概念、特征及其应用[J];国防科技;2013年02期

相关会议论文 前7条

1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 蔡津津;郜新鑫;付建俐;;基于业务元数据标准化的金融财经数据仓库及服务系统架构探讨[A];中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集[C];2012年

3 周为钢;杨良怀;潘建;郑申俊;沈贝伦;沈俊青;;论智能交通大数据处理平台之构建[A];第八届中国智能交通年会论文集[C];2013年

4 周军;何力;韩伟红;邓璐;;基于机器学习的中文评论倾向性分类实证研究[A];第28次全国计算机安全学术交流会论文集[C];2013年

5 朱浩然;梁循;马跃峰;纪阳;李启东;马超;;金融领域中文微博情感分析[A];第八届(2013)中国管理学年会论文集(选编)[C];2013年

6 谭胜淋;陈曦;;大数据的标准化研究[A];市场践行标准化——第十一届中国标准化论坛论文集[C];2014年

7 朱浩然;梁循;马跃峰;纪阳;李启东;马超;;金融领域中文微博情感分析[A];第八届(2013)中国管理学年会——金融分会场论文集[C];2013年

相关博士学位论文 前10条

1 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年

2 王欣;汉日否定表达对比研究[D];吉林大学;2011年

3 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年

4 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年

5 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年

6 张沐光;基于局部—全局结构分析的统计过程监测方法研究[D];浙江大学;2011年

7 文贞惠;现代汉语否定范畴研究[D];复旦大学;2003年

8 陈贞翔;具有规模适应性的互联网流量识别方法研究[D];山东大学;2008年

9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

10 黄兰秋;基于云计算的企业竞争情报服务模式研究[D];南开大学;2012年

相关硕士学位论文 前10条

1 张秀芳;现代汉语中“信任”“怀疑”的表达方式研究[D];安徽大学;2011年

2 田原;小麦与玉米叶部表观建模与应用[D];中国科学技术大学;2011年

3 翟永超;品牌服装企划系统中的产品预测系统架构设计[D];东华大学;2012年

4 张喜芹;汉语语用否定研究[D];暨南大学;2009年

5 李涛;基于半监督技术的集成分类研究[D];西北农林科技大学;2009年

6 丁爽;一种基于小波变换特征提取的集成学习算法[D];河南大学;2010年

7 沈姝;NoSQL数据库技术及其应用研究[D];南京信息工程大学;2012年

8 魏玉英;基于MapReduce的网络书写纹识别关键技术研究[D];华中师范大学;2012年

9 叶舒;“不”和“没(有)”的习得研究[D];渤海大学;2012年

10 洪扨昊;汉韩否定词对比研究[D];湖南师范大学;2012年



本文编号:1652345

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1652345.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3b3c0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com