社交媒体文本数据挖掘算法及应用
本文选题:文本挖掘 + 社交媒体分析 ; 参考:《南京大学》2017年硕士论文
【摘要】:社交媒体是互联网近几年快速发展的产物,现如今已融入了人们生活的方方面面。社交媒体数据已经成为互联网中最重要的信息来源,在互联网各类应用中发挥着重要的作用。文本挖掘技术也正在逐步适应大数据时代,在社交媒体中逐步流行起来。传统的文本挖掘任务主要针对格式规范的新闻文本。各类文本处理工具在基于新闻文本的任务中都能够提供可靠的预处理结果。然而,传统的文本处理方法在互联网数据文本的处理中显得不尽如人意。互联网文本如微博数据,有着较多区别于传统文本的特性。这些特性给社交媒体文本挖掘工作带来了新的机遇和挑战。针对互联网数据的新特性,我们从社交媒体分析领域的两个具体任务出发提出了我们的方法。在微博平台中,用户能够随时发布微博来记录他们的日常生活以及表达他们的观点或者想法。最近,基于用户微博数据来为用户生成个性化标签的任务逐步流行了起来。个性化标签,作为描述用户个性化兴趣爱好的特征,在用户画像、个性化推荐等领域起到了非常重要的作用。很多已有的标签抽取工作都是作为普通的关键词抽取任务来完成。对于内容简短、格式不规范的微博数据,传统的关键词抽取方法难以获得较好的抽取结果。在本文中,我们提出了一种无监督的标签抽取方法。首先,我们使用了一种特殊的数据标准化方式来构造数据集。之后,通过基于稀疏模型的特征选择方法来为用户抽取特征词,并对目标标签进行扩展。最后,我们定义了一种重排序的优化策略来过滤抽取结果。我们在新浪微博的数据集上进行了实验。对比其他无监督的方法,我们提出的方法显著地提升了标签抽取效果。微博中的事件抽取任务是一个非常有趣却很难的任务。现存的大多数方法都是基于事件特征词的共现频率或者主题分布来进行事件抽取的。较少的工作使用到了微博数据中的时序信息进行事件识别。在本文中,我们使用了一种基于协同训练的多视角聚类方法,在事件抽取过程中能够同时考虑数据中的主题信息和时序信息。首先,我们分别利用主题模型和时序分析算法构造事件特征词的主题相似度矩阵和时序相似度矩阵。随后,基于协同训练的多视角聚类算法会被用来对事件特征词进行聚类,不同的类簇表示不同的事件。在Twitter数据集上的实验结果表明,我们的方法不仅比单独考虑主题模型和时序分析的单视角方法要好,对比其他基于关键词聚类和基于文本聚类的方法也有很大的优势。
[Abstract]:Social media is the product of the rapid development of the Internet in recent years, and now has been integrated into all aspects of people's lives. Social media data has become the most important information source in the Internet and plays an important role in various applications of the Internet. Text mining technology is also gradually adapting to the big data era, gradually popular in social media. The traditional task of text mining is mainly aimed at the format of the standard news text. All kinds of text processing tools can provide reliable preprocessing results in news-based tasks. However, the traditional text processing method is not satisfactory in the Internet data text processing. Internet text, such as Weibo data, is different from traditional text. These features bring new opportunities and challenges to social media text mining. In view of the new features of Internet data, we put forward our method from two specific tasks in the field of social media analysis. On the Weibo platform, users can publish Weibo at any time to record their daily lives and express their views or ideas. Recently, the task of generating personalized tags for users based on user Weibo data has gradually become popular. As a feature of describing users' personalized interests, personalized tags play a very important role in user portrait, personalized recommendation and other fields. Many existing tag extraction tasks are done as common keyword extraction tasks. For Weibo data with short content and non-standard format, the traditional keyword extraction method is difficult to obtain better results. In this paper, we propose an unsupervised label extraction method. First, we use a special method of data standardization to construct data sets. Then, the feature selection method based on sparse model is used to extract the feature words for the user and extend the target label. Finally, we define a reordering optimization strategy to filter the extraction results. We experimented on the data set of Sina Weibo. Compared with other unsupervised methods, the proposed method significantly improves the effectiveness of label extraction. The event extraction task in Weibo is a very interesting but difficult task. Most existing methods are based on co-occurrence frequency or topic distribution of event feature words. Less work uses temporal information in Weibo data for event recognition. In this paper, we use a multi-view clustering method based on cooperative training, which can consider both topic information and temporal information in the process of event extraction. Firstly, the topic similarity matrix and temporal similarity matrix of event feature words are constructed by using topic model and temporal analysis algorithm, respectively. Subsequently, the multi-view clustering algorithm based on cooperative training is used to cluster the event feature words, and different clusters represent different events. The experimental results on the Twitter dataset show that our method is not only better than the single view method which considers the topic model and temporal analysis alone, but also has great advantages over other methods based on keyword clustering and text clustering.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 ;社交媒体十大趋势[J];现代营销(经营版);2009年05期
2 ;怎样看待社交媒体[J];中国经济和信息化;2011年12期
3 马尔科姆;;被高估的社交媒体[J];当代传播;2011年03期
4 ;未来社交媒体10大趋势[J];中国传媒科技;2011年07期
5 启程;;社交媒体之“湿”与社会之痛[J];检察风云;2011年17期
6 曹博林;;社交媒体:概念、发展历程、特征与未来——兼谈当下对社交媒体认识的模糊之处[J];湖南广播电视大学学报;2011年03期
7 ;国外媒体对记者使用社交媒体的规定[J];新闻记者;2011年12期
8 马小娟;;论社交媒体对公民政治参与的影响[J];中国出版;2011年24期
9 冯岩;;人文城市发展中的社交媒体管理[J];城市发展研究;2012年03期
10 文卫华;刘嘉丽;王雅萱;;试析社交媒体在新闻传播中的运用与边界[J];中国报业;2012年08期
相关会议论文 前3条
1 袁靖华;;微博的理想与现实——兼论社交媒体建构公共空间的三大困扰因素[A];数字未来与媒介社会2[C];2010年
2 洪婧茹;;社交媒体与上海大学生的环保参与:从线上关注到线下行动[A];中华新闻传播学术联盟第六届研究生学术研讨会论文集[C];2014年
3 王斌;郑满宁;;扭转“逆差”:社交媒体时代国人形象传播机制及策略[A];新闻学论集(第30辑)[C];2014年
相关重要报纸文章 前10条
1 韩军 编译;社交媒体营销助推器还是新航向?[N];中国民航报;2010年
2 本报记者 陈晓平;社交媒体重构商业?[N];21世纪经济报道;2011年
3 一鸣;出版商介入社交媒体的危险[N];中国图书商报;2011年
4 Chris Nerney;社交媒体带来的5大安全威胁[N];网络世界;2011年
5 李鑫源;社交媒体影响不容小窥[N];科技日报;2011年
6 陈晓平;社交媒体的“葫芦论”[N];21世纪经济报道;2011年
7 肖明超(新生代市场监测机构副总经理);社交媒体引发营销裂变[N];中国图书商报;2011年
8 文化学者 常江;社交媒体的“情绪化”[N];新华每日电讯;2012年
9 朱永磊 贝恩大中华区电信、媒体与高科技业务主管;如何成为社交媒体的长期赢家[N];通信产业报;2012年
10 记者 赵中文;东南亚企业倾向利用社交媒体经商[N];中华工商时报;2012年
相关博士学位论文 前7条
1 张雪;复杂网络链路分析与社交媒体预测[D];国防科学技术大学;2013年
2 罗准辰;社交媒体中的信息检索与传播分析[D];国防科学技术大学;2013年
3 丹尼尔;社交媒体在企业传播中的使用:可口可乐中国和可口可乐加纳案例研究[D];复旦大学;2014年
4 朱星玮;社交媒体信息结构化组织及其应用研究[D];清华大学;2015年
5 谢松县;社交媒体中观点信息分析与应用[D];国防科学技术大学;2014年
6 陈夏雨;工作场所中企业社交媒体可供性的实证研究[D];中国科学技术大学;2017年
7 唐李洋;基于社交媒体大数据的Twitter营销策略研究[D];合肥工业大学;2015年
相关硕士学位论文 前10条
1 李雪絮;社交媒体广告的表现策略研究[D];浙江理工大学;2013年
2 吕蒙;网络社交媒体关系网络与品牌传播[D];辽宁大学;2013年
3 吴祖宏;大学生手机社交媒体依赖的问卷编制及特点研究[D];西南大学;2014年
4 张茜茹;大学生社交媒体依赖的测量及其与主观幸福感的关系[D];山西师范大学;2015年
5 徐蕾;政务社交媒体用户使用意愿研究[D];南京大学;2015年
6 巩丽;社交媒体对电视节目受众观看行为的影响研究[D];复旦大学;2014年
7 邹姝玉;社交媒体自我表达研究[D];四川师范大学;2015年
8 秦晶晶;大学生社交媒体的使用情况、社会支持与社交焦虑的关系及其情绪启动效应研究[D];闽南师范大学;2015年
9 蒋胜;基于社交媒体网络的消费者网购决策及商品推荐研究[D];安徽工程大学;2015年
10 任雁;“文化迁徙”背景下中国留学社交媒体使用的“两栖”性研究[D];山东大学;2015年
,本文编号:1971752
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1971752.html