当前位置:主页 > 管理论文 > 移动网络论文 >

微博大数据文本分析方法及推荐服务

发布时间:2018-06-22 23:30

  本文选题:微博 + 话题演变 ; 参考:《武汉理工大学》2014年硕士论文


【摘要】:微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取的平台。用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。微博比传统的社交网络具有更强的信息传播能力和用户粘性,这一独特优势使其迅速成为当前主要社会媒体之一。同时微博作为一种非常重要的消息来源与传播途径,在越来越多的社会事件中起到关键作用。对微博数据的分析与研究已经成为目前的研究热点之一。本文以新浪微博数据作为研对象,主要对新浪微话题数据进行文本处理,分析其媒体特征及其对传统搜索查询词推荐服务的优化,并讨论大数据环境下处理效率的问题。 本文的主要工作包括以下四个方面:1)针对新浪微话题数据的抽取,我们采用了基于Html页面解析的方式来获取数据,解决新浪API数据获取接口不完全开放,数据无法完整获取的问题;2)提出用户参与度和用户活跃度,话题热度和话题活跃度这四个指标,实现新浪微话题的媒体特征分析。并重点讨论了其话题特征,给出了话题演变的趋势图,并研究了基于LDA主题模型的微博语义抽取。数据统计结果表明微博文本的话题性强、时间性强。由于微博文本短小,直接采用LDA做潜在语义抽取的效果并不理想。3)针对微博文本大数据处理这一块,我们采用Hadoop框架下的MapReduce编程模型实现了关键字的倒排索引。除了能够根据查询词定位到某条微博,,还原微博文本信息推荐给用户,还探讨了不同数据大小以及不同节点的情况下,对微博数据处理所花费的时间的影响;4)提出基于微博话题的Web查询词推荐方法,更高效地帮助用户快速地表达他们的信息需求以及更准确地获取他们所需要的信息。目前大量实时热门的话题在短时间内大量涌现,而目前搜索系统的查询词一般依赖历史搜索记录,如何去有效地对历史记录里面没有或者少有的词给提供推荐服务将会变得比较困难。本文所提出的方法考虑到微博这种新型的网络社交媒体中的强话题性和快速性,充分利用微话题下的评论信息去挖掘潜在的推荐,从而给出了Web新鲜方面的查询词推荐。
[Abstract]:Microblog , the short name of Microblog , is a platform for information sharing , communication and acquisition based on user relationship . The user can update the information about 140 characters and realize instant sharing through WEB , WAP and various client component personal communities . Micro - blog plays a key role in more and more social events than traditional social networks .

The main work of this paper includes the following four aspects : 1 ) To extract data from Sina micro - topic data , we adopt Htmlpage - based analysis method to get data , solve the problem that the data acquisition interface of Sina API is not completely open , and the data cannot be acquired completely ;
2 ) To put forward four indexes of user participation and user activity , topic heat degree and topic activity degree , to realize the media characteristic analysis of Sina ' s micro - topic . The paper focuses on the topic characteristics , gives the trend chart of topic evolution , and studies the micro blog semantic abstraction based on LDA topic model .
4 ) The proposed method of Web query word based on micro blog topic can help users express their information needs more efficiently and get more accurate information needed by them . At present , a lot of real - time hot topics emerge in a short time .
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前2条

1 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

2 刘晓华;韦福如;段亚娟;周明;;基于语义分析的微博搜索[J];山东大学学报(理学版);2012年05期



本文编号:2054691

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2054691.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cd046***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com