当前位置:主页 > 管理论文 > 移动网络论文 >

面向微博数据流的观点汇总技术的研究与实现

发布时间:2018-07-29 06:09
【摘要】:作为一种日益流行的Web 2.0应用,微博客已逐渐成为人们日常生活中记录身边事件以及交流个人观点过程中不容忽视的载体和不可或缺的平台,并被越来越多的人们所接受和青睐。微博用户可以通过固定或移动的客户端登陆,借助“发布”、“转发”等功能方便快捷的表达自己的个人情感和意愿。微博“方便快捷”、“可读性强”等特点使得其在短时间内得以广泛传播,并形成了其独特的传播快、流量大、实时性强、信息繁杂等特点,这些特点使得对微博数据的处理面临巨大挑战,微博用户迫切希望在第一时间简单快捷的获取某一事件的大众观点及相应的观点倾向。针对这样的需求,本文在充分考虑微博数据“流”形态的基础上,将观点汇总技术与之结合,旨在及时有效地获取用户希望得到的汇总观点。基于上述目标,本文首先利用流数据上的聚类手段,将目标数据流根据其包含的主题予以增量式的实时聚类,形成随时间变迁的动态主题簇。实验表明,在合适的参数范围内,本文提出的方法可以获得一个较为平稳的聚类效果,各主题簇间划分较为清楚。第二,在每个主题簇中建立起基于情感词的主题-观点短语树,以此作为一种压缩手段存储数据流产生的主题及观点信息,在此过程中充分考虑数据流的特性,辅以通过动态分析频繁项集,对形成的短语树进行的剪枝维护,以求将数据规模控制在可控范围。在相关实验中,本文成功构建出主题情感树,并通过依托频繁项集统计的方式实现了对树的规模的有效控制。最后,通过抽取每个主题簇中主题—观点短语树内的最长短语作为簇的代表主题及观点,将各簇中的抽取结果汇总,形成最终的针对整个事件的观点汇总结果。经过与相关方法的对比,五分之三的评测人员认为本文的方法得出的汇总结果更为出色,从侧面反映了本文提出的处理模式的合理性。综上所述,本文提出的工作流程和方法在充分考虑微博数据流实时性特点的同时,可以较全面地涵盖所分析数据的主题。基于情感词的短语树的构建成功解决了主题及观点的存储压缩问题,并在可接受的准确率损失度下形成了合理完整的主题—观点短语,最终分析形成的汇总结果具有较强的可读性以及较为突出的代表性。
[Abstract]:As an increasingly popular Web 2.0 application, Weibo guest has gradually become a carrier and an indispensable platform for people to record events and exchange personal opinions in their daily life. And by more and more people accepted and favored. Weibo users can use fixed or mobile client login, with the help of "publish", "forward" and other functions to express their personal feelings and wishes quickly and conveniently. The characteristics of Weibo, such as "convenient and fast" and "strong readability", make it widely spread in a short period of time, and form its unique characteristics such as fast transmission, large flow, strong real-time and complicated information, etc. These characteristics make the processing of Weibo data face a huge challenge. Weibo users are eager to obtain the public opinion and the corresponding opinion tendency of a certain event in the first time. In view of this demand, this paper combines the viewpoint summarization technology with Weibo data "flow" form, in order to get the summary viewpoint that the user wants in time and effectively. Based on the above objectives, this paper firstly makes use of the clustering method on the stream data to cluster the target data stream incrementally according to the topics it contains, and forms a dynamic cluster of topics over time. The experimental results show that the proposed method can obtain a more stable clustering effect within a suitable range of parameters, and the classification of each topic cluster is relatively clear. Secondly, a topic-viewpoint phrase tree based on affective words is built in each topic cluster, which is used as a compression method to store the topic and viewpoint information generated by the data flow. In the process, the characteristics of the data flow are fully considered. With the help of dynamic analysis of frequent itemsets, the pruning and maintenance of the formed phrase trees is carried out in order to control the data size in a controllable range. In related experiments, this paper successfully constructs the subject emotion tree, and realizes the effective control of the tree scale by relying on frequent itemsets statistics. Finally, by extracting the longest phrase in the topic-viewpoint phrase tree of each topic cluster as the representative topic and viewpoint of the cluster, the extracted results from each cluster are summarized to form the final summary result for the whole event. Through the comparison with the related methods, 3/5 evaluators think that the summary result of this method is more excellent, which reflects the rationality of the processing mode proposed in this paper. To sum up, the workflow and method proposed in this paper can fully consider the real-time characteristics of Weibo data flow, and can cover the subject of the analyzed data more comprehensively at the same time. The construction of phrase tree based on affective words successfully solves the problem of storing and compressing the topic and viewpoint, and forms a reasonable and complete topic-viewpoint phrase under the acceptable loss of accuracy. The result of the final analysis has strong readability and outstanding representativeness.
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1

【相似文献】

相关期刊论文 前10条

1 侯太平,顾大权,王柏春,朱红伟;远程天气会商系统中的数据流处理[J];计算机工程;2003年03期

2 陈昕,宋瀚涛;基于数据流的近似查询计算及其应用研究[J];计算机应用研究;2003年11期

3 陈昕,陈维兴,苏锦祥;基于数据流模式的聚集快速查询计算研究[J];计算机集成制造系统;2004年06期

4 张冬冬,李建中,王伟平,郭龙江;分布式复式数据流的处理[J];计算机研究与发展;2004年10期

5 王金栋;周良;张磊;丁秋林;;一类数据流连续查询的降载策略研究[J];武汉大学学报(工学版);2005年06期

6 刘景春;;数据流分类关键技术研究[J];佳木斯大学学报(自然科学版);2007年01期

7 李琳;孙士兵;;数据流聚类方法发展研究[J];长沙民政职业技术学院学报;2008年04期

8 陈军;周明天;杨晓燕;;数据流系统降载研究综述[J];计算机应用研究;2008年10期

9 傅鹂;鲁先志;蔡斌;;一种基于数据流驱动的数据流连续查询模型[J];重庆工学院学报(自然科学版);2008年10期

10 David P.Misunas ,张启瑞;数据流处理机的性能分析[J];计算机工程与应用;1980年12期

相关会议论文 前10条

1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

5 韩近强;杨冬青;唐世渭;;数据流处理中一种自适应的直方图维护算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

6 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

7 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

8 于亚新;王国仁;陈灿;苏林;朱歆华;赵相国;;基于操作符优先级的两种分布式数据流负载分配算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

9 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

10 田李;王乐;贾焰;邹鹏;李爱平;;分布式数据流上低通信开销的连续极值查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

相关博士学位论文 前10条

1 张丽;数据流上序敏感查询处理关键技术研究[D];国防科学技术大学;2013年

2 王超;时间序列数据流复杂模式挖掘研究[D];合肥工业大学;2015年

3 李飒;数据流软聚类理论及其在瓦斯灾害预警中的应用[D];辽宁工程技术大学;2014年

4 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年

5 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年

6 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年

7 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年

8 曹振丽;面向养殖环境监测的数据流处理方法研究[D];中国农业大学;2015年

9 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年

10 袁志坚;数据流突发检测若干关键技术研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 王川;面向位置服务的物联网数据质量保证方法研究[D];南京理工大学;2015年

2 祝然威;基于时间窗口的数据流频繁项挖掘算法[D];复旦大学;2014年

3 邱孝兵;基于GPU的数据流聚类及相关性分析[D];大连理工大学;2015年

4 张野;数据流查询语言中语法分析器的设计[D];电子科技大学;2015年

5 闫新院;基于概要模型的数据流聚合技术研究[D];西安电子科技大学;2014年

6 王涛;基于Ntrip协议的实时数据流软件的设计与实现[D];西安电子科技大学;2014年

7 陈彬;数据流实时存储关键技术[D];浙江工业大学;2015年

8 王高洋;基于网格和加速粒子群优化的数据流聚类算法研究[D];哈尔滨师范大学;2015年

9 钱海振;大数据流滞后相关性挖掘方法[D];辽宁师范大学;2015年

10 刘祥佳;制造物联海量数据流模式挖掘算法研究[D];广东工业大学;2016年



本文编号:2151777

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2151777.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a04f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com