当前位置:主页 > 管理论文 > 移动网络论文 >

微博数据挖掘可视化系统的设计与实现

发布时间:2019-05-23 14:51
【摘要】:随着移动通讯网络环境的不断完善以及智能手机的进一步普及,我国互联网已全面进入Web2.0时代。作为Web2.0的典型代表,微博拥有大量的活跃用户,内容覆盖领域广泛,社会影响力巨大。微博已经成为了人们获取信息、分享观点的重要渠道,海量数据背后蕴藏着巨大的学术研究价值。因此,本文以微博为研究对象,围绕微博数据的采集、挖掘、情感分析和可视化进行研究,设计并实现基于微博的数据挖掘可视化系统。本文的主要工作包括:(1)在数据采集方面,设计并实现了微博爬虫系统。该系统采用模拟登录解决身份认证问题,参考广度优先搜索的思想,利用热门微博监测模块实现高质量用户的自动发现,并结合网络爬虫、BeautifulSoup、正则表达式、多线程并发和数据库等技术实现多种用户信息和微博信息的采集。该爬虫系统解决了信息采集不全面、请求微博服务器过于频繁的问题,实现了微博数据全面高效的获取。(2)在数据挖掘方面,设计并实现了微博数据挖掘的用户分析模块和微博分析模块,提供了微博分析的基本功能,并基于机器学习算法重点研究了微博文本的情感分析,设计并实现了分类器的训练实验。本文分别采用“单词”、“双词”和“单词双词结合”三种特征抽取模型,利用卡方统计算法进行特征选择,并采用朴素贝叶斯、逻辑回归和支持向量机等六种分类算法进行对比实验。通过反复实验比较,获得了最优的分类模型。该模型无论对微博文本还是更短小的评论文本均得到了较好的分类效果。(3)在数据可视化方面,本文采用柱状图、折线图、地图、标签云、饼图、仪表盘等多种可视化图表展示数据分析结果,并通过浏览器呈现。本系统采用B/S结构,前端采用浏览器展示分析结果,后台由微博爬虫、MySQL关系型数据库、数据挖掘模块组合实现数据的采集、处理和分析功能。最终,实现微博的数据挖掘与可视化分析。本文的主要贡献和创新点包括:(1)设计并实现了包括微博数据采集、数据挖掘和数据可视化的微博分析系统。搭建的系统实现了用户分析和微博分析等功能,为后续研究提供了基础平台。(2)系统实现了微博文本的情感分析功能,本文采用机器学习算法训练情感分析模型,该模型的正确率达到85%,AUC值达到0.94。系统可以直接调用该分类器实现微博文本的情感分析。
[Abstract]:With the continuous improvement of mobile communication network environment and the further popularization of smart phones, China's Internet has entered the Web2.0 era in an all-round way. As a typical representative of Web2.0, Weibo has a large number of active users, a wide range of content coverage, great social influence. Weibo has become an important channel for people to obtain information and share views, and there is a huge academic research value behind the massive data. Therefore, this paper takes Weibo as the research object, focuses on Weibo data collection, mining, emotional analysis and visualization, and designs and implements a data mining visualization system based on Weibo. The main work of this paper is as follows: (1) in the aspect of data acquisition, the Weibo crawler system is designed and implemented. The system adopts simulated login to solve the identity authentication problem, refers to the idea of breadth first search, uses the popular Weibo monitoring module to realize the automatic discovery of high quality users, and combines the network crawler and BeautifulSoup, regular expression. Multi-thread concurrency and database technology realize the collection of various user information and Weibo information. The crawler system solves the problem that the information collection is not comprehensive and the Weibo server is too frequent, and realizes the comprehensive and efficient acquisition of Weibo data. (2) in the aspect of data mining, The user analysis module and Weibo analysis module of Weibo data mining are designed and implemented, which provides the basic functions of Weibo analysis, and focuses on the emotional analysis of Weibo text based on machine learning algorithm. The training experiment of classifiers is designed and implemented. In this paper, three feature extraction models, "word", "double word" and "word double word combination", are used to select the features by using chi-square statistical algorithm, and naive Bays is used. Six classification algorithms, such as logical regression and support vector machine, are compared. Through repeated experiments and comparison, the optimal classification model is obtained. The model has a good classification effect on Weibo text or shorter comment text. (3) in the aspect of data visualization, this paper adopts histogram, broken line chart, map, label cloud, cake chart, Dashboard and other visual charts show the results of data analysis, and presented through the browser. The system adopts B / S structure, the front end adopts browser to display the analysis results, and the background is composed of Weibo crawler, MySQL relational database and data mining module to realize the function of data collection, processing and analysis. Finally, the data mining and visual analysis of Weibo are realized. The main contributions and innovations of this paper are as follows: (1) A Weibo analysis system including Weibo data acquisition, data mining and data visualization is designed and implemented. The system realizes the functions of user analysis and Weibo analysis, and provides a basic platform for follow-up research. (2) the system realizes the emotional analysis function of Weibo text. In this paper, the machine learning algorithm is used to train the emotional analysis model. The correct rate of the model is 85%, and the AUC value is 0.94. The system can directly call the classifier to realize the emotional analysis of Weibo text.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 黄源,张福炎;数据挖掘及其技术实现[J];计算机应用与软件;2001年12期

2 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

3 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

4 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

5 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

6 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

7 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

8 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

9 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

10 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

相关会议论文 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年

8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年

9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年

10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年

相关硕士学位论文 前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年



本文编号:2483992

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2483992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户33ca1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com