基于Hadoop的网络舆情监控平台设计与实现
本文关键词:基于Hadoop的网络舆情监控平台设计与实现 出处:《计算机技术与发展》2016年02期 论文类型:期刊论文
更多相关文章: Hadoop MapReduce 舆情监控 文本聚类 热点发现 话题跟踪
【摘要】:文中设计并实现了一种基于Hadoop的网络舆情监控系统。该系统以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对舆情信息进行统一存储管理。首先利用基于MapReduce的分布式网络爬虫进行数据抓取,以解决单机爬虫效率低、可扩展性差等问题;其次采用Canopy结合K-means的二次聚类算法,克服单一K-means聚类算法的不足,以提高文本聚类的效率和准确度;最后实现基于查询的话题追踪策略,对热点话题进行有效跟踪分析。仿真实验表明:Canopy-Kmeans聚类方法比传统K-means方法漏报率、误报率分别降低1.24%、0.09%,最小标准代价降低1.681%。系统通过提供可视化舆情分析报告,为企业或单位及时掌握舆情热点、制定舆情策略提供科学、系统的技术支持。
[Abstract]:This paper designs and implements a network public opinion monitoring system based on Hadoop, which takes HDFS as the underlying storage system. The distributed database based on HBase is constructed to store and manage the public opinion information. Firstly, the distributed web crawler based on MapReduce is used for data capture. In order to solve the problems of low efficiency and poor expansibility of single crawler. Secondly, Canopy combined with K-means clustering algorithm is used to overcome the shortcomings of single K-means clustering algorithm, in order to improve the efficiency and accuracy of text clustering. Finally, the topic tracking strategy based on query is implemented, and the effective tracking analysis of hot topics is carried out. The simulation results show that the miss rate of the K-means clustering method is higher than that of the traditional K-means method. The false alarm rate is reduced by 1.24and 0.09, the minimum standard cost is reduced by 1.681. by providing visual public opinion analysis report, the system can grasp the hot spot of public opinion in time for enterprises or units. Formulate public opinion strategy to provide scientific and systematic technical support.
【作者单位】: 山东省科学院情报研究所;
【基金】:山东省科学院青年基金项目(2013QN036) 山东省科技发展计划(2013GGX10127,2014GGX101013)
【分类号】:TP391.1
【正文快照】: 1概述控信息源,并结合传统的数据挖掘算法对获取的数据随着信息技术以及互联网的快速发展,其产生的进行文本统计与分析。基于流量镜像方法虽然可以比海量、异构、动态的新闻数据使得人们很难快速、高效较全面地收集各种网络信息,但也存在成本高、可扩展地找到用户感兴趣的新闻
【相似文献】
相关期刊论文 前10条
1 王克群;;网络舆情的研判与应对[J];长白学刊;2010年01期
2 曹效阳;曹树金;陈桂鸿;;网络舆情的结构与网络特征分析[J];情报科学;2010年02期
3 戴媛;郝晓伟;郭岩;余智华;;基于多级模糊综合评判的网络舆情安全评估模型研究[J];信息网络安全;2010年05期
4 曹劲松;;网络舆情的发展规律[J];新闻与写作;2010年05期
5 李鹏;;网络舆情监管难题探析[J];信息网络安全;2010年06期
6 姜胜洪;;网络舆情形成与发展规律研究[J];兰州学刊;2010年05期
7 顾明;;论涉检网络舆情危机的应对[J];法制与社会;2010年18期
8 曹劲松;;政府网络舆情的研判机制研究[J];领导科学;2010年15期
9 李昌祖;;网络舆情研判的类型分析及其制度建设的途径思考[J];上海党史与党建;2010年06期
10 郝英杰;马海红;彭军林;;高校网络舆情形成规律分析[J];北京教育(德育);2010年06期
相关会议论文 前10条
1 任铭;陈俊鑫;;我国网络舆情及管理策略研究[A];2011年全国通信安全学术会议论文集[C];2011年
2 潘崇霞;;网络舆情演化的阶段分析[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
3 潘庆芳;周萍;;涉路网络舆情的现状及应对建议[A];中国公路学会高速公路运营管理分会2011年度年会暨第十八次全国高速公路运营管理工作研讨会论文集[C];2011年
4 李大鹏;;加强新形势下检察机关网络舆情体系建设[A];第27次全国计算机安全学术交流会论文集[C];2012年
5 曹俊喜;刘云;徐希源;;电力行业网络舆情监测分析技术研究与系统设计[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
6 冉治平;;提高网络舆情应对能力的几点思考[A];浙江烟草(2012年第3期总第122期)[C];2012年
7 疏学明;郑魁;张辉;袁宏永;;突发事件中网络舆情信息管理方式探讨[A];中国突发事件防范与快速处置优秀成果选编[C];2009年
8 耿骞;刘颖;;网络舆情的形成、传播及监测方法[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
9 韩伟;张洪涛;;网络舆情与青少年媒介认知能力构建[A];网络时代的青少年和青少年工作研究报告——第六届中国青少年发展论坛暨中国青少年研究会优秀论文集(2010)[C];2010年
10 曾华艺;;网络舆情危机事件指标体系探讨[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
相关重要报纸文章 前10条
1 记者 刘自贤 通讯员 吴涛;网络舆情助推汉江中院司法为民[N];湖北日报;2010年
2 通讯员 王宏杰;注重网络舆情监督 网上网下良性互动[N];检察日报;2010年
3 唐莉 记者 郭树仁;梅河口检察院加强涉检网络舆情研判与应对工作[N];北方法制报;2010年
4 记者 卢志坚 通讯员 胡连芳;江苏大丰:征聘百名“网络舆情监督员”[N];检察日报;2009年
5 见习记者 施燕燕;应对网络舆情与三项重点工作息息相关[N];检察日报;2010年
6 记者 吴汉松;提升引导网络舆情能力[N];石狮日报;2010年
7 四川省内江市工商局 吴明显 杨晓彬;建议加强网络舆情收集分析及引导工作(下)[N];中国工商报;2010年
8 吴明显;内江积极加强网络舆情监测[N];中国工商报;2010年
9 本报记者 白真智;探秘网络舆情市场[N];人民日报;2010年
10 方山县政协主席 林祥;加强网络舆情实时监测 做好网络舆情应对工作[N];山西政协报;2011年
相关硕士学位论文 前10条
1 黄广发;大学生群体网络舆情管理研究[D];华南理工大学;2010年
2 巨慧慧;针对网络舆情的情感倾向性研究[D];哈尔滨工业大学;2010年
3 肖轲;网络舆情事件的应对模型探讨[D];北京林业大学;2011年
4 朱佳佳;浅析网络公共领域中的网络舆情[D];北京邮电大学;2011年
5 刘婷;网络舆情对大学生的影响研究[D];江西理工大学;2011年
6 任洪涛;政府网络舆情把关能力研究[D];新疆大学;2011年
7 江瑾;政府在网络舆情中的有效回应研究[D];电子科技大学;2011年
8 戴笑慧;网络舆情与政府电子治理研究[D];南昌大学;2010年
9 王文峰;网络舆情与党的执政能力建设关系研究[D];武汉理工大学;2010年
10 陈强;网络舆情的引导和监管的对策研究[D];福建师范大学;2010年
,本文编号:1428459
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1428459.html