当前位置:主页 > 科技论文 > 信息工程论文 >

基于微博的舆情分析系统设计与实现

发布时间:2016-10-03 19:05

  本文关键词:基于网站内容框架的聚焦爬虫算法的优化和实现,,由笔耕文化传播整理发布。


《河北科技大学》 2015年

基于微博的舆情分析系统设计与实现

范新梅  

【摘要】:随着互联网的飞速发展,越来越多的人愿意通过网络来表达自己的思想、情绪和态度。微博作为网络新媒体的代表之一,逐渐成为网民信息分享、传播以及获取的平台。互联网上每天都会产生数以亿计的博文,博文实时性强、内容丰富,其蕴含知识的发现、分析和处理越发重要和困难。如何及时获取并有效分析和挖掘其中的信息,成为一个重要的研究课题。本论文结合新浪微博的文本特点,设计了新浪微博舆情分析系统。首先从互联网上抓取微博数据并进行预处理,然后进行了基于主题的微博文本分类算法的研究,最后进行了微博文本聚类算法研究。主要研究工作如下:1)基于主题的微博数据采集与预处理。通过面向新浪微博的主题爬虫程序,从互联网上抓取特定主题的微博数据,进行相应处理后存储到数据库中。然后使用数据处理工具对微博数据进行预处理,其中包括特定主题微博的数据采样、中文文本处理、中文分词、词频矩阵降维处理。2)基于主题的微博文本分类算法分析。通过中文文本自动分类算法对微博数据进行分类,实验采用目前流行的几种分类算法(KNN,决策树,随机森林)对微博数据进行分类效果评估与分析。3)基于K-Means的微博文本聚类算法分析。实验采用K-Means算法对微博数据进行了聚类并对聚类结果进行评估与分析。实验证明微博文本分析算法的研究在科学研究以及社会应用领域都具有一定的价值。论文最后也对存在的问题及下一步的研发工作进行了说明。

【关键词】:
【学位授予单位】:河北科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 罗洋;;一种基于双哈希二叉树的中文分词词典机制[J];计算机应用与软件;2013年05期

2 郑晓刚;韩立新;白书奎;曾晓勤;;一种组合型中文分词方法[J];计算机应用与软件;2012年07期

3 金春霞;周海岩;;位置加权文本聚类算法[J];计算机工程与科学;2011年06期

4 魏博诚;王爱平;沙先军;王永;;一种消除中文分词中交集型歧义的方法[J];计算机技术与发展;2011年05期

5 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期

6 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期

7 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期

8 张敏;王春红;;基于统计方法的Web新词分词方法研究[J];计算机工程与科学;2010年05期

9 朱会峰;左万利;赫枫龄;彭涛;纪文彦;;一种基于本体的文本聚类方法[J];吉林大学学报(理学版);2010年02期

10 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期

中国硕士学位论文全文数据库 前10条

1 安欢;中文文本自动分类技术的研究与改进[D];北京交通大学;2014年

2 沈琳;基于微博文本的话题聚类研究与实现[D];河北科技大学;2014年

3 周二亮;微博短文本情感分析关键技术研究与实现[D];河北科技大学;2014年

4 胡璇;基于文本聚类的微博信息分析的研究[D];武汉理工大学;2014年

5 李妍;微博数据预处理及话题检测方法研究[D];河北师范大学;2014年

6 纪伟;微博数据采集系统的设计与实现[D];河北科技大学;2013年

7 单月光;基于微博的网络舆情关键技术的研究与实现[D];电子科技大学;2013年

8 王艳阁;主题微博爬虫的设计与实现[D];中原工学院;2013年

9 王政霄;基于微博的热点事件挖掘与情感分析[D];上海交通大学;2013年

10 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年

【共引文献】

中国期刊全文数据库 前10条

1 胡芳;冷伏海;;评论挖掘在情报分析中的应用框架研究[J];情报科学;2016年05期

2 王新宇;;基于情感词典与机器学习的旅游网络评价情感分析研究[J];计算机与数字工程;2016年04期

3 张建华;肖中正;;结合词性规则和依存句法分析的评价对象抽取方法[J];计算机与现代化;2016年04期

4 杨进才;陈忠忠;谢芳;胡金柱;;基于汉语拼音首字母索引的混合分词算法[J];计算机系统应用;2016年04期

5 伊马木·达吾提;何炎祥;刘续乐;;基于主谓情感差异性句法分析框架的跨语言情感分析[J];小型微型计算机系统;2016年03期

6 薛益定;;中文情感分析研究综述[J];电脑编程技巧与维护;2016年05期

7 杨跃东;鲁欣正;;国家教育考试网上有害信息自动监测模型研究[J];中国考试;2016年03期

8 杨宇婷;王名扬;田宪允;李鹏宇;;基于文档分布式表达的新浪微博情感分类研究[J];情报杂志;2016年02期

9 郑诚;沈磊;代宁;;基于类序列规则的中文微博情感分类[J];计算机工程;2016年02期

10 张宁;朱礼军;;中文问答系统问句分析研究综述[J];情报工程;2016年01期

中国硕士学位论文全文数据库 前10条

1 李思雨;微博热点话题情感计算技术研究与实现[D];河北科技大学;2015年

2 范新梅;基于微博的舆情分析系统设计与实现[D];河北科技大学;2015年

3 靳旭东;基于社会网络分析下文本挖掘的微博营销[D];兰州财经大学;2015年

4 王伟;基于Hadoop的微博热点信息的聚类提取应用研究[D];内蒙古农业大学;2015年

5 谢黎黎;基于主题模型的微博话题检测与跟踪研究[D];中南林业科技大学;2015年

6 赵秀秀;微博事件的实时监控及早期扩散预测模型研究[D];山东财经大学;2015年

7 占桓;社交网络营销效果追踪研究[D];福建师范大学;2015年

8 李璀;网络舆情检索分析系统的设计与实现[D];河南师范大学;2015年

9 苏增才;基于word2vec和SVMperf的网络中文文本评论信息情感分类研究[D];河北科技大学;2015年

10 付志鸿;基于Storm云平台的分布式网络爬虫技术研究与实现[D];电子科技大学;2015年

【二级参考文献】

中国期刊全文数据库 前10条

1 姚继伟;赵东范;;基于短语匹配的中文分词消歧方法[J];吉林大学学报(理学版);2010年03期

2 许厚金;刘永炎;邓成玉;刘永山;;基于相似中心的k-cmeans文本聚类算法[J];计算机工程与设计;2010年08期

3 唐果;陈宏刚;;基于BBS热点主题发现的文本聚类方法[J];计算机工程;2010年07期

4 王小芳;王瑞芳;张树功;;一种无监督文本特征计算模型[J];吉林大学学报(理学版);2010年01期

5 张长胜;孙吉贵;崔妍;杨凤芹;;一种基于PSO的分割聚类算法[J];吉林大学学报(工学版);2008年06期

6 周立柱;贺宇凯;王建勇;;情感分析研究综述[J];计算机应用;2008年11期

7 刘海峰;王元元;张学仁;姚泽清;;文本分类中基于位置和类别信息的一种特征降维方法[J];计算机应用研究;2008年08期

8 姚天昉;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期

9 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期

10 姚兴山;;基于Hash算法的中文分词研究[J];现代图书情报技术;2008年03期

中国硕士学位论文全文数据库 前10条

1 刘邵博;社会网络新媒体的信息获取与情感分类关键技术研究及实现[D];河北科技大学;2013年

2 邱洋;微博数据提取及话题检测方法研究[D];大连理工大学;2013年

3 刘洁;基于GeM模型的微博语篇结构研究[D];杭州师范大学;2013年

4 王鸿飞;基于条件随机场的中文微博情感分析研究[D];广东工业大学;2013年

5 尹杰;基于用户分析的微博信息过滤研究[D];大连理工大学;2013年

6 王广新;基于微博的用户兴趣分析与个性化信息推荐[D];上海交通大学;2013年

7 王政霄;基于微博的热点事件挖掘与情感分析[D];上海交通大学;2013年

8 尹子斌;基于微博用户行为的数学建模和数据分析[D];上海交通大学;2013年

9 罗熹;基于新浪微博的移动社交网络复杂特性研究[D];武汉理工大学;2012年

10 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年

【相似文献】

中国期刊全文数据库 前10条

1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期

2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期

3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期

4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期

5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期

6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期

7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期

8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期

9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期

10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期

中国重要会议论文全文数据库 前1条

1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

中国硕士学位论文全文数据库 前10条

1 范新梅;基于微博的舆情分析系统设计与实现[D];河北科技大学;2015年

2 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年

3 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年

4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年

5 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年

6 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年

7 高利波;文本聚类算法的研究及应用[D];电子科技大学;2013年

8 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年

9 翟献民;维吾尔语文本聚类算法研究[D];新疆大学;2013年

10 冯晓云;基于云计算的文本聚类算法研究[D];南京理工大学;2014年


  本文关键词:基于网站内容框架的聚焦爬虫算法的优化和实现,由笔耕文化传播整理发布。



本文编号:130170

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/130170.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ceadb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com