基于微博的网络热点发现研究
发布时间:2021-05-17 01:46
随着Web技术的快速发展,互联网上以微内容为源的内容形式逐渐确立了其显著优势。微博(Micro-Blog)作为互联网的一种媒体形式,以其简短、便捷的特点呈现爆发式增长势态,由于其写作门槛低,加上发布便捷能够即时分享,使信息传播时间趋向于零,已成为热点事件产生、传播的重要源地,微博的影响力也呈现几何式倍增态势,并以惊人的速度渗透到社会的各个方面。微博已成为舆情的第二大源头,并在舆情及突发事件的转移和扩散中扮演重要的角色。微博通过简洁的文字(一般不超过140字)更新信息,并实现多种工具发布、分享,使信息在微博中呈现出碎片化、即时化、移动化等特性,而不再是完整的信息内容,再加上互联网微内容具有的来源广、更新快、参与性及互动性强的特点,一些过激的言谈很容易传染,甚至被盲目的操纵或利用,如果不能积极控制及回应,小的负面情绪也会像滚雪球一样慢慢变大,将政府、企业或其他机构推向风口浪尖,因此,对微博中热点事件的发现、监控及管理等方面的研究工作也就越发显地重要。本文主要在以下几个方面做了工作:1.本文主要从微内容产生的背景及意义、国内外相关的研究现状着手,阐述了本课题研究的紧迫性及必然性,分析研究了与...
【文章来源】:江苏科技大学江苏省
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外相关研究
1.2.1 话题发现与跟踪的相关研究
1.2.2 网络舆情研究
1.2.3 短文本相关研究
1.3 本文研究内容
1.4 论文组织安排
第2章 相关技术
2.1 Web 文本挖掘技术
2.1.1 文本挖掘所用到的关键技术
2.2 文本聚类
2.2.1 文本模型分析
2.2.2 主要聚类算法分析
2.3 数据采集及提取技术
2.3.1 网络爬虫
2.3.2 页面抽取技术
2.4 分词技术
第3章 短文本聚类模型
3.1 常规文本聚类模型
3.2 短文本特性分析
3.3 短文本聚类模型的提出
3.4 具体功能分析
第4章 基于短文本的聚类过程
4.1 会话抽取
4.1.1 短文本信息流的基本特征
4.1.2 相关算法介绍
4.1.3 相关性度量及 RMR
4.1.4 算法描述
4.2 相似性计算
4.2.1 问题描述
4.2.2 相关技术分析
4.2.3 改进的相似性度量算法 TF-IDF
4.3 混合聚类算法
4.3.1 基于频繁词集的聚类方法
4.3.2 k-means 算法
4.3.3 混合聚类算法
第5章 实验分析
5.1 实验设置
5.2 实验评测指标
5.2.1 准确率与召回率
5.3 测试数据的采集
5.4 实验结果分析
5.4.1. 会话抽取分析
5.4.2. 聚类分析
总结与展望
参考文献
攻读硕士学位期间发表的论文
致谢
详细摘要
【参考文献】:
期刊论文
[1]数据划分优化的并行k-means算法[J]. 尹建君,王乐. 计算机工程与应用. 2010(15)
[2]基于字符串相似性聚类的网络短文本舆情热点发现技术[J]. 杨震,段立娟,赖英旭. 北京工业大学学报. 2010(05)
[3]Web文本挖掘中数据预处理技术研究[J]. 胡静,蒋外文,朱华. 现代计算机(专业版). 2009(03)
[4]中文分词技术[J]. 李淑英. 科技信息(科学教研). 2007(36)
[5]基于内容分析的话题检测研究[J]. 赵华,赵铁军,张姝,王浩畅. 哈尔滨工业大学学报. 2006(10)
[6]话题识别与跟踪中的层次化话题识别技术研究[J]. 于满泉,骆卫华,许洪波,白硕. 计算机研究与发展. 2006(03)
[7]基于向量内积不等式的分布式k均值聚类算法[J]. 倪巍伟,陆介平,孙志挥. 计算机研究与发展. 2005(09)
[8]一种基于动态进化模型的事件探测和追踪算法[J]. 贾自艳,何清,张海俊,李嘉佑,史忠植. 计算机研究与发展. 2004(07)
[9]信息检索的概率模型[J]. 邢永康,马少平. 计算机科学. 2003(08)
[10]话题识别与跟踪研究[J]. 李保利,俞士汶. 计算机工程与应用. 2003(17)
博士论文
[1]短语消息聚类相关技术研究[D]. 王乐.国防科学技术大学 2008
硕士论文
[1]BBS热点话题发现与监控系统[D]. 兰凯梅.北京交通大学 2011
[2]基于关联规则挖掘的查询扩展[D]. 赵春辉.河南大学 2011
[3]面向中文Web评论的情感分析技术研究[D]. 周城.国防科学技术大学 2011
[4]基于微博的网络热点发现模型及平台研究[D]. 张静.华中科技大学 2010
[5]网络舆情对我国政府决策的影响研究[D]. 金龙.安徽大学 2010
[6]Web信息抽取与网页摘要的研究与应用[D]. 刘秋水.大连理工大学 2008
[7]基于Web的信息抽取技术研究[D]. 王旭东.西南交通大学 2008
[8]网络舆情监控的热点发现算法研究[D]. 郑军.哈尔滨工程大学 2007
[9]Web敏感页面发现技术研究[D]. 胡红霞.中国人民解放军信息工程大学 2002
本文编号:3190828
【文章来源】:江苏科技大学江苏省
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外相关研究
1.2.1 话题发现与跟踪的相关研究
1.2.2 网络舆情研究
1.2.3 短文本相关研究
1.3 本文研究内容
1.4 论文组织安排
第2章 相关技术
2.1 Web 文本挖掘技术
2.1.1 文本挖掘所用到的关键技术
2.2 文本聚类
2.2.1 文本模型分析
2.2.2 主要聚类算法分析
2.3 数据采集及提取技术
2.3.1 网络爬虫
2.3.2 页面抽取技术
2.4 分词技术
第3章 短文本聚类模型
3.1 常规文本聚类模型
3.2 短文本特性分析
3.3 短文本聚类模型的提出
3.4 具体功能分析
第4章 基于短文本的聚类过程
4.1 会话抽取
4.1.1 短文本信息流的基本特征
4.1.2 相关算法介绍
4.1.3 相关性度量及 RMR
4.1.4 算法描述
4.2 相似性计算
4.2.1 问题描述
4.2.2 相关技术分析
4.2.3 改进的相似性度量算法 TF-IDF
4.3 混合聚类算法
4.3.1 基于频繁词集的聚类方法
4.3.2 k-means 算法
4.3.3 混合聚类算法
第5章 实验分析
5.1 实验设置
5.2 实验评测指标
5.2.1 准确率与召回率
5.3 测试数据的采集
5.4 实验结果分析
5.4.1. 会话抽取分析
5.4.2. 聚类分析
总结与展望
参考文献
攻读硕士学位期间发表的论文
致谢
详细摘要
【参考文献】:
期刊论文
[1]数据划分优化的并行k-means算法[J]. 尹建君,王乐. 计算机工程与应用. 2010(15)
[2]基于字符串相似性聚类的网络短文本舆情热点发现技术[J]. 杨震,段立娟,赖英旭. 北京工业大学学报. 2010(05)
[3]Web文本挖掘中数据预处理技术研究[J]. 胡静,蒋外文,朱华. 现代计算机(专业版). 2009(03)
[4]中文分词技术[J]. 李淑英. 科技信息(科学教研). 2007(36)
[5]基于内容分析的话题检测研究[J]. 赵华,赵铁军,张姝,王浩畅. 哈尔滨工业大学学报. 2006(10)
[6]话题识别与跟踪中的层次化话题识别技术研究[J]. 于满泉,骆卫华,许洪波,白硕. 计算机研究与发展. 2006(03)
[7]基于向量内积不等式的分布式k均值聚类算法[J]. 倪巍伟,陆介平,孙志挥. 计算机研究与发展. 2005(09)
[8]一种基于动态进化模型的事件探测和追踪算法[J]. 贾自艳,何清,张海俊,李嘉佑,史忠植. 计算机研究与发展. 2004(07)
[9]信息检索的概率模型[J]. 邢永康,马少平. 计算机科学. 2003(08)
[10]话题识别与跟踪研究[J]. 李保利,俞士汶. 计算机工程与应用. 2003(17)
博士论文
[1]短语消息聚类相关技术研究[D]. 王乐.国防科学技术大学 2008
硕士论文
[1]BBS热点话题发现与监控系统[D]. 兰凯梅.北京交通大学 2011
[2]基于关联规则挖掘的查询扩展[D]. 赵春辉.河南大学 2011
[3]面向中文Web评论的情感分析技术研究[D]. 周城.国防科学技术大学 2011
[4]基于微博的网络热点发现模型及平台研究[D]. 张静.华中科技大学 2010
[5]网络舆情对我国政府决策的影响研究[D]. 金龙.安徽大学 2010
[6]Web信息抽取与网页摘要的研究与应用[D]. 刘秋水.大连理工大学 2008
[7]基于Web的信息抽取技术研究[D]. 王旭东.西南交通大学 2008
[8]网络舆情监控的热点发现算法研究[D]. 郑军.哈尔滨工程大学 2007
[9]Web敏感页面发现技术研究[D]. 胡红霞.中国人民解放军信息工程大学 2002
本文编号:3190828
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3190828.html