面向微博文本的热词分析技术研究
发布时间:2021-03-15 05:10
随着互联网平台信息传播方式的多样化,微博作为一种最受欢迎的社交网络平台,实现了信息从发布、传播到接收的实时性,用户可以最快地获取实时热点话题。微博作为事件、情绪的文字表达,利用自然语言处理技术为自动检测微博热点提供了可能。但因其实时性的特点,其文本处理过程有别于常规的文本,故面向微博数据进行热点话题的挖掘有着重要的意义。本文分析微博的数据特点,给出可量化热词定义,提出一种挖掘实时热点话题的热词分析算法。该算法首先对微博数据进行预处理,利用方差消除高频词对后续热词分析的干扰,然后将热力学中的牛顿冷却定律变形后进行适用于微博的热词发现,并提出基于动态阈值的剔除规则去除词频变化率大的低频词。基于热词发现的结果本文又研究提取热词之间的关联性,利用左右信息熵和互信息进行热词的初步关联,并引入词共现模型,实现热词的二次关联,将表达同一热点话题的热词集合合并,输出最终的热点话题。本文提出的一种适用于新浪微博数据的热词分析算法,结合实际数据进行实验,实验结果表明,算法识别热点话题的准确率为71.23%,误差率控制在8.17%的范围内,使得基于热词分析进行实时热点话题挖掘更为合理。
【文章来源】:昆明理工大学云南省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
技术路线图
新浪微博用户的主界面图
热词词频随时间的变化图
【参考文献】:
期刊论文
[1]基于主题标签和CRF的中文微博命名实体识别[J]. 朱颢东,杨立志,丁温雪,冯嘉美. 华中师范大学学报(自然科学版). 2018(03)
[2]方差分析法的线性回归建模重构[J]. 陈崇双,唐家银,何平. 统计与决策. 2018(07)
[3]双因素方差分析方法的比较[J]. 戴金辉,韩存. 统计与决策. 2018(04)
[4]统计模型在中文文本挖掘中的应用[J]. 王健,张俊妮. 数理统计与管理. 2017(04)
[5]基于词频类别相关的特征权重算法[J]. 张羚,陆余良,杨国正. 计算机应用研究. 2017(02)
[6]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[7]深度学习研究进展[J]. 郭丽丽,丁世飞. 计算机科学. 2015(05)
[8]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[9]微博语境特点的认知语言学分析研究——以新浪微博为例[J]. 程梦秋. 海外英语. 2014(06)
[10]一种面向微博主题挖掘的改进LDA模型[J]. 谢昊,江红. 华东师范大学学报(自然科学版). 2013(06)
博士论文
[1]基于大规模语料的中文新词识别技术研究[D]. 张海军.中国科学技术大学 2011
硕士论文
[1]基于组合频率的中文新词发现算法[D]. 欧阳冠宇.北京邮电大学 2018
[2]基于词共现模型的微博热点话题发现方法研究[D]. 曹龙.中国地质大学(北京) 2015
[3]基于微博热词挖掘的新闻话题提取研究[D]. 唐蓉青.湖南大学 2014
[4]新词识别和热词排名方法研究[D]. 耿升华.重庆大学 2013
[5]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
本文编号:3083616
【文章来源】:昆明理工大学云南省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
技术路线图
新浪微博用户的主界面图
热词词频随时间的变化图
【参考文献】:
期刊论文
[1]基于主题标签和CRF的中文微博命名实体识别[J]. 朱颢东,杨立志,丁温雪,冯嘉美. 华中师范大学学报(自然科学版). 2018(03)
[2]方差分析法的线性回归建模重构[J]. 陈崇双,唐家银,何平. 统计与决策. 2018(07)
[3]双因素方差分析方法的比较[J]. 戴金辉,韩存. 统计与决策. 2018(04)
[4]统计模型在中文文本挖掘中的应用[J]. 王健,张俊妮. 数理统计与管理. 2017(04)
[5]基于词频类别相关的特征权重算法[J]. 张羚,陆余良,杨国正. 计算机应用研究. 2017(02)
[6]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[7]深度学习研究进展[J]. 郭丽丽,丁世飞. 计算机科学. 2015(05)
[8]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[9]微博语境特点的认知语言学分析研究——以新浪微博为例[J]. 程梦秋. 海外英语. 2014(06)
[10]一种面向微博主题挖掘的改进LDA模型[J]. 谢昊,江红. 华东师范大学学报(自然科学版). 2013(06)
博士论文
[1]基于大规模语料的中文新词识别技术研究[D]. 张海军.中国科学技术大学 2011
硕士论文
[1]基于组合频率的中文新词发现算法[D]. 欧阳冠宇.北京邮电大学 2018
[2]基于词共现模型的微博热点话题发现方法研究[D]. 曹龙.中国地质大学(北京) 2015
[3]基于微博热词挖掘的新闻话题提取研究[D]. 唐蓉青.湖南大学 2014
[4]新词识别和热词排名方法研究[D]. 耿升华.重庆大学 2013
[5]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
本文编号:3083616
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3083616.html
最近更新
教材专著