微博中的热点话题分析
发布时间:2021-03-30 12:07
互联网与通信技术的快速发展为我们带来了许多新型的信息获取方式,微博便是其中之一。微博因其操作简捷、内容短小随意、实时性强而吸引了越来越多的用户。海量信息为人们带来巨大信息量的同时,也带来了信息爆炸的负面影响。如何迅速有效掌握信息,了解舆论导向,成为了近年来的热点研究方向之一。由于微博自身的特殊性,如内容简短包含信息量少,语言随意,干扰内容多等,传统的话题分析方法并不能很好的应用于微博。因此,本文的工作主要集中在针对微博热点话题抽取的研究,具体又分为两个方面:如何有效提取热点话题关键词;二.话题关键词的聚类方法研究。文中引入了WAF模型对文本进行建模,提出了基于该模型的话题关键词挑选方法及聚类方法。后续的对比实验证明了方法的有效性。此外,本文的工作还包括两个自然语言处理领域的评测COAE和TAC,介绍了评测任务、采用的方法及评测结果。
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 课题研究背景
1.2 研究内容及安排
第二章 自然语言处理基础及短文本处理技术研究
2.1 自然语言处理的基本概念
2.2 自然语言处理的几个典型研究内容
2.2.1 自动翻译
2.2.2 自动问答
2.2.3 自动摘要
2.2.4 词义消歧
2.3 自然语言处理中文本的基本处理
2.3.1 分词
2.3.2 文本模型
2.3.3 特征挑选
2.3.4 文本相似度计算
2.4 文本聚类基础方法
2.4.1 扁平聚类
2.4.2 层次聚类
2.4.3 扁平聚类与层次聚类的比较
2.5 短文本处理技术研究
2.5.1 利用其他信息来源来扩充短文本
2.5.2 利用针对短文本的相似度计算方法
2.5.3 利用针对短文本的分类方法
2.5.4 利用针对短文本的聚类方法
2.6 本章小结
第三章 基于WAF模型的话题关键词挑选
3.1 WAF模型简介
3.1.1 词语间的激活力定义
3.1.2 词语间的亲和度定义
3.2 运用WAF模型进行话题关键词挑选
3.2.1 利用话题关键词与非话题关键词在WAF中的差异挑选
3.2.2 利用WAF图的特性挑选话题关键词
3.3 几种挑选话题关键词方法的实验结果对比
3.3.1 微博语料的预处理
3.3.2 实验结果对比
3.4 本章小结
第四章 话题关键词的聚类方法研究
4.1 基于话题关键词共现的热点话题聚类
4.2 基于WAF有向图的热点话题聚类
4.2.1 常见的基于图的聚类
4.2.2 利用有向图路径的热点话题聚类
4.3 几种热点话题聚类方法的实验结果对比
4.4 本章小结
第五章 COAE情感倾向性评测及TAC SLOT FILLING评测
5.1 COAE中文情感倾向性评测
5.1.1 任务设置
5.1.2 任务四的评测方式和评测指标
5.1.3 任务四采用的方法
5.2 TAC评测SLOT FILLING任务
5.2.1 任务介绍
5.2.2 方法介绍
5.2.3 Slot Filling在面向校园对象搜索引擎(COSE)中的应用
5.3 本章小结
第六章 总结与展望
6.1 论文工作总结
6.2 下一步工作展望
参考文献
致谢
攻读学位期间发表的学术论文
【参考文献】:
期刊论文
[1]聚类K-means算法的应用研究[J]. 石云平. 国外电子测量技术. 2009(08)
[2]概率潜在语义模型综述[J]. 陈晓明. 现代商贸工业. 2007(07)
[3]统计词义消歧的研究进展[J]. 卢志茂,刘挺,李生. 电子学报. 2006(02)
[4]特征选择方法综述[J]. 王娟,慈林林,姚康泽. 计算机工程与科学. 2005(12)
[5]中文信息检索引擎中的分词与检索技术[J]. 吴栋,滕育平. 计算机应用. 2004(07)
[6]自动摘要方法综述[J]. 谭种,陈跃新. 情报学报. 2008 (01)
本文编号:3109479
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 课题研究背景
1.2 研究内容及安排
第二章 自然语言处理基础及短文本处理技术研究
2.1 自然语言处理的基本概念
2.2 自然语言处理的几个典型研究内容
2.2.1 自动翻译
2.2.2 自动问答
2.2.3 自动摘要
2.2.4 词义消歧
2.3 自然语言处理中文本的基本处理
2.3.1 分词
2.3.2 文本模型
2.3.3 特征挑选
2.3.4 文本相似度计算
2.4 文本聚类基础方法
2.4.1 扁平聚类
2.4.2 层次聚类
2.4.3 扁平聚类与层次聚类的比较
2.5 短文本处理技术研究
2.5.1 利用其他信息来源来扩充短文本
2.5.2 利用针对短文本的相似度计算方法
2.5.3 利用针对短文本的分类方法
2.5.4 利用针对短文本的聚类方法
2.6 本章小结
第三章 基于WAF模型的话题关键词挑选
3.1 WAF模型简介
3.1.1 词语间的激活力定义
3.1.2 词语间的亲和度定义
3.2 运用WAF模型进行话题关键词挑选
3.2.1 利用话题关键词与非话题关键词在WAF中的差异挑选
3.2.2 利用WAF图的特性挑选话题关键词
3.3 几种挑选话题关键词方法的实验结果对比
3.3.1 微博语料的预处理
3.3.2 实验结果对比
3.4 本章小结
第四章 话题关键词的聚类方法研究
4.1 基于话题关键词共现的热点话题聚类
4.2 基于WAF有向图的热点话题聚类
4.2.1 常见的基于图的聚类
4.2.2 利用有向图路径的热点话题聚类
4.3 几种热点话题聚类方法的实验结果对比
4.4 本章小结
第五章 COAE情感倾向性评测及TAC SLOT FILLING评测
5.1 COAE中文情感倾向性评测
5.1.1 任务设置
5.1.2 任务四的评测方式和评测指标
5.1.3 任务四采用的方法
5.2 TAC评测SLOT FILLING任务
5.2.1 任务介绍
5.2.2 方法介绍
5.2.3 Slot Filling在面向校园对象搜索引擎(COSE)中的应用
5.3 本章小结
第六章 总结与展望
6.1 论文工作总结
6.2 下一步工作展望
参考文献
致谢
攻读学位期间发表的学术论文
【参考文献】:
期刊论文
[1]聚类K-means算法的应用研究[J]. 石云平. 国外电子测量技术. 2009(08)
[2]概率潜在语义模型综述[J]. 陈晓明. 现代商贸工业. 2007(07)
[3]统计词义消歧的研究进展[J]. 卢志茂,刘挺,李生. 电子学报. 2006(02)
[4]特征选择方法综述[J]. 王娟,慈林林,姚康泽. 计算机工程与科学. 2005(12)
[5]中文信息检索引擎中的分词与检索技术[J]. 吴栋,滕育平. 计算机应用. 2004(07)
[6]自动摘要方法综述[J]. 谭种,陈跃新. 情报学报. 2008 (01)
本文编号:3109479
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3109479.html