基于SVM的微博话题跟踪方法及其应用
发布时间:2017-03-30 14:10
本文关键词:基于SVM的微博话题跟踪方法及其应用,由笔耕文化传播整理发布。
【摘要】:话题跟踪作为信息处理领域中的一项重要问题,自提出以来就受到了广泛的关注,被应用于数字图书馆、舆情分析等领域。目前,大多数的话题跟踪系统研究都是针对新闻信息、博客信息等长文本,关于微博等社交网络短文本信息的研究还比较少。近些年,随着自然语言处理、机器学习等技术方法的发展,话题跟踪系统构建方法也不断丰富。本文针对微博信息,设计了一种基于SVM的微博话题自适应跟踪方法。本方法的最大优势在于能够对微博话题进行自动自适应的持续跟踪,同时自动对话题演变发展进行了分析归纳,只有最初的话题模型训练语料收集以及特征词表构建环节需要一些人工处理。 本文的主要工作和研究内容如下: 第一,设计了一种基于SVM的微博话题自适应跟踪方法,该方法主要包括以下几个步骤:微博数据采集、特征词表构建、分类模型训练、微博话题发展演变分析。其中特征词表构建与微博话题发展演变分析是本文的重点研究内容。 第二,研究特征词表的构建,采用了特征选择的方法,分为三个部分:中文分词、特征选择指标选取、特征全局权重计算。在中文分词环节,加入了新词发现模块,提高分词准确率。比较不同的特征选择指标,选择适合话题的评价指标对特征进行筛选。最后,根据评价指标计算特征词的全局权重。 第三,研究话题模型的发展演变。采用反馈机制对分类模型进行动态更新,保证跟踪系统持续有效地跟踪后续微博信息,同时利用LDA方法对新话题进行抽取并进行归纳,检测话题的迁移转变。 第四,将基于SVM的微博话题自适应跟踪方法应用到实际微博数据,,对热点微博话题进行自动持续的跟踪,最后尝试分析话题的发展演变轨迹。该方法能够自动持续准确地跟踪话题相关的微博信息。
【关键词】:话题跟踪 特征选择 SVM 话题演变
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要4-5
- Abstract5-7
- 目录7-9
- 第1章 绪论9-14
- 1.1 本文的研究背景和意义9-10
- 1.2 国内外研究现状10-12
- 1.2.1 国外研究现状10-11
- 1.2.2 国内研究现状11-12
- 1.3 主要研究内容和创新点12-13
- 1.4 论文结构及安排13-14
- 第2章 话题跟踪相关技术14-26
- 2.1 话题跟踪技术14-16
- 2.1.1 基本概念14
- 2.1.2 话题跟踪基本流程14-16
- 2.2 新词发现技术16-18
- 2.3 文本表示模型18-20
- 2.3.1 主题概率模型18-19
- 2.3.2 向量空间模型19-20
- 2.4 文本分类技术20-25
- 2.4.1 K 最邻近分类算法(K-Nearest Neighbor,KNN)21
- 2.4.2 决策树分类算法(Decision Tree,DT)21-22
- 2.4.3 朴素贝叶斯分类算法(Naive Bayesian,NB)22-23
- 2.4.4 支持向量机(Support Vector Machine,SVM)23-25
- 2.5 本章小结25-26
- 第3章 微博话题跟踪文本模型26-35
- 3.1 特征选择和特征抽取26-30
- 3.1.1 特征选择(Feature Selection)26-29
- 3.1.2 特征抽取(Feature Extraction)29-30
- 3.2 微博文本表示30-33
- 3.2.1 权重算法改进必要性30-31
- 3.2.2 特征权重计算31-33
- 3.3 实验及分析33-34
- 3.4 本章小结34-35
- 第4章 微博话题跟踪算法35-54
- 4.1 SVM 模型话题跟踪算法35-36
- 4.2 微博话题跟踪流程36-44
- 4.2.1 微博数据采集与过滤37-38
- 4.2.2 微博文本分词38-42
- 4.2.3 微博文本表示42-44
- 4.2.4 分类模型训练44
- 4.3 微博话题模型更新演变44-48
- 4.3.1 微博话题模型更新45
- 4.3.2 微博话题迁移发现45-47
- 4.3.3 新话题的抽取和归纳47
- 4.3.4 微博话题更新演变子系统47-48
- 4.4 实验及分析48-53
- 4.5 本章小结53-54
- 第5章 微博话题跟踪系统设计及实现54-64
- 5.1 微博数据采集54
- 5.2 特征词表构建54-59
- 5.2.1 基于新词发现的中文分词54-57
- 5.2.2 特征选择57-58
- 5.2.3 特征权重计算58-59
- 5.3 SVM 分类模型构建59
- 5.4 微博话题跟踪实验59-62
- 5.5 微博话题演变实验62-63
- 5.6 本章小结63-64
- 结论64-66
- 参考文献66-70
- 攻读学位期间发表论文与研究成果清单70-71
- 致谢71
【参考文献】
中国期刊全文数据库 前2条
1 吴悦;燕鹏举;翟鲁峰;;基于二元背景模型的新词发现[J];清华大学学报(自然科学版);2011年09期
2 谌志群;徐宁;王荣波;;基于主题演化图的网络论坛热点跟踪[J];情报科学;2013年03期
中国博士学位论文全文数据库 前1条
1 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
本文关键词:基于SVM的微博话题跟踪方法及其应用,由笔耕文化传播整理发布。
本文编号:277305
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/277305.html