基于微博热词挖掘的新闻话题提取研究
发布时间:2017-10-29 15:18
本文关键词:基于微博热词挖掘的新闻话题提取研究
更多相关文章: 微博热词 新闻话题 OAuth协议 LDA模型 概率主题模型
【摘要】:随着互联网技术的发展,传统的媒体技术格局已经逐渐改变,基于互联网新兴媒体技术具有传播速度快、透明度高的特点,微博已经成为互联网上新闻传播最快捷的媒体之一,越来越受到年轻人的喜欢。微博的出现为新闻话题的发现提供了一种新的方式和思路。现有的新闻挖掘模型和算法主要是通过抓取网页信息来获取,并存在数据更新慢、实时性差、挖掘准确率低等问题。通过微博热词挖掘提供新闻话题具有一定的现实意义。 本文通过分析一系列的基础理论和技术,建立了基于LDA的概率主题模型,,用于对微博数据进行热词挖掘和分析。论文设计了一个支持动态页面的网页文本爬虫算法。算法首先分析网页中的JavaScript文件或代码,使用HTTP协议向服务发送特定的信息请求,这种方式类似于行为人浏览网页信息的方式,能够高效的分析出网页异步加载的信息内容。同时,论文提供了一套对微博数据信息中重复微博和广告微博进行过滤的方法,并提出了热词计算的公式。在使用基于LDA的概率主体模型获取微博热词后,通过综合分析每个主题词的广泛性和突发性,计算每个单义词单元对应的主题词的热度,确定新闻话题,并返回至用户使用。 本文主要研究工作包括以下几个方面。 建立了合适有效的数据采集和文本预处理模型,设计支持动态页面的网页文本爬虫算法,用于微博数据的采集,并以新浪微博为例,通过开放平台获取微博数据,对采集的数据使用ICTCLAS系统进行分析处理,并进行去停用词处理,最后将预处理结果进行文本特征表示; 通过建立基于LDA的概率主题模型确定最终的文本主题作为新闻话题。经过实验测评显示,本文中提出的基于LDA的概率主题模型通过微博数据能够有效提取微博热词,从而确定新闻话题。
【关键词】:微博热词 新闻话题 OAuth协议 LDA模型 概率主题模型
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 插图索引10-11
- 附表索引11-12
- 第1章 绪论12-18
- 1.1 研究目的和意义12-14
- 1.1.1 研究的目的12
- 1.1.2 研究的意义12-14
- 1.2 国内外研究现状14-16
- 1.2.1 国外研究现状14-15
- 1.2.2 国内研究现状15-16
- 1.3 研究目标、组织结构及主要内容16-18
- 1.3.1 研究目标16-17
- 1.3.2 论文组织结构及主要内容17-18
- 第2章 基础理论及相关技术分析18-26
- 2.1 微博及数据特点分析18-20
- 2.1.1 微博简介18-19
- 2.1.2 微博数据特点分析19-20
- 2.2 常用微博热词发现方法20-21
- 2.3 网页文本抽取及网络爬虫21-23
- 2.3.1 PAT-Tree 技术21-22
- 2.3.2 网页文本抽取技术22-23
- 2.4 文本聚类和分类23-25
- 2.4.1 文本信息聚类23-24
- 2.4.2 文本信息分类24-25
- 2.5 本章小结25-26
- 第3章 微博数据采集及文本预处理26-39
- 3.1 网络爬虫的设计与实现26-32
- 3.1.1 动态页面网络爬虫算法26-29
- 3.1.2 网页文本信息抽取29-31
- 3.1.3 对比分析31-32
- 3.2 微博数据采集32-35
- 3.2.1 新浪微博开放平台32-33
- 3.2.2 OAuth 2.0 协议33-34
- 3.2.3 基于新浪 API 获取微博数据34-35
- 3.3 文本预处理35-37
- 3.3.1 分词处理35-36
- 3.3.2 ICTCLAS 系统分词36-37
- 3.3.3 去停用词37
- 3.4 文本特征选择及表示37-38
- 3.5 本章小结38-39
- 第4章 微博热词的挖掘与新闻话题的提取39-51
- 4.1 文本表示模型39-40
- 4.2 文本相似度计算40-41
- 4.3 微博信息过滤41-43
- 4.3.1 过滤重复微博41-42
- 4.3.2 过滤广告微博42-43
- 4.4 基于 LDA 的概率主体模型43-47
- 4.4.1 概率主题模型分析43-44
- 4.4.2 LDA 文档建模44-45
- 4.4.3 确定最优参数45
- 4.4.4 热度计算45-47
- 4.5 实验结果分析47-50
- 4.5.1 数据准备47
- 4.5.2 测评方法47-48
- 4.5.3 结果分析48-50
- 4.6 本章小结50-51
- 结论51-53
- 参考文献53-56
- 致谢56
【参考文献】
中国期刊全文数据库 前10条
1 阳小兰;钱程;赵海廷;;Web文本预处理技术探析[J];电脑知识与技术;2010年29期
2 蔡淑琴;张静;王e
本文编号:1113532
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1113532.html